Database Labdon

🔵 عنوان مقاله
Exploring Postgres to Parquet Archival for JSON Data with S3 Range Reads

🟢 خلاصه مقاله:
این مقاله یک الگوی بایگانی داده ارائه می‌کند: انتقال رکوردهای سرد JSON از Postgres به فایل‌های Parquet روی S3 برای کاهش هزینه و فشار عملیاتی، در حالی‌که امکان بازیابی سریع حفظ می‌شود. داده‌ها با کلیدهایی مثل tenant_id و تاریخ پارتیشن‌بندی می‌شوند، با ابزارهایی مانند pyarrow یا Spark به Parquet (با فشرده‌سازی Snappy/ZSTD و اندازه row group مناسب) تبدیل می‌گردند و در S3 با مسیرهای قابل پیش‌بینی ذخیره می‌شوند. برای بازیابی تند، با تکیه بر S3 Range Reads و متادیتای footer در Parquet فقط row group‌ها و column chunk‌های لازم خوانده می‌شود؛ اگر lookup کلیدی بسیار سریع نیاز باشد، کنار هر فایل Parquet یک index کوچک نگهداری می‌شود که id را به بایت‌رنچ‌های لازم نگاشت می‌کند. مسیر بازگردانی می‌تواند رکوردهای انتخابی را به Postgres برگرداند یا مستقیماً از S3 سرویس دهد؛ و موضوعاتی مانند رمزنگاری، نسخه‌بندی، lifecycle، و سنجش هزینه/کارایی نیز پوشش داده شده است.

#Postgres #Parquet #S3 #JSON #RangeReads #DataArchival #DataEngineering #AWS

🟣لینک مقاله:
https://postgresweekly.com/link/175387/web

➖➖➖➖➖➖➖➖
👑 @Database_Academy

Shayon Mukherjee

Exploring PostgreSQL to Parquet archival for JSON data with S3 range reads

Moving large JSON payloads from PostgreSQL TOAST tables to Parquet on S3 with deterministic sharding, row-group pruning, and range-based reads for millisecond point lookups.

❤1

145 views08:31

Database Labdon

🔵 عنوان مقاله
TOON (GitHub Repo)

🟢 خلاصه مقاله:
TOON یک جایگزین فشرده و خوانا برای JSON است که با حفظ همان داده‌ها، از قالب جدولی و تورفتگی استفاده می‌کند تا LLMها آن را راحت‌تر و دقیق‌تر پردازش کنند. این روش در آرایه‌های یکنواخت از اشیاء با تعریف یک بار کلیدها و نمایش ردیف‌های مقدار، معمولاً ۳۰ تا ۶۰ درصد توکن کمتری نسبت به JSON مصرف می‌کند و خطاهای پرانتز/نقل‌قول را کاهش می‌دهد. TOON برای خروجی‌های ساخت‌یافته، تبادل داده در زنجیره ابزارهای هوش مصنوعی و مجموعه‌داده‌های تکراری مناسب است و بدون از دست‌دادن معنا، به‌طور قابل اعتماد به JSON رفت‌وبرگشت می‌شود.

#TOON #JSON #LLM #DataFormat #TokenEfficiency #PromptEngineering #Parsing #OpenSource

🟣لینک مقاله:
https://github.com/toon-format/toon?utm_source=tldrdata

➖➖➖➖➖➖➖➖
👑 @Database_Academy

GitHub

GitHub - toon-format/toon: 🎒 Token-Oriented Object Notation (TOON) – Compact, human-readable, schema-aware JSON for LLM prompts.…

🎒 Token-Oriented Object Notation (TOON) – Compact, human-readable, schema-aware JSON for LLM prompts. Spec, benchmarks, TypeScript SDK. - toon-format/toon

117 views05:30

Database Labdon

🔵 عنوان مقاله
On the Efficient Storage of JSON Data in Postgres

🟢 خلاصه مقاله:
در مقاله‌ای تحت عنوان «ذخیره بهینه داده‌های JSON در پایگاه داده پستگرس»، به بررسی روش‌های مختلف برای مدیریت و بهبود ذخیره‌سازی داده‌های ساختاریافته می‌پردازد. در ابتدا، تفاوت‌های بین نوع داده JSON و JSONB در پستگرس مورد بررسی قرار می‌گیرد. JSON نوعی داده متنی است که امکان ذخیره‌سازی داده‌های ساختاریافته به صورت متن خام را فراهم می‌کند، ولی در مقایسه با JSONB که نسخه باینری و فشرده‌تر است، کارایی کمتری دارد. JSONB چون داده‌ها را پس از وارد کردن، به صورت باینری ذخیره می‌کند، امکانات بیشتری در زمینه جستجو و فیلتر کردن دارد و عملیات روی داده‌ها سریع‌تر انجام می‌شود.

در بخش بعد، اهمیت فشرده‌سازی داده‌ها در کاهش حجم ذخیره‌سازی مورد بحث قرار می‌گیرد. پستگرس چندین روش فشرده‌سازی را پشتیبانی می‌کند، از جمله pglz و lz4. pglz که معمول‌تر است، امکان فشرده‌سازی سریع و نسبتاً مؤثر را فراهم می‌کند، در حالی که lz4 با تمرکز بر سرعت بالا، فشرده‌سازی بسیار پرسرعت‌تری ارائه می‌دهد. انتخاب بین این دو روش براساس نیازهای خاص سیستم، تاثیر قابل توجهی بر کارایی و مصرف فضای دیسک دارد.

در نتیجه، کلیت مقاله به راهکارهای بهبود کارایی و کاهش میزان فضای مصرفی برای ذخیره‌سازی داده‌های JSON در پستگرس می‌پردازد، و اهمیت انتخاب نوع داده مناسب و روش‌های فشرده‌سازی در ساختارهای پایگاه داده‌های مدرن و بزرگ را برجسته می‌کند. این نکات برای توسعه‌دهندگان و مدیران بانک‌های اطلاعاتی که به دنبال بهینه‌سازی عملکرد و حجم داده‌ها هستند، بسیار مفید است.

#پستگرس #JSON #فشرده‌سازی #ذخیره‌سازی

🟣لینک مقاله:
https://postgresweekly.com/link/177987/web

➖➖➖➖➖➖➖➖
👑 @Database_Academy

127 views05:30

About

Blog

Apps

Platform