🔵 عنوان مقاله
Exploring Postgres to Parquet Archival for JSON Data with S3 Range Reads
🟢 خلاصه مقاله:
این مقاله یک الگوی بایگانی داده ارائه میکند: انتقال رکوردهای سرد JSON از Postgres به فایلهای Parquet روی S3 برای کاهش هزینه و فشار عملیاتی، در حالیکه امکان بازیابی سریع حفظ میشود. دادهها با کلیدهایی مثل tenant_id و تاریخ پارتیشنبندی میشوند، با ابزارهایی مانند pyarrow یا Spark به Parquet (با فشردهسازی Snappy/ZSTD و اندازه row group مناسب) تبدیل میگردند و در S3 با مسیرهای قابل پیشبینی ذخیره میشوند. برای بازیابی تند، با تکیه بر S3 Range Reads و متادیتای footer در Parquet فقط row groupها و column chunkهای لازم خوانده میشود؛ اگر lookup کلیدی بسیار سریع نیاز باشد، کنار هر فایل Parquet یک index کوچک نگهداری میشود که id را به بایترنچهای لازم نگاشت میکند. مسیر بازگردانی میتواند رکوردهای انتخابی را به Postgres برگرداند یا مستقیماً از S3 سرویس دهد؛ و موضوعاتی مانند رمزنگاری، نسخهبندی، lifecycle، و سنجش هزینه/کارایی نیز پوشش داده شده است.
#Postgres #Parquet #S3 #JSON #RangeReads #DataArchival #DataEngineering #AWS
🟣لینک مقاله:
https://postgresweekly.com/link/175387/web
➖➖➖➖➖➖➖➖
👑 @Database_Academy
Exploring Postgres to Parquet Archival for JSON Data with S3 Range Reads
🟢 خلاصه مقاله:
این مقاله یک الگوی بایگانی داده ارائه میکند: انتقال رکوردهای سرد JSON از Postgres به فایلهای Parquet روی S3 برای کاهش هزینه و فشار عملیاتی، در حالیکه امکان بازیابی سریع حفظ میشود. دادهها با کلیدهایی مثل tenant_id و تاریخ پارتیشنبندی میشوند، با ابزارهایی مانند pyarrow یا Spark به Parquet (با فشردهسازی Snappy/ZSTD و اندازه row group مناسب) تبدیل میگردند و در S3 با مسیرهای قابل پیشبینی ذخیره میشوند. برای بازیابی تند، با تکیه بر S3 Range Reads و متادیتای footer در Parquet فقط row groupها و column chunkهای لازم خوانده میشود؛ اگر lookup کلیدی بسیار سریع نیاز باشد، کنار هر فایل Parquet یک index کوچک نگهداری میشود که id را به بایترنچهای لازم نگاشت میکند. مسیر بازگردانی میتواند رکوردهای انتخابی را به Postgres برگرداند یا مستقیماً از S3 سرویس دهد؛ و موضوعاتی مانند رمزنگاری، نسخهبندی، lifecycle، و سنجش هزینه/کارایی نیز پوشش داده شده است.
#Postgres #Parquet #S3 #JSON #RangeReads #DataArchival #DataEngineering #AWS
🟣لینک مقاله:
https://postgresweekly.com/link/175387/web
➖➖➖➖➖➖➖➖
👑 @Database_Academy
Shayon Mukherjee
Exploring PostgreSQL to Parquet archival for JSON data with S3 range reads
Moving large JSON payloads from PostgreSQL TOAST tables to Parquet on S3 with deterministic sharding, row-group pruning, and range-based reads for millisecond point lookups.
❤1
🔵 عنوان مقاله
TOON (GitHub Repo)
🟢 خلاصه مقاله:
TOON یک جایگزین فشرده و خوانا برای JSON است که با حفظ همان دادهها، از قالب جدولی و تورفتگی استفاده میکند تا LLMها آن را راحتتر و دقیقتر پردازش کنند. این روش در آرایههای یکنواخت از اشیاء با تعریف یک بار کلیدها و نمایش ردیفهای مقدار، معمولاً ۳۰ تا ۶۰ درصد توکن کمتری نسبت به JSON مصرف میکند و خطاهای پرانتز/نقلقول را کاهش میدهد. TOON برای خروجیهای ساختیافته، تبادل داده در زنجیره ابزارهای هوش مصنوعی و مجموعهدادههای تکراری مناسب است و بدون از دستدادن معنا، بهطور قابل اعتماد به JSON رفتوبرگشت میشود.
#TOON #JSON #LLM #DataFormat #TokenEfficiency #PromptEngineering #Parsing #OpenSource
🟣لینک مقاله:
https://github.com/toon-format/toon?utm_source=tldrdata
➖➖➖➖➖➖➖➖
👑 @Database_Academy
TOON (GitHub Repo)
🟢 خلاصه مقاله:
TOON یک جایگزین فشرده و خوانا برای JSON است که با حفظ همان دادهها، از قالب جدولی و تورفتگی استفاده میکند تا LLMها آن را راحتتر و دقیقتر پردازش کنند. این روش در آرایههای یکنواخت از اشیاء با تعریف یک بار کلیدها و نمایش ردیفهای مقدار، معمولاً ۳۰ تا ۶۰ درصد توکن کمتری نسبت به JSON مصرف میکند و خطاهای پرانتز/نقلقول را کاهش میدهد. TOON برای خروجیهای ساختیافته، تبادل داده در زنجیره ابزارهای هوش مصنوعی و مجموعهدادههای تکراری مناسب است و بدون از دستدادن معنا، بهطور قابل اعتماد به JSON رفتوبرگشت میشود.
#TOON #JSON #LLM #DataFormat #TokenEfficiency #PromptEngineering #Parsing #OpenSource
🟣لینک مقاله:
https://github.com/toon-format/toon?utm_source=tldrdata
➖➖➖➖➖➖➖➖
👑 @Database_Academy
GitHub
GitHub - toon-format/toon: 🎒 Token-Oriented Object Notation (TOON) – Compact, human-readable, schema-aware JSON for LLM prompts.…
🎒 Token-Oriented Object Notation (TOON) – Compact, human-readable, schema-aware JSON for LLM prompts. Spec, benchmarks, TypeScript SDK. - toon-format/toon
🔵 عنوان مقاله
On the Efficient Storage of JSON Data in Postgres
🟢 خلاصه مقاله:
در مقالهای تحت عنوان «ذخیره بهینه دادههای JSON در پایگاه داده پستگرس»، به بررسی روشهای مختلف برای مدیریت و بهبود ذخیرهسازی دادههای ساختاریافته میپردازد. در ابتدا، تفاوتهای بین نوع داده JSON و JSONB در پستگرس مورد بررسی قرار میگیرد. JSON نوعی داده متنی است که امکان ذخیرهسازی دادههای ساختاریافته به صورت متن خام را فراهم میکند، ولی در مقایسه با JSONB که نسخه باینری و فشردهتر است، کارایی کمتری دارد. JSONB چون دادهها را پس از وارد کردن، به صورت باینری ذخیره میکند، امکانات بیشتری در زمینه جستجو و فیلتر کردن دارد و عملیات روی دادهها سریعتر انجام میشود.
در بخش بعد، اهمیت فشردهسازی دادهها در کاهش حجم ذخیرهسازی مورد بحث قرار میگیرد. پستگرس چندین روش فشردهسازی را پشتیبانی میکند، از جمله pglz و lz4. pglz که معمولتر است، امکان فشردهسازی سریع و نسبتاً مؤثر را فراهم میکند، در حالی که lz4 با تمرکز بر سرعت بالا، فشردهسازی بسیار پرسرعتتری ارائه میدهد. انتخاب بین این دو روش براساس نیازهای خاص سیستم، تاثیر قابل توجهی بر کارایی و مصرف فضای دیسک دارد.
در نتیجه، کلیت مقاله به راهکارهای بهبود کارایی و کاهش میزان فضای مصرفی برای ذخیرهسازی دادههای JSON در پستگرس میپردازد، و اهمیت انتخاب نوع داده مناسب و روشهای فشردهسازی در ساختارهای پایگاه دادههای مدرن و بزرگ را برجسته میکند. این نکات برای توسعهدهندگان و مدیران بانکهای اطلاعاتی که به دنبال بهینهسازی عملکرد و حجم دادهها هستند، بسیار مفید است.
#پستگرس #JSON #فشردهسازی #ذخیرهسازی
🟣لینک مقاله:
https://postgresweekly.com/link/177987/web
➖➖➖➖➖➖➖➖
👑 @Database_Academy
On the Efficient Storage of JSON Data in Postgres
🟢 خلاصه مقاله:
در مقالهای تحت عنوان «ذخیره بهینه دادههای JSON در پایگاه داده پستگرس»، به بررسی روشهای مختلف برای مدیریت و بهبود ذخیرهسازی دادههای ساختاریافته میپردازد. در ابتدا، تفاوتهای بین نوع داده JSON و JSONB در پستگرس مورد بررسی قرار میگیرد. JSON نوعی داده متنی است که امکان ذخیرهسازی دادههای ساختاریافته به صورت متن خام را فراهم میکند، ولی در مقایسه با JSONB که نسخه باینری و فشردهتر است، کارایی کمتری دارد. JSONB چون دادهها را پس از وارد کردن، به صورت باینری ذخیره میکند، امکانات بیشتری در زمینه جستجو و فیلتر کردن دارد و عملیات روی دادهها سریعتر انجام میشود.
در بخش بعد، اهمیت فشردهسازی دادهها در کاهش حجم ذخیرهسازی مورد بحث قرار میگیرد. پستگرس چندین روش فشردهسازی را پشتیبانی میکند، از جمله pglz و lz4. pglz که معمولتر است، امکان فشردهسازی سریع و نسبتاً مؤثر را فراهم میکند، در حالی که lz4 با تمرکز بر سرعت بالا، فشردهسازی بسیار پرسرعتتری ارائه میدهد. انتخاب بین این دو روش براساس نیازهای خاص سیستم، تاثیر قابل توجهی بر کارایی و مصرف فضای دیسک دارد.
در نتیجه، کلیت مقاله به راهکارهای بهبود کارایی و کاهش میزان فضای مصرفی برای ذخیرهسازی دادههای JSON در پستگرس میپردازد، و اهمیت انتخاب نوع داده مناسب و روشهای فشردهسازی در ساختارهای پایگاه دادههای مدرن و بزرگ را برجسته میکند. این نکات برای توسعهدهندگان و مدیران بانکهای اطلاعاتی که به دنبال بهینهسازی عملکرد و حجم دادهها هستند، بسیار مفید است.
#پستگرس #JSON #فشردهسازی #ذخیرهسازی
🟣لینک مقاله:
https://postgresweekly.com/link/177987/web
➖➖➖➖➖➖➖➖
👑 @Database_Academy