Database Labdon
882 subscribers
37 photos
3 videos
1 file
899 links
🕸 Database Academy

حمایت مالی:
https://www.coffeete.ir/mrbardia72

ادمین:
@mrbardia72
Download Telegram
🔵 عنوان مقاله
Apache Parquet vs. Newer File Formats (BtrBlocks, FastLanes, Lance, Vortex) (7 minute read)

🟢 خلاصه مقاله:
Apache Parquet بیش از یک دهه فرمت ستونی غالب بوده و به لطف چیدمان ستونی، فشرده‌سازی مؤثر و پشتیبانی گسترده در اکوسیستم‌هایی مثل Spark و Iceberg، برای اسکن‌های حجیم و تحلیل‌های دسته‌ای عالی عمل می‌کند. اما با تغییر نیازها به سمت AI و سخت‌افزارهای جدید مثل NVMe، SIMD و GPU، فرمت‌های تازه‌ای مانند BtrBlocks، FastLanes، Lance، Vortex و Nimble معرفی شده‌اند که روی دسترسی کم‌تأخیر، بهره‌گیری از SIMD/GPU و خواندن گزینشی داده تمرکز دارند. این فرمت‌ها معمولاً با بازطراحی کُدگذاری و چیدمان صفحات، سربار پردازش را کاهش می‌دهند و برای پایپ‌لاین‌های AI و تحلیل تعاملی مناسب‌تر می‌شوند. در مقابل، Parquet از بلوغ و سازگاری گسترده برخوردار است و ابزارها و عملیات پایدار‌تری دارد. راهبرد منطقی، حفظ Parquet برای تبادل و تحلیل عمومی و استفاده هدفمند از فرمت‌های جدید در سناریوهایی است که بهبود ملموسی در تأخیر یا هزینه محاسباتی روی NVMe/GPU نشان می‌دهند.

#ApacheParquet #FileFormats #ColumnarStorage #AI #GPU #NVMe #SIMD #DataEngineering

🟣لینک مقاله:
https://dipankar-tnt.medium.com/apache-parquet-vs-newer-file-formats-btrblocks-fastlanes-lance-vortex-cdf02130182c?utm_source=tldrdata


👑 @Database_Academy
🔵 عنوان مقاله
F3: The Open-Source Data File Format for the Future (45 minute read)

🟢 خلاصه مقاله:
F3 یک فرمت ستونی متن‌باز و نسل جدید است که با تمرکز بر میان‌عملیاتی، توسعه‌پذیری و کارایی طراحی شده و هنوز در حال تکامل است. نوآوری اصلی آن جاسازی منطق رمزگشایی WebAssembly داخل هر فایل است تا خواننده‌های قدیمی و جدید بتوانند بدون به‌روزرسانی همزمان کتابخانه‌ها، رمزگذاری‌های تازه را تفسیر کنند. F3 با جدا کردن چیدمان واحدهای I/O از گروه‌های ردیف، امکان بهینه‌سازی برای الگوهای دسترسی گوناگون را فراهم می‌کند؛ همچنین با پشتیبانی از محدوده‌های لغت‌نامه‌ای انعطاف‌پذیر و استفاده از flatbuffers برای دسترسی سریع به فراداده، هم فشرده‌سازی و هم سرعت رمزگشایی را بهبود می‌دهد. ارزیابی‌ها نشان می‌دهد F3 از نظر کارایی هم‌تراز Parquet و ORC است و در عین حال تکامل بی‌دردسر فرمت را ممکن می‌سازد؛ کد پیاده‌سازی آن نیز به‌صورت عمومی در دسترس است.

#DataFormats #ColumnarStorage #WebAssembly #OpenSource #Parquet #ORC #FlatBuffers #DataEngineering

🟣لینک مقاله:
https://db.cs.cmu.edu/papers/2025/zeng-sigmod2025.pdf?utm_source=tldrdata


👑 @Database_Academy