دستاوردهای یادگیری عمیق(InTec)

Forwarded from RandRng

بخاطر عدم دسترسی به اینترنت بین‌المللی باب شده خیلی از شرکت‌ها و خیلی از بچه‌ها از لینک‌های داخلی برای دانلود مدل‌های هوش مصنوعی استفاده می‌کنند.
چون huggingface در دسترس نیست.

برای تست منم همینکار رو کردم و مدل gemma-4-E2B-it-Q4_K_M.gguf رو از چندین منبع که تو گروها معرفی شده بود دانلود کردم (همینجا بگم؛ خوب پیش نرفت) :

۱- ۵۰٪ موارد مدل‌ها آپدیت نشده بود؛ یک سری مشکلات باعت می‌شد دقت مدل‌ها پایین بیاد گوگل این موضوع رو با آپدیت مدل‌ها چندروز بعد از انتشار برطرف کرد ولی خیلی از لینک‌های داخلی آپدیت نشدند و عملا بدرد نمی‌خوره.

۲- خیلی از سایت‌ها sha256 مدل با sha256 چیزی که huggingface منتشر می‌کنه نمی‌خونه!

اگر به api مربوط به hugging face درخواست بدید sha256 مدل‌هارو می‌تونید ببینید :
unsloth-sample-api-link :
https://huggingface.co/api/models/unsloth/gemma-4-E2B-it-GGUF/tree/main

توی مواردی که من مقایسه کردم؛‌ همگی متفاوت بود.
غیر از اون‌هایی که بنظر سایت‌های رسمی میاد ولی متاسفانه آپدیت مدل‌ها رو نداشتند.

گفتم اینجا بذارم چون عده‌ی زیادی (شاید ۹۹٪) حتی نمی‌دونند این api و sha256 ها وجود داره.

پیشنهاد می‌کنم بسیار مراقب باشید. نمی‌دونم چندنفر تا الان ارین لینک‌های داخلی استفاده کردند ولی مطمئن خیلی‌هاشون حتی به بررسی sha256 فکر هم نکردند. بخصوص اونا که روی سیستم شرکتی کار می‌کنند.

❤16👍9

3.55K views08:44

دستاوردهای یادگیری عمیق(InTec)

Forwarded from RandRng

17.91 token/sec

برای شروع عدد خوبی هست ؟

روی GTX 1060 با ۶ گیگ گرافیک فکر کنم این GPU الان ۳۰ دلار قیمتش باشه
ولی داره Qwen3.6 با ۳۵ میلیارد پارامتر رو اجرا می‌کنه

docker run --gpus all --cap-add=IPC_LOCK \
  -p 8080:8080 \
  -v ~/.ai_models:/models:ro \
  -e LD_LIBRARY_PATH=/app \
  reg.home.arpa/ggml-org/llama.cpp:server-cuda \
  -m /models/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf \
  --n-cpu-moe 34 \
  --no-mmap \
  --mlock \
  --cache-type-k q8_0 \
  --cache-type-v q8_0 \
  --host 0.0.0.0 \
  --port 8080

خداییش این رو کپی نکنید؛ البته ۹۹٪ اعضای کانال فروارد می‌کنند (دمتون گرم ❤️) آمار فروارد رو دیدم ولی خب برای اون ۱٪ که پست‌هام رو تو لینکدین به اسم خودشون می‌ذارند این یکی رو اینکار رو نکنید.
واقعا انرژی گرفت ازم

اگر خواستید خودتون اجرا کنید :
۱- حتما llamacpp رو آپدیت کنید؛ نسخه cuda 13 رو نگیرید؛ nvidia 1060 به زور cuda 13.0 رو پشتیبانی میده
نسخه درایور nvidia روی باید بالاتر از 570 ببرید (خیلی جاها می‌گن 575) من مستقیم برای آخرین نسخه ها رفتم و درنهایت متوجه شدم که 580 آخرین نسخه‌ای هست که این کارت گرافیک رو پشتیبانی می‌کنه پیشنهاد می‌کنم که دقیقا هم روی این نسخه بمونید.

۲- به هیچ‌وجه سراغ درایور open source نرید؛‌ یک سری باگ‌هایی داره که نتایج خیلی بدی بهتون میده

۳- پارامترها رو من تا جایی که شده اپتیمایز کردم پس همین اعداد رو بذراید باشه؛ اگر gpu شما حافظه بیشتری داره پیشنهاد می‌کنم

—n-cpu-moe

رو عدد کوچکتری بذارید تقریبا هر لایه ۵۰۰ مگ گرافیک می‌خواد یعنی اگر gpu شما ۸ گیگ هست شما این مقدار رو می‌تونید بجای 34 توی تست من روی 32 بذارید تا مقدار بیشتری از لایه‌ها روی gpu قرار بگیره

درنهایت؛ یک تکنیک دیگر هست که فکر می‌کنم با اضافه کردن اون به ۲۰ هم برسم یا شاید بتونم کانتکست رو دستی تنظیم کنم روی 256K و اون هم TurboQuant هست برای k-v cache من اینجا برای اطمینان از base-line با q8 که نرم هست رفتم جلو.

میزان مصرف هم اینطوری هست که :
5684MiB / 6144MiB Nvidia 1060GPU
و حدود ۱۹ گیگ از رم سیستم رو استفاده کرده.

البته من چون سیستم رو استفاده می‌کنم با محیط گرافیکی اومدم بالا و کمی از رم برای اون استفاده شده

——————————
البته همه‌ی این‌ها به لطف یکی از دوستان بود که vpn لازم برای تست رو فراهم کرد. ❤️🌹

پینوشت:
من تا اینجا هدفم سرعت توکن خروجی بود؛ بعد از این با TurboQuant و تکنیک های جدیدی که معرفی شده سعی می‌کنم کانتکست توکن رو افزایش بدم.

❤39👍5

3.88K views21:22

دستاوردهای یادگیری عمیق(InTec)

Forwarded from RandRng

Designing Data-Intensive Applications
یکی از کتاب‌های مورد علاقه من هست؛ وقتی نسخه اول این کتاب منتشر شد من هم بسیار درگیر سیستم‌هایی بودم که دیتای زیادی داشتند و BigData بخشی از کارم بود.

خوندن این کتاب دریچه جدیدی رو برام باز کرد و الان که فکر می‌کنم کتاب سنگینی بود؛ حالا چرا الان این رو می‌گم ؟

قبل از اتفاقات اخیر کمک یکی از دوستان قدیمی می‌کردم که تازه (۲ سال) هست وارد دنیای برنامه‌نویسی بعنوان شغل شده و چندوقتی رو درگیر یک سری مشکلات پروژه‌اش بوده؛ بعد از اینکه کمکش کردم مشکلش حل شد ازم پرسید این موارد رو از کجا یاد گرفتی و چطوری می‌تونم یاد بگیرم ؟
منم این کتاب رو بهش معرفی کردم.

امروز دوباره پیام داد (ایران نیستند) و بعد از صحبت از کتاب گفت که بسیار خوندنش سخت هست براش؛ برای خیلی از سنیورها هم درک این موضوعات سخت هست بطور کلی این کتاب کتاب آسونی نیست هرچند همه چیز ساده بیان شده.

همینطوری که داشتم فکر می‌کردم چطوری می‌شه این کتاب رو برای دیگران ساده کرد و پروسه یادگیری خودم رو مرور می‌کردم ( همون روش ویدئو ببین و تخمه بشکون : ویدئو اول یوتیوب pyhints )

❤13

3.02K views13:09

دستاوردهای یادگیری عمیق(InTec)

Forwarded from RandRng

RandRng

Designing Data-Intensive Applications یکی از کتاب‌های مورد علاقه من هست؛ وقتی نسخه اول این کتاب منتشر شد من هم بسیار درگیر سیستم‌هایی بودم که دیتای زیادی داشتند و BigData بخشی از کارم بود. خوندن این کتاب دریچه جدیدی رو برام باز کرد و الان که فکر می‌کنم کتاب…

Audio

به ذهنم رسید همین کار رو برای این کتاب هم میشه کرد؛ ولی خب این کتاب ویدئویی براش وجود نداره.

این شد که به هوش مصنوعی رو آوردم بدون اینکه لذت خوندن کتاب رو از کسی بگیریم ازش خواستم کتاب رو تبدیل به پادکست کنه اما توی کل پادکست باید همه چیز با مثال پیش بره و خیلی ساده و روان باشه.

برای منی که این مباحث رو اکثرا کار کردم بنظرم خیلی ساده اومد؛ شما هم گوش بدید ببینید چطور هست ؟

بنظرتون اینکار و پادکست کردن فصل به فصل کتاب‌ها ادامه بدم یا نه ؟

البته باقی پادکست‌ها رو توی این کانال نخواهم گذاشت؛ چون کانال رو پر می‌کنه.

اول این سمپل پادکست رو گوش بدید و بعد کتاب رو بخونید ساده‌تر می‌شه قضیه برای شما هم ؟

آیا این بخش پادکست به اندازه کافی مباحث رو ساده توضیح داده ؟

پینوشت: reaction بزنید روی پست متوجه ‌میشم ادامه بدیم یا نه؛ البته شخصا اینکار رو ادامه خواهم داد. چون وسط هرکاری می‌تونم این پادکست رو گوش بدم.

❤65👍14

3.17K views13:09

دستاوردهای یادگیری عمیق(InTec)

RandRng

@lectour

❤12👍3

3.71K views16:50

دستاوردهای یادگیری عمیق(InTec)

Forwarded from RandRng

توی لینکدین هر کاربر ایرانی که داستان‌های واقعی رو نصف و نیمه می‌کنه و فقط بخش خوب قضیه‌ی استفاده از AI برای توسعه کد رو می‌گه،
پروفایلش رو به دقت نگاه کنید.

توی ۷-۸ موردی که من دیدم، همگی TechLead, CEO, CTO, ... شرکت‌های هوش مصنوعی داخلی بودند که خب اگر شما ازشون توکن نخرید وضعیت خوبی نخواهند داشت.

داستان‌های دیگری که باید بشنوید:

۱- لینوس توروالدز (پروژه‌ای رو vibe کد زده) آره اما مصاحبه‌اش رو هم ببینید LTT یوتیوب، که گفت هیچ سوادی راجب این بخش نداره و می‌خواد فقط یک چیزی رو برای خودش تست کنه.
اما، این شرکت‌ها وقتی صحبت می‌کنند طوری اعلام می‌کنند که انگار کرنل لینوکس رو با vibe coding نوشتند.

۲- تغییر bun از zig به rust ؛ این مورد رو شخصاً قبلتر براتون واضح بررسی کردم.
zig, rust
شبیه به هم کدها فقط از یک سورس به سورس دیگه transcompile شده انگار بخش unsafe دست نخورده و کامل فقط کپی شده

از همه بدتر، هیچ صحبتی از میزان هزینه و تعداد توکن مصرفی نشده.

۳- بنچمارک جدیدی برای Software Engineering اومده، برخلاف بنچمارک‌های قبلی نه از گیت‌هاب پروژه‌های عمومی و نه از بخش discussion و ... ساخته نشده.

دلیلش هم این بوده که، بالاخره این دیتا توی آموزش مدل حتماً به نحوی استفاده شده پس سوالات و جواب‌هارو خودشون طراحی کردند.

نتایج ؟ هیچ کدوم از مدل‌ها به اندازه‌ای که گفتند قوی نبودند.

۴- شرکت اوبر، اعلام شده بودجه‌ی AI برای سال ۲۰۲۶ توی ۴ ماه مصرف شده و حالا دارند به این موضوع فکر می‌کنند که شاید از اول اشتباه کردند.

و کلی موارد دیگر، من تخصصم خیلی سال روی AI بوده و هست. هرچقدر پول بیشتری وارد این حوزه بشه من هم سهم بزرگتری خواهم داشت
اما، من برای منفعت خودم به کسی رویا نمی‌فروشم، واقعیت رو دست و پا شکسته نمی‌گم.

شما هم حداقل به پروفایل شخصی که دارید پستش رو می‌خونید نگاه کنید.

#شب_بخیر 🌹

❤37👍21

4.34K views00:14

دستاوردهای یادگیری عمیق(InTec)

Forwarded from RandRng

برق قطع شده بود چند ساعت پیش؛ نشستم پای تبلت و یک مقدار توی لینکدین و کانال‌های ایرانی گشتم.

طرف یک کار کوچیک رو برای خودش همچین دستاورد کرده آدم پشماش میریزه؛ برید vLLM رو سرچ کنید متوجه می‌شید چی می‌گم :

می‌خوام کاسبی بهم بریزم :
vLLM Recipes

این لینک به راحتی همه آن چیزی که برای دیپلوی سریع یگ مدل نیاز دارید رو بهتون میده؛ کامند + ورژن + فلگ‌های موجود و ...

هر کسی ۵ دقیقه داکیومنت vLLM رو خونده باشه این رو باید پیدا کنه.
خطاب به اون دوستان :
ازینا دستاورد نسازید واسه خودتون بعد از این رو بگید که چه optimization هایی انجام دادید و چقدر بهبود داشتید و ...

من اصل مطلب رو داشتم توی بوکمارک‌هام دیدم خیلی‌ها علاقه‌مند بودند توی لینکدین گفتم بجای اینکه براشون ماهی بگیرم؛ ماهی گرفتن رو یادشون بدم.
دعوای ورژن هم ندارید؛ وارد سایت که بشید بالای صفخه براتون نوشته دقیقا چه ورژنی از vLLM این مدل رو پشتیبانی می‌کنه

مثال :‌
من مدل JetBrain رو انتخاب کردم که توی Nightly پشتیبانی می‌شه و روی BF16 برای vLLM به 29GB رم نیاز داره.
پارامتر‌های دیگه‌اش هم هست؛ می‌خواید tool call رو غیرفعال کنید (من اینو انتخاب کردم) و باقی موارد توی بخش advance

پایینتر هم بیاید توضیحات آموزشی براتون گذاشته.

recipes.vllm.ai

JetBrains/Mellum2-12B-A2.5B-Thinking — 12B / 2.5B active · MOE · 128K ctx

JetBrains' reasoning-augmented code MoE (12B total / 2.5B active) that emits explicit <think> chains for debugging, planning, and agentic coding

❤17👍6

3.54K views16:31

دستاوردهای یادگیری عمیق(InTec)

اگر از agent ها زیاد استفاده می‌کنید احتمالا این مورد نتایج رو براتون بهبود بده؛

من خیلی استفاده ندارم؛ اما توی ۱-۲ مورد که تست کردم بهبود خوبی دیدم

SkillOps

بنظرم ارزش تست کردن روی موارد بیشتر رو هم داره

GitHub

GitHub - microsoft/SkillOpt: SkillOpt is a text-space optimizer that trains reusable natural-language skills for frozen LLM agents…

SkillOpt is a text-space optimizer that trains reusable natural-language skills for frozen LLM agents through trajectory-driven edits, validation-gated updates, and deployable best_skill.md artifac...

❤11

3.04K viewsedited 11:42

دستاوردهای یادگیری عمیق(InTec)

اگر از agent ها زیاد استفاده می‌کنید احتمالا این مورد نتایج رو براتون بهبود بده؛ من خیلی استفاده ندارم؛ اما توی ۱-۲ مورد که تست کردم بهبود خوبی دیدم SkillOps بنظرم ارزش تست کردن روی موارد بیشتر رو هم داره

برای یک سری تسک‌های مثل این هست که پیشنهاد می‌کنم شرکت‌هایی که جدی روی هوش مصنوعی کار می‌کنند حتما
DGX Spark
رو حداقل برای تیم‌های هوش مصنوعی بخرند.

👍10❤1

2.55K views11:53

دستاوردهای یادگیری عمیق(InTec)

Forwarded from RandRng

دیروز یا پیروز GLM5.2 روی وبسایت
chat.z.ai
اضافه شد و این یعنی نسخه نهایی هست (نسخه‌ای که قبلتر روی api اومده بود نهایی نشده بود)

بعنوان یک مدل رایگان و opensource باید بگم هیولا هست؛ برای من نصف تست‌هام که روی کدها انجام میدادم رو با همون تلاش اول بطور درست حل کرد (این موارد رو حذف کردم از لیست)

آمار جالبی هم ازش منتشر شده؛ بطوریکه شرکت‌های با بنچمارک‌های خصوصی حالا اون رو رقیب مدل‌های Claude برای کد زدن و رقیب مدل‌های OpenAI برای چت‌های کلی می‌دونند.

اما نتابج فوق‌العاده بهتری می‌شه ازش گرفت به این شرط‌ها :

۱- اگر نیاز به سرچ داره؛ گزینه advance search رو فعال کنید یا دقیقا منبع رو بهش بدید

۲- پرامپت رو طولانی نکنید؛ سعی کنید مشکل رو توی کوچکترین متن ممکن بهش بدید اما رمزنگاری شده هم نباشه:
اشتباه :
نگید کد کند شده؛ مشکل از دیتابیس هست.
درست :
این کد کند شده؛ چون تعداد درخواست‌های همزمان به n تعداد افزایش پیدا کرده و مستقیم از دیتابیس پستگرس داره می‌خونه که از کانفیگ دیفالت استفاده می‌کنه

۳- پرامپت فارسی بهش ندید؛ شخصا توی خیلی از مدل‌ها دیدم وقتی غیر انگلیسی باهاش چت می‌کنم نتابج ضعیفتر می‌شه.

۴- اگر توی prompt یک نمونه از خروجی که می‌خواید رو بهش بدید هم عملکرد بهتری داره

متاسفانه این مدل COT رو نمایش نمیده (قبلتر نوشتم چرا خوندنش مهم هست؛ توی پستی که راجب deepseek بود)
و الان هم این مدل رو معرفی کردم مجدد چون دسترسی به z.ai برای ایرانی‌ها مجدد باز شد.

درنهایت:
با اضافه شدن ۴ مورد بالا؛ ۷۵٪ از تست‌های خصوصی من رو حل کرد و این تست‌ها مواردی هست که مدل‌های دیگه نتونسته بودند انجام بدند (قبلتر راجبش پست گذاشته بودم)

پیشنهاد می‌کنم حتما این مدل رو تست کنید.

❤15

2.02K views14:03

دستاوردهای یادگیری عمیق(InTec)

Forwarded from RandRng

RandRng

دیروز یا پیروز GLM5.2 روی وبسایت chat.z.ai اضافه شد و این یعنی نسخه نهایی هست (نسخه‌ای که قبلتر روی api اومده بود نهایی نشده بود) بعنوان یک مدل رایگان و opensource باید بگم هیولا هست؛ برای من نصف تست‌هام که روی کدها انجام میدادم رو با همون تلاش اول بطور…

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

اینم یک تست دیگه از این مدل هست؛ خواستم برای ویدئوهای یوتیوب یک تیکه ویدئو کوچیک بسازم از لوگو

Gemini, ChatGPT, Claude, Grok, Qwen

رو تست کردم ولی هیچکدوم نتونستند این کار رو بکنند (با کد این ویدئو ساخته شده)

چندتا تست فرانت روی این مدل زدم و دیدم خیلی عالی روی کدهای فرانت اند کار می‌کنه (فوق‌العاده هست برای طراحی) به ذهنم رسید همین کار رو با این مدل هم تست کنم.

همون پرامپت جزئی که به مدل‌های قبلی دادم رو به این مدل هم دادم و خروجی رو می‌تونید خودتون مقایسه کنید.

پینوشت:
این مدل با پرامپت خوب؛ هیولاتر از چیزی هست که بنچمارک‌ها دارند گزارش می‌دهند
جالبترین نکته:
بنچمارک‌های خصوصی نتایج بهتری نسبت به بنچمارک‌های منتشر شده توسط خود تیم GLM داره

❤16

3.2K views14:03

دستاوردهای یادگیری عمیق(InTec)

12M context window
52x faster than Flash-attention
up to 1000x more efficient

جدیدا مثل اینکه Early Access براش باز شده اگر تونستم دسترسی بگیرم حتما بررسی می‌کنم و نتایجش رو میذارم.
فعلا که وبسایت پر باگی دارند.

👍9❤6

3.94K viewsedited 21:45

دستاوردهای یادگیری عمیق(InTec)

این ادعای بنچمارک یک مدل ۳ میلیارد پارامتری هست؛ تخصصی برای تسک‌هایی که نیاز به Thinking دارند.

و نتایجی نزدیک به مدل‌های بیش از 300x بزرگتر

Hugging face
Paper

❤17👍3

4.42K views13:53

دستاوردهای یادگیری عمیق(InTec)

Forwarded from RandRng

نسل بعدی مدل‌ها بنظرم خیلی بهتر خواهند شد :

Qwen AgentWorld

بنظرم این حرکت در راستای JEPA خواهد بود و این Gap بین LLM و JEPA رو برای مدتی می‌پوشونه تا نتایج مدل‌های بر پایه JEPA خیلی بهتر بشه.

huggingface.co

Qwen-AgentWorld - a Qwen Collection

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

❤10👍3

3.4K views18:06

دستاوردهای یادگیری عمیق(InTec)

Forwarded from RandRng

95% of enterprise AI deployments fail to deliver value

در یک حرکتی چندتا از این شرکت‌های AI فروش داخلی (کاسبان تحریم) روی موج‌های اخیر درحال تلاش برای خوروندن LLM به شرکت‌های دیگر هستند. شرکت‌هایی که همینطوری بخاطر تحریم؛ جنگ؛ قطعی اینترنت و تعطیلی به زور سرپا موندند.

برای همین خواستم دوتا مورد رو یادآوری کنم:
اولین مورد گزارش MIT روی میزان سودآوری AI (که ۹۵٪ میزان بازگشت 0 داشتند)
‌legal.io

مورد دوم؛
تجربه شخصی بنده توی کار با تیمی از مهندس‌ها که مدتی قبل منتور اون‌ها بودم.
( استفاده درست از LLM ها برای مهندسی کامپیوتر )

با نهایت احترام به شرکت‌های AI داخلی که واقعا innovation دارند و در تلاش برای پیشرفت جامعه‌ی ایرانی هم هستند.

RandRng

#تجربه@per3onnel

این موضوع برداشت من براساس داده‌های گروهی از افراد هست که منتور اون‌ها هستم (قبلتر گفتم راجبش)

با این بحث شروع کنم که، من برای توسعه کدهام neovim, vscode رو دارم و اکثر وقتم توی neovim هست.
روی هیچکدوم ai, agent هم ندارم.
cursor, gravity…

👍8❤3

2.3K views17:10

دستاوردهای یادگیری عمیق(InTec)

Needle: We Distilled Gemini Tool Calling into a 26M Model

این مدل برای تخصصی برای tool calling ساخته شده؛ من جایگزین مدل ۴ میلیارد پارامتری کردم و همچنان به درستی از ابزارهایی که داشتم استفاده می‌کنه.

البته ابزارهای من ساده و قدیمی هست (خیلی وقت هست از این پروژه استفاده نکردم) اما بنظرم مدلی هست که ارزش تست کردن داشته باشه واقعا؛ اگر برای tool calling نیاز به مدل دارید یک تستی هم روی این انجام بدید اما بیشتر از tool call ازش توقع نداشته باشید.

Cactuscompute

Needle: We Distilled Gemini Tool Calling into a 26M Model

An open-source 26M parameter function-calling model that runs at 6000 tok/s prefill and 1200 tok/s decode on consumer devices.

👍10❤2

2.07K views14:13

دستاوردهای یادگیری عمیق(InTec)

Forwarded from RandRng

LLM
قراره جای برنامه نویس‌هارو بگیره ؟
من که کدم رو + دستورالعمل ریفکتور دادم تا برام تمیز کنه و خروجی که توی تصویر هست

نصف باگ‌های مدل‌های LLM رو من درآوردم باید بهم هزینه پرداخت کنند واقعا

پینوشت:
تازه ۳۵ دقیقه هم طول کشید. خودم میزدم ۲۰ دقیقه‌ای تموم می‌شد.

👍11❤2

1.46K views15:01

دستاوردهای یادگیری عمیق(InTec)

یک پستی از دوست و همکار قدیمی توی لینکدین دیدم راجب یک کتابی که درحال نوشته شدن و تکمیل هست مخصوص کسانی که به
Deep Learning + Rust
علاقمند هستند گفتم اینجا هم به اشتراک بذارم

Linked In

شخصا درحال خالی کردن وقت برای خوندنش هستم چون موارد جالبی پوشش داده شده
مثلا اینکه بدون نیاز به سیستم‌عامل بتونید کار دیپ‌لرنینگ انجام بدید چیزی نیست که روی فریمورک‌ها و پایتون و ... آموزش داده بشه

Data Scientists: Burn Framework Solves Inference and Deployment Issues | Omid Safarzadeh posted on the topic | LinkedIn

Six complaints I hear from #data #scientists:

All six have the same answer, and it #isn't a #faster #GPU.
1. "Inference is fast, but the #service is #slow"
2."Deployment is a 4 GB #Docker image and a #dependency hell"
3. "It needs to run #on the #device…

❤13👍4

2.21K viewsedited 09:25

دستاوردهای یادگیری عمیق(InTec)

Forwarded from RandRng

مدل‌های MoE خیلی جذابتر از مدل‌های Dense هستند بنظرم چون می‌تونی یک مدل خیلی بزرگتر رو روی یک GPU خیلی کوچکتر با سرعت بالا اجرا کنی مثل :

https://telegram.me/per3onnel/263

یک سری افراد نشستند و همین کار رو برای GLM.5-2 با فشرده سازی و اپیتیمایز کردن بسیار انجام دادند بطوری که طبق ادعا خودشون مدل 774 میلیارد پارامتری رو روی سیستم با 25GB رم و بدون نیاز به GPU اجرا کردند (همه چیز روی C نوشته شده)

بطور خیلی ساده کاری که می‌کنه اینه که یک backbone اصلی رو توی رم نگه میداره و باقی رو روی SSD - اگر یادتون باشه توی اون پست‌ها من توضیح دادم که MoE میشه بخش اصلی که نیاز به پردازش داره رو روی VRAM نگهداشت و باقی موارد رو روی RAM حالا این افراد یک قدم جلوتر رفتند و بخش زیادی رو روی SSD نگهداری می‌کنند؛ برعکس llamacpp که از memory mapping استفاده می‌کنه این کتابخونه صبر می‌کنه تا مدل تصمیم بگیره برای پرامپت دقیقا کدوم expert هارو نیاز داره و بعد همونارو روی SSD بخونه

البته دنبال بهترین سرعت‌ها نباشید 0.1tok/sec چیزی هست که نویسنده گزارش داده روی لپ‌تاپ خودش

اما این روش بنظرم خیلی جواب خواهد بود من ۳ سال قبل گفتم که روی یک پروژه قدیمی‌تر (الان حساب کنیم شاید ۷-۸ سال قبل) از Redis برای نگهداری embedding هام استفاده می‌کردم
https://telegram.me/pytens/1087

حالا فرض کنید یک نفر همچین کاری رو بکنه :
VRAM - RAM - SSD
هرچند بنظرم تا استاندارد شدن این روش شاید راه طولانی رو در پیش نداشته باشیم حتی؛ سال‌هاست که CPU ها دارند اینکار رو می‌کنند
L1, L2, L3, RAM, SSD

برای بررسی دقیقتر به گیت‌هاب پروژه سر بزنید :

Colibri Github

RandRng

17.91 token/sec
برای شروع عدد خوبی هست ؟

روی GTX 1060 با ۶ گیگ گرافیک فکر کنم این GPU الان ۳۰ دلار قیمتش باشه
ولی داره Qwen3.6 با ۳۵ میلیارد پارامتر رو اجرا می‌کنه

docker run --gpus all --cap-add=IPC_LOCK \
-p 8080:8080 \
-v ~/.ai_models:/models:ro…

❤16👍1

1.89K views11:42

دستاوردهای یادگیری عمیق(InTec)

Forwarded from RandRng

این رو معرفی کنم
OKF (by google)
وقتی مدل‌ها با کانتکست‌های بالای 128K و حالا بیش از 1M استاندارد شدند واقعا هزینه توسعه و نگهداری سیستم‌های RAG برام قابل درک نبود.

توی یک سری از ابزارهای چت شما می‌تونید مشخص کنید چت با چه پیام‌هایی از قبل مشخص شده‌ای شروع بشه و ماهم از همین تکنیک استفاده میکردیم.
مثلا برای نیروهای تازه وارد به شرکت؛ شماتیک دیتابیس رو توی چت اول میذاشتیم و نیرو همزمان با خوندن کدها اگر سوالی روی دیتابیس براش پیش میومد می‌تونست از مدل لوکال استفاده کنه و جلو بره.
برای بچه‌های سنیور هم خیلی خوب بود؛ هم سوالات خیلی کم شده بود؛ هم کمکی بود برای یادآوری و هم اگر کوئری بود که یادشون میرفت می‌تونستند از مدل بپرسند و تقریبا مطمئن باشند که بهترین جواب رو احتمالا خواهند گرفت.

حالا گوگل توی یک حرکت خیلی خفن اومده و یک استاندارد رو ارائه داده برای فرمت فایل‌ها و ...

بجای اینکه یک چت هیستوری خیلی بزرگ به سیستم بدید (مثل کاری که ما می‌کردیم) اون‌ها رو توی فایل‌های markdown مختلف بشکونید ولی ابتدای هر فایل یک استاندارد رو رعایت کنید.

تقریبا دو روزی هست که دارم روی یک دیتابیس پروداکشن استفاده‌اش می‌کنم و بنظرم این از RAG, chat history خیلی بهتره (حداقل توی استفاده من)
مثلا:‌
توی سورس کد یک کوئری کند داشتیم و فکر میکردیم این دیگه ازین بهتر نمیشه؛ اما شد چون ما یک view ایی که ایجاد شده بود رو فراموش کردیم بودیم که همچین دیتایی رو داره و می‌تونه این کوئری رو هم اپتیمایز کنه و مدل این کوئری جدید رو بهمون داد.
برای استفاده‌های این شکلی بنظرم خیلی تکنیک تمیز و خوبی هست.

Github

توجه کنید هیچ تکنولوژی یا ... جدیدی پشت این نیست دنبال ابزار نباشید یک استاندارد برای نوشتن فایل Markdown هست بیشتر که مدل‌ هوش مصنوعی شما راحت تر بفهمه چیکار کنه که بنظرم استاندارد تمیز و خوبی هم هست.

Google Cloud Blog

How the Open Knowledge Format can improve data sharing | Google Cloud Blog

Learn how the Open Knowledge Format helps secure data sharing and improves collaboration across teams with standardized documentation.

👍14❤4

722 views12:21

About

Blog

Apps

Platform