دستاوردهای یادگیری عمیق(InTec)
9.53K subscribers
363 photos
40 videos
44 files
674 links
هوش مصنوعی، یادگیری ماشین و یادگیری عمیق
موضوع اصلی کانال

این یک بلاگ شخصی با طرز تفکر شخصی هست.

Core Python : @PyHints

تلاشی هم در یادگیری Rust دارم که درحال داکیومنت شدن هم هست؛ اگر شماهم به این زبان علاقمند هستید join یادتون نره

Rust: @PyRust
Download Telegram
بنظرم اینکه نتونم یک مدل رو روی سیستم لود کنم خیلی خیلی بهتر از اینه که بتونم لود کنم و ۳-۴ تا توکن در ثانیه خروجی بگیرم.

خب بالاخره DGX Spark هم اومد و این انتشار دیرهنگام و قیمت 4000$ و عملکرد ضعیفش باعث شده هیچکس بهش علاقمند نباشه! برخلاف باقی محصولات nvidia که نسخه founder edition به زور پیدا می‌شه این محصول رو به راحتی می‌تونید پیدا کنید.

تنها نکته مثبت این محصول؛ قابل حمل بودن و البته مصرف برق کم هست!
برای مصرف برق کم گزینه‌های دیگه و سریعتر هم هست؛ AMD و شرکت‌های دیگه کارهای جالبی در این زمینه کردند؛ چند موردی رو توی کانال‌های دیگه معرفی کردم (تست هم کردم)
قابل حمل بودنش اما؛ کمی شک دارم کسی بخواد دستگاه 4000$ دلاری که موقع استفاده هم شدیدا داغ میشه رو توی کیفش بذاره و با خودش جابجا کنه (ی سوال همینجا برام پیش اومد؟ چرا ماژول wifi اش زیر دستگاه هست بخشی که قراره روی میز قرار بگیره؟)
اکثر کسایی که خرید کردند و تست کردند؛ میگن باید توی خونه بذاری با یک خنک کننده خوب و دسترسی remote بهش بگیری!

موارد جایگزین چی می‌تونه باشه ؟
از شرکت اینتل می‌تونید برید سراغ GPUهای سری Arc B50, B60 با توجه به قیمت‌‌ها میشه با کمی حوصله سیستمی با قمیت 5000-6000$ خرید کرد که 256GB رم و 96GB هم حافظه گرافیک داشته باشه با سرعت انتقال داده سریعتر BUS منظورم هست. شخصا با قیمت‌هایی که گفته شد؛ قطعات رو کنار هم گذاشتم حدود 5200$ می‌شد البته هارد ۲ برابر و ماژولار بودن و گیم و کارهای دیگه انجام دادن روی این سیستم مواردی هست که با پرداخت ۱۲۰۰ دلار بیشتر به دست میارید! مهمترین نکته پرفورمنس حداقل ۱۰ برابر برای خیلی از مدل‌ها هست!
بعضی مدل‌هایی که روی DGX Spark طبق گزارشات 3-5 t/s بیشتر نمیده روی این دستگاه بالای 30t/s بهتون میده مثلا مدل‌های خانواده Qwen3

جایگزین‌های دیگه خرید mini-pc های شرکت‌های رغیب که از AI chip های AMD استفاده می‌کنند؛ با اینکه توی Inference عملکرد خوبی دارند مشکل این دستگاها عملکرد ضعیف موقع Finetune کردن هست برای همین گزینه Intel رو بیشتر پیشنهاد میدم!

اما اگر هر دو این موارد برای شما قابل قبول نیست؛ حتی خرید یک سیستم با ۴ تا Nvidia 3090 خوش قیمت‌تر و به مراتب سریعتر از DGX Spark هست.

تنها نکته مصرف برق هست؛ دو مورد اول مصرف برق زیادی ندارند مثلا B50 های اینتل 70W مصرف دارند؛ اما حتی سیستمی با ۴ تا 3090 که مصرف بالایی هم داره خیلی بصرفه تر از DGX Spark خواهد بود؟ چرا ؟ میزان زمانی که دولوپر‌های شما بر اساس کند بودن token/second از دست نمی‌دند میزان زمانی هست که کار شما سریعتر پیشرفت می‌کنه و خب این خودش تاثیر مستقیم روی درآمد داره!


خلاصه که DGX Spark به معنای واقعی یک سخت‌افزار بدرد نخور ولی بسیار خوشگل هست!

شخصا برای آپگیرید سیستم چشم به Arc B60 دارم و البته قیمتی هم که بالاتر گفتم با فرض قیمت‌هایی هست که اینتل گفت + هاردهای اضافه و water cooling, ...

پ.ن:
۱- هزینه سیستم با ۴ تا 3090 حدودا: 3800-5200 دلار هست بستگی به مادربرد و ...
۲- این لینک هم ببینید اگر ۴ تا 3090 خواستید ببندید.
Local Ai Home Server Build at High End $5000 Price
👍156
دستاوردهای یادگیری عمیق(InTec)
بنظرم اینکه نتونم یک مدل رو روی سیستم لود کنم خیلی خیلی بهتر از اینه که بتونم لود کنم و ۳-۴ تا توکن در ثانیه خروجی بگیرم. خب بالاخره DGX Spark هم اومد و این انتشار دیرهنگام و قیمت 4000$ و عملکرد ضعیفش باعث شده هیچکس بهش علاقمند نباشه! برخلاف باقی محصولات…
چندتا از دوستان پیام دادند بنا به دلایلی مجبور به خرید miniPC هستند؛ علاوه بر مواردی که من اشاٰره کردم یک مشکلی هم که داره دیده میشه با نسخه اصلی DGX Spark گرما بیش از حد زیر درخواست‌های زیاد هست؛ انویدیا اینطوری تبلیغ کرده که ۱ دونه ازین دستگاه بگیر؛ ۳-۴ تا مدل لود کن و بذار چندتا دولوپر استفاده کنند ولی زیر لود سنگین سریعا داغ می‌کنه!

قطعا این مشکل توسط پارتنر‌های انویدیا حل خواهد شد ولی خب خود دستگاه همونطوری که گفتم ارزش خرید نداره!
جایگزین اگر نیاز دارید:
EVO-X2 AI Mini PC
با تخفیف‌های جدیدی که GMKtec داره میده برای نسخه ۱۲۸ گیگ رم و ۲ ترابایت حافظه فقط ۲۰۰۰ دلار هست و البته تعداد توکن بیشتری میده طبق گزارش خود GMKtec چندتا از عددها این هست :
Qwen3: 235B ——> 11 t/s
Qwen3: 30B ——> 55 t/s
GPT-OSS: 120B ——> 19 t/s
GPT-OSS: 20B ——> 57 t/s

نکته مهمتر با این miniPC می‌تونه به راحتی نقش سیستم اصلی شمارو هم داشته باشه؛
16-core, 32-thread, 64MB L3 Cache

اگر بازم چیز بهتری خواستید (بهتر از نظر من) نسخه اینتل به تازگی معرفی شده
EVO-T1 AI Mini PC
نسخه ۹۶ گیگ رم و ۲ ترابایت هارد این ورژن ۱۱۷۰ دلار هست که با باقی اختلافش با DGX Spark می‌تونید یک Nvidia 5090 هم بخرید و بهش متصل کنید؛ به کمک OCuLink می‌تونید GPU بهش وصل کنید برای گیمینگ و کارهای جدی AI

دوستان اگر دارید ویدئو‌ از DGX Spark می‌بینید؛ ویدئو ‌های اسپانسر و کسایی که دستگاه براشون ارسال شده رو نبینید! خیلی‌هاشون صادق نیستند و فقط مزیت‌ها رو می‌گن (۹۹٪ هم دستگاه رو با مدل‌های دیگه مقایسه نمی‌کنند؛ مثل همین دو مدل GMKtech که به راحتی DGX Spark رو قورت میده)
👍97
برای Deepseek OCR پیشنهاد می‌کنم، برید سراغ مقاله‌اش.

بخش OCR توی مقاله کمترین جذابیت رو داره؛ چرا

A picture is worth a thousand words


کاری که deepseek کرده این هست؛ میشه گفت یک تکنیک compression ایجاد کرده که context بیشتری به LLM بده

بخش Encoder چیزی هست که لازم دارید، بیشتر بخونید.
حالا چرا OCR ؟ برای اثبات اینکه تکنیکی که حرفش رو زدن قابل انجام هست
👍184
#توضیح

توی خیلی از صحبت‌ها به اینجا میرسیم که؛ چرا دیگه روی @pytens فعالیت نداری ؟
انقدر این صحبت زیاد شده که تصمیم گرفتم یکبار توضیح بدم!

من اولین بار بیش از ۱۰ سال قبل با هوش مصنوعی آشنا شدم و وارد این فیلد شدم (پروژه کارشناسیم بخشی از موضوعی بود که قبل از اون ۱ سال روش کار کرده بودم توی یک همکاری دیگر)
دلیل اصلی اینکه وارد این فیلد کاری شدم جدابیت‌های حل مسئله‌اش بود؛ اینکه یک سری جالش‌های سخت رو با ترکیب چند راهکار یا پیشنهاد راهکاری جدید حل می‌کردند برام خیلی جذاب بود چالش‌هایی که بعضا با برنامه‌نویسی قابل حل نبود.
مثل همون image classification, segmentation, ... بهترین بخش این موضوع اما اینجا بود که با آدمهایی آشنا می‌شدم که هم علاقه بسیار به کاری که می‌کردند داشتند (پول کافی توش نبود واقعا) هم خیلی nerd بودند.
و اکثرا هم از فیلدهایی اومده بودند (شغل اصلیشون) که بقول خودشون دیگه چالش بزرگی براشون نداشت.

توی ۲-۳ سال اخیر و البته شاید ۱ سال گذشته (توی ایران) اما این فیلد دیگه مثل قبل نیست.
برای من این موضوع که با کسی صحبت می‌کنم و متوجه می‌شم ML Engineer, Deep learning, ... هست خیلی جذابیت داره واقعا با ذوق و شوق راجب کارم (برنامه‌نویسی بطورکلی‌تر) با آدم‌ها صحبت می‌کنم اما اینکه بعد متوجه می‌شم هیچ درک درستی از مفاهیم نداره بدتر خیلی انرژیم رو می‌گیره؛ اینکه نمی‌دونه python, embedding, transformer, ... چطور کار می‌کنه یا چه قابلیت‌هایی داره ولی به خودش تایتل میده و میگه با Agent, LLM, ... کار می‌کنه واقعا تاثیر منفی روی من داره.
اکثرا n8n, langchain, openai api یا کارهایی ازین دست انجام می‌دند و فکر می‌کنند دیگه تبدیل به متخصص هوش مصنوعی شدند درحالی که فقط یاد گرفت بین هزاران ابزار موجود برای برنامه‌نویس‌ها با ۲-۳ مورد از ساده‌ترین‌هاش کار کنه.

اگر یا عنوان تخصصی مثل ML Engineer, Data-scientist , ... بدون درک مفاهیم فقط یادگرفتی از این ابزارها استفاده کنی؛ هیج جذابتی برای من نداره کاری که می‌کنی اما اگر یک Software engineer هستی که برای آپدیت بودن سراغ این ابزارها رفتی برات بسیار احترام قائلم که وقت گذاشتی و ابزارهایی که فکر کردی به کارت میاد رو یاد گرفتی.

خلاصه که چون توی چندسال اخیر فیلد ما خیلی رفته سمت کار با ابزار ترجیح دادم وارد فیلدهای دیگه بشم و اکثر وقت و کارم رو توی اون‌ها بگذرونم تا چالش‌های واقعی رو خودم حل کنم؛ (دیدید ۹۸-۹۹٪ پروژه‌های AI رفته سمت اینکه ی api wrapper بنویسیم دور chatgpt, gemini یا ... اگرم جواب نداد بگیم شدنی نیست؛ نه کسی دیتا جمع می‌کنه نه کسی راهکار میده حتی دیتا کلین کردن هم دیگه خیلی جاها نمی‌دونن چیه همرو میده به chatgpt تا انجام بده.)

همه‌ی اینا باعث شده من جز یک پروژه اصلی که قرارداد دارم؛ بیشتر وقتم رو روی Rust, Python, Backend Development و یادگیری درمورد چالش‌هایی مسائلی مثل Distributed processing؛ System Architecture, ... بگذرونم و در زمینه AI فعلا سعی می‌کتم بیشتر مقالاتی که راهکارهای جذاب ارائه میدند رو بخونم فقط و تا اطلاع ثانوی فقط خودم رو Software Engineer معرفی کنم.

درنهایت برگردم به سوال اصلی؛
چرا فعالیت نمی‌کنم روی کانال ؟

هدف از این کانال هیچوقت دیده شدن و معرفی خودم نبوده. فقط خواستم کنار دوستانم رشد کنیم (هرچند دوستان بسیاری هم پیدا کردم) همین هدف باعث شده وقتی چیز جذابی برای گفتن ندارم و وقتی چیز جذابی نمی‌بینم چیزی هم ننویسم و سکوت کنم.
51👍16
یکی از بهترین نویسنده‌ها در زمینه Machine Learning بالاخره کتابش رو روی Pytorch هم منتشر کرد.

Aurelien Geron

البته نسخه کامل کتاب فعلا فقط روی Oreilly Media در دسترس هست ولی حدودا ۲ هفته دیگه از همه‌ی پلتفرم‌ها می‌تونید خرید کنید.

یک نگاهی به مباحث بخش pytorch انداختم؛ بنظر میاد خیلی از مباحث مهم رو قراره از بیس کد بزنید اما فقط بخش‌های مهم رو و وقتی به درک خوبی از کلیت عملکرد رسیدید از پکیج‌های آماده مثل transformers و ... استفاده بشه.

خلاصه پترن پترن چندسال اخیر و نسخه‌های تنسورفلو و کراس کتاب هست.
37
دستاوردهای یادگیری عمیق(InTec)
چندروز هست دارم به یکی از دوستان نزدیکم روی ایده‌اش کمک می‌کنم؛ بیشتر کدهای بکند و مربوط به AI اش با من هست. یکی از مواردی که توی MVP دیده شد این بود که علاوه بر سرعت توکن هم برامون خیلی مهمه (چندتا فاز داره و مثلا یک مرحله‌اش اینه که خروجی رو Text to Speech…
#Quick

۱۰ سال زمان برده تا به این دستاورد رسیدند تا 250x سریعتر از رقبا و توی همین بازه هم تو زمان ساخت حدود ۱۸ ماه هیچ پیشرفت خاصی نداشتند (هزینه هرماه حدود ۸ میلیون دلار) جز fail کردن و یادگرفتن؛ این چیزیه که مدیرعامل شرکت می‌گه این دید قشنگی هست برای ساخت.

یادمه توی یک مصاحبه؛ از ایلان ماسک راجب انفجارها و فرودهای ناموفق راکت‌ها سوال پرسیدند گفتند خسته نمی‌شی انقدر پول خرج می‌کنی و موفق نمی‌شی ؟
جواب داد قرار نیست فرود موفق ببینیم روی این سری؛ هدف اینه که اشتباهات رو پیدا کنیم هربار که این تست‌ها انجام میشه برای این هست که سیستم رو امن‌تر کنیم (یعنی یک سری از انفجارها و ... از قبل برنامه‌ریزی شده بود) و اگر انفجار انجام نشه باید نگران باشیم.

البته با ایران مقایسه نشه‌ها؛ اینا شرکت‌های خصوصی هستند.
ما شرکت‌های خصوصیمون هیچ ریسکی نمی‌کنند؛
دولتی‌ها ریسک می‌کنند که خب البته بیشتر هدف دزدی هست نه یادگیری و پیشرفت.
👍306
بهترین نکته در مورد
ChatGpt Atlas
که بمیرم هم نصب نمی‌کنم بعنوان کسی که هم AI کار کرده هم امنیت.

از مشکلات، privacy و امنیتش بگذرم این بود که!

اینا از chromium دارند استفاده می‌کنند و یک تیم هم برای توسعه این موضوع تشکیل شده!

جانم؟
مگه سم‌آلتمن و ... نبودند گفتند با این نسخه می‌شه کارهای software engineer هارو انجام داد؟
خب الان دوتا سوال دارم:

۱- برای توسعه ۴ تا فیچر احمقانه که نمونه کدهای ورژن ساده‌اش همه جا هست، چرا تیم توسعه دهنده تشکیل دادید؟

۲- اگر انقدر نتایج روی آنچه خود تیم openai تسک‌های واقعی software engineering اسم می‌ذاره خوب هست!
چرا یک fork از chromium گرفتید که حالا به هر دلیلی بدنامی chrome رو دنبال خودش داره ؟

آها شاید openai پول کافی برای شارژ تعداد توکن مورد نیاز جهت توسعه این محصول رو نداره، بازم زود قضاوت کردم.


شارلاتان تر از سم آلتمن دنیا به خودش ندیده؛ آدمای درست رو دنبال کنید که openai رو ساختند :

John Schulman, Ilya Sutskever, Dario Amodei, ...

و تورو به اعتقاداتتون دست بردارید از این سوالا که من تازه برنامه‌نویسی رو شروع کنم، بنچمارک جدید مدل فلان شده ۹۰٪ نمی‌دونم ....

ازین پیاما به من ندید!
بکشید بیرون از اینستاگرام!
👍3114
وقتی JSON معرفی شد؛ یکی از اهدافش خوانایی بهتر برای آدمها بود ولی خب هممه می‌دونیم که این موضوع باعث سربار هم می‌شه برای محاسبات و ...
یکی از مشکلات اصلی برای LLM ها هم رعایت استانداردهای مربوط به JSON هست و اینکه وضعیت تعداد براکت‌های باز و بسته رو نگه داره!
اینکه هرکدوم ازین براکت‌ها هم توکن حساب می‌شوند هم یک ضرر مالی جداس.

همین دوتا دلیل باعث شد؛ من برای:
۱- دقت بالاتر
۲- کم کردن هزینه‌ها

دنبال روش‌های دیگه توی تولید و parse کردن دیتاها بگردم تقریبا چیزی حدود ۱۰٪ مواقع توی پرامپت‌های بزرگ و تسک‌های سنگین خروجی JSON هام valid نبود؛ هم یوزر رو کلافه می‌کرد هم هزینه‌های من رو اضافه (این کار برای خودم هست؛ شرکتی درکار نیست)

توی این گشت و گذار به یک پروژه روی گیت‌هاب رسیدم
Token Oriented Object Notation

توی تست‌های من (یک سری از لاگ‌های چت‌های گذشته رو بهش دادم؛ بصورت رندم) به راحتی حداقل ۲۰٪ توکن کمتر استفاده می‌کنه توی بهترین حالت به ۶۴٪ هم رسید (ولی خیلی کم پیش اومد توی دیتاهای من) برای خروجی LLM ها
و البته دقتش هم بهتر شد؛ تقریبا توی ۱۰ مورد چالشی که اکثر وقتا JSON invalid میداد فقط ۱ مورد دیتا رو اشتباه کرد؛ که اون مورد هم با پرامپت بهتر قابل حل هست.

نمونه از داکیومنت خودش :
{
"users": [
{ "id": 1, "name": "Alice", "role": "admin" },
{ "id": 2, "name": "Bob", "role": "user" }
]
}


users[2]{id,name,role}:
1,Alice,admin
2,Bob,user


خلاصه که اگر شما هم با این دوتا چالش سرکار دارید یا اگر توی شرکت هزینه‌ی بخصوص بالای 10,000 دلار ماهیانه روی مدل‌های هوش مصنوعی دارید و اکثرا هم خروجی رو بصورت structured نیاز دارید؛ بنظرم حتما ازین تکنیک استفاده کنید.
👍3321
دستاوردهای یادگیری عمیق(InTec)
#توضیح توی خیلی از صحبت‌ها به اینجا میرسیم که؛ چرا دیگه روی @pytens فعالیت نداری ؟ انقدر این صحبت زیاد شده که تصمیم گرفتم یکبار توضیح بدم! من اولین بار بیش از ۱۰ سال قبل با هوش مصنوعی آشنا شدم و وارد این فیلد شدم (پروژه کارشناسیم بخشی از موضوعی بود که قبل…
#خارج_از_بحث
این متن مخصوص کسایی هست که به برنامه‌نویسی واقعا علاقه دارند و ارائه پروژه استاندارد و بهینه براشون مهم هست؛ خودمونی تر
you worship well thought out software

اگر این موضوع براتون اهمیتی نداره؛ وقتتون رو با خوندن این متن تلف نکنید.

اول این ویدئو رو ببینید بعدش باقی متن رو بخونید:

Youtube Video

اگر اشتباه نکنم سال 2020 بود که صحبت‌ها درباره LLM بالا گرفت و 2021 وقتی بود که برای اولین بار خیلی جدی‌تر گفته شد این ابزارها دیگه کم کم می‌تونند نرم‌افزار تولید کنند ( از همون موقع هم ما کلی صحبت داشتیم که عمرا و فقط می‌تونند جای کدر‌ها رو بگیرند و مهندسین نرم‌افزار رو بهشون کمک کنند)

همین اولم بگم که رسما می‌تونم اعلام کنم بیشترین درآمد دقیقه‌ای و سریعترین درآمدم هم به لطف همین LLMها بوده (توی کانال رندرنج درموردش گفتم و هنوزم هرازگاهی گیرم میاد؛ اسپویل مربوط به حل مشکلات بوده)

اما همین موارد هم باعث شده خیلی از ذوق و شوقم رو برای AI از دست بدم (میگم AI چون برای تمام فیلدهاش ذوق دارم) چندتا ازین موارد:

۱- موردی که راحت‌ترین درآمد رو بهم میده؛ تیم‌هایی متشکل از تعداد زیادی Vibe Coder و نیروی Junior که کل پروژه رو LLM چیده و تا دلتون بخواد توش ایرادات فنی و طراحی وجود داره و وظیفه من Troubleshoot کردن پروژه هست.
شخصا بخوام به قضیه نگاه کنم دستمزد این کار خیلی بالاس؛ خیلی خیلی بالا.
فرض کنید یک تیم ۶ماه وقت گذاشته یک نرم‌افزاری رو توسعه داده و حالا بعد از یک سری موفقیت و درآمدزایی کوچیک به بن‌بست و مشکلاتی خورده که نمی‌دونه از کجاس؛ تو این شرایط پول زیادی خرج میشه (تاحالا با درد شدید دکتر رفتی؟ شرایط یکسان هست)

۲- کامیونیتی‌های ضعیف و مطالب کمی درست و کلی غلط:(کاملا واضحه با LLM بررسی شده)
زمانی بود که وارد یک کامیونیتی معمولی مثلا پایتون هم که می‌شدی ممکنه بود یک روزی متوجه بشی اونی که گوشه کامیونیتی دیروز ازت درمورد فرق f-string, fromat داشت سوال می‌کرد خودش مثلا نصف core-banking رو نوشته و حالا تو وقت ناهارش داره پایتون تمرین می‌کنه؛ من خیلی از دوستانم رو اینطوری باهاشون آشنا شدم.
خیلی‌ها توی این کانال هستند و من هربار که باهاشون صجبت می‌کنم کلی چیز جدید یاد میگیرم.

۳- پروژه‌های تکراری و ضعیف با بدترین پیاده‌سازی ممکن.
خیلی از پروژه‌هایی که این روزا بهم پیشنهاد میشه و رد می‌کنم؛ توی این دسته بندی قرار می‌گیره اگر آشنا نباشه درجا رد می‌کنم اگر هم نتونم اینکار رو بکنم و یا توقع انجام ۱۰۰ تا کار ازم باشه؛ از تکنیک دستمزد بالا استفاده می‌کنم (کلا دستمزدم زیاد هست شما ببین اینجا چی می‌شه دیگه)
یکی از بیشترین پروژه‌هایی که میومد:‌
بیا یک api بزنیم؛ chatgpt رو ارائه بدیم نه در حد openrouter و ... ها اونا چالشش زیاده ما فقط chatgpt رو بگیریم جوابش رو بدیم به کاربر این وسطم دیتاهای چت‌ها رو ذخیره کنیم اگر شد واسه تبلیغات بفروشیم.
هزینه‌اش هم هرچی chatgpt از ما گرفتم ما ۱۵٪ میذاریم روش همون رو برای کاربر فاکتور می‌کنیم.
تازه همین مورد هم اگر برید ببینید انقدر ضعیف پیاده‌سازی شده که دائم باهاشون جنگ خواهید داشت.

۴- همین مورد توقع قبول ۱۰۰ تا وظیفه یا توقع تحویل کار توی ۱/۵ زمان نرمال.
موقع پول دادن ما یک دولوپر هستیم که با کمک LLM کار رو پیش می‌بریم و توسعه میدیم.
موقع پاسخگویی؛ ماها سنیوری هستیم که توقع میره هوای جونیورها رو داشته باشیم و پروژه رو بهتر و استاندارد تحویل بدیم.
موقع زمانبندی؛ مگه چیکار می‌خوای بکنی بیا ی اکانت ۱۰ دلاری برات بخرم بده LLM بزنه تو فقط تستش کن
(یکی نیست بگه خب الاغ اگر اینه خود خرت بشین نرم‌افزارتو توسعه بده؛ دیگه لازمم نیست ۸ ساعت در روز کار کنی ۱۶ ساعت کار کن پول بیشتری ذخیره کنی)

توی اینترنت هم روزی ۱ بار دوره‌ی جدید میاد برای LLM Agent ها
ی سری آدم نشستن از اینور صفحه؛ ی کامپوننت رو میگرین میندازن وسط صفحه؛ بعد اینا رو بهم وصل می‌کنند؛ یک کلید هم این وسطا از سرویس دهنده میگیرن و خر کیف اعلام می‌کنند که
ML Engineer
هستند و این موقعیت شغلی رو در یک دوره ۱۰ ساعته به شما آموزش خواهند داد.
یک مشت گوسفند هم دنبال اینا که با خرید این دوره تبدیل به ML Engineer بشوند.

اوضاع چقدر بده ؟ اونقدری که من یک notifier نوشته بودم برای یک سری سایت مثل udemy, xda, ... هر شب ساعت ۱۱:۵۹ اجرا می‌شد و صبح بهم اطلاع میداد چه دوره‌هایی ترند شده یا معرفی شده
(همین کد رو برای کتاب‌ها هم دارم)
چندروز پیش خاموشش کردم؛ واقعا حیف اینترنت که صرف کرال کردن اینا بشه؛ حیف برق کشور که صرف پردازش و تمیز کردن خروجی این کرالرها بشه؛ به تازگی چندتا شرکت هم دارم می‌بینم توی ایران تخصصی برای prompt engineering داره ایجاد می‌شه که امیدوارم یک شوخی کثیف از دوستان نزدیکم باشه برای اذیت کردن بنده.
32👍10
دستاوردهای یادگیری عمیق(InTec)
#توضیح توی خیلی از صحبت‌ها به اینجا میرسیم که؛ چرا دیگه روی @pytens فعالیت نداری ؟ انقدر این صحبت زیاد شده که تصمیم گرفتم یکبار توضیح بدم! من اولین بار بیش از ۱۰ سال قبل با هوش مصنوعی آشنا شدم و وارد این فیلد شدم (پروژه کارشناسیم بخشی از موضوعی بود که قبل…
خلاصه وضعیت رو بخوام بگم:
شده زمانی که کامپیوتر شخصی تازه مد شده بود؛ هرکسی برنامه‌نویس می‌دید دنبال رایت CD, نصب ویندوز و البته گرفتن فیلم‌های روز دنیا بود (مهندس فیلم میلم جدید چی داری ؟ همه هم ی فلش ۸ گیگ تو جیبشون یا به جاسوییچیشون وصل بود)
شخصا برای فرار از این وضعیت نشستم و روی
home lab, clustring, software engineering, ...

کار می‌کنم؛‌روی ابزارهایی که روی پروداکشن زیاد استفاده می‌شه و باقی وقتم رو صرف خوندن سورس کد پروژه‌های معروف می‌کنم.
توی زمینه‌های مربوط به هوش مصنوعی هم هفته گذشته یک موضوع جدید برای خودم پیدا کردم (بیشتر از تجربه‌های کوچیک و اتوماسیون کارهای کوچیک خودم) اونم distributed inference هست البته بدون استفاده از فریمورک و ... برای درک و یادگیری بهتر و ممکنه بعدش مثل قدیم برگردم سراغ پیاده‌سازی مقالات و چالش‌های اپتیمایز و دپلوی و ...


همه‌ی اینارو گفتم؛ تهش هم یک خواهش دارم!
اگر دارید روی پروژه جذابی که نمی‌خواید بفروشید برای یادگیری هست یا ... کار می‌کنید که چالش‌های فنی بدرد بخور و تکنیک‌های جذاب روش زدید کار می‌کنید و دوس داشتید یکی دیگه کدهاتون رو ریویو کنه!
شخصا پایه هستم؛ اگر برام بفرستید.

اما قطعا همه‌ی کدها بنظرم جذاب نمیاد (شاید پروژه خفنی باشه ولی من قبلا کار کرده باشم یا دانش بیزینس خاصی رو بخواد که به کار من نمیاد و ...) از این پروژه‌ها می‌گذرم.
به پروژه‌های دانشگاهی و مقالات و ... که ازم بخواد همکاری کنم هم علاقه‌ای ندارم؛ اما مشکلی ندارم اگر شما بخواید دستارود خودتون رو مقاله هم کنید.


من فقط می‌تونم بهتون review رایگان روی کدهای شخصی رو ارائه بدم؛ اما اجازه به اشتراک گذاری با ذکر منبع اسم و اطلاعات شما باید بهم داده بشه یا کدهاتون متن‌باز باشه.
34👍6
آپدیت از وضعیت مدل‌ها بدم چون نمی‌دونم چرا اما این چندروز خیلی ازم سوال شد:

شخصا اینطوری با مدل‌ها کار می‌کنم:‌
GLM-4.6
برای توسعه کد؛ خوبی این مدل context بزرگ و رایگان بودنش هست و نتایج خیلی خوبی هم میده (بیش از ۱ ماه هست دارم ازش استفاده می‌کنم) شخصا برای Python, Rust, Javascript دارم ازش استفاده می‌کنم و نتابجش از همه مدل‌های معروف دیگه بهتره حتی از Gemini2.5 Pro فقط بعضی وقتا ممکنه احمق بشه که کافی با آپدیت پرامپت کمی راهنماییش کنید (پیشنهاد می‌دم پیام قبلی رو پاک کنید یا همون رو آپدیت کنید که context تمیز بمونه)

cerebras
برای api و اتومات کردن بعضی از کارهام روی لوکال خودم؛ سرعت فوق‌العاده بالا (توی پیام‌های قبلی لینک دادم اگر از اون استفاده کنید برای ثبت‌نام سقف رایگان روزانه براتون افزایش پیدا می‌کنه که بیش از حد هم هست
مدل‌های مهمی هم که بهتون میده :
zai-glm-4.6 (context: 132000)
gpt-oss-120b (context: 65000)
qwen3-235b thinking (context: 65000)

برای من انقدر زیاد هست که تمام api های پولیم رو حذف کردم و خروجی بهتر و با سرعت بیشتر می‌گیرم.

grok.com
برای چت‌های کلی و یادگیری و factcheck بهترین موردش برای یادگیری مفاهیم هست خیلی دقیق و عالی جواب میده؛ بخصوص وقتی روی حالت expert هست و بهش می‌گی بهم رفرنس صحبت‌هات رو هم بده؛ می‌تونی بهش بگی بعضی سایت‌ها رو هم رفرنس نکنه (مثلا من wikipedia رو بهش می‌گم قبول ندارم)
duck.ai

این مورد هم برای سرچ‌های سریع هست؛ مثلا این مدت که دارم Javascript کار می‌کنم چون کار هرروزم نبوده و بعضی مباحث یادم رفته بجای سرچ کردن تو این چت می‌پرسم بعنوان نمونه:
how to use prototype for inheritance instead of class in JS?

وقتی از مدل درست برای کار درست استفاده می‌کنم به هیچ مشکلی نمیخورم؛ توی ۱ ماه گذشته اصلا نشده به این قضیه بخورم که فکر کنم به مدل قوی‌تر نیاز دارم برای کارهایی که دارم انجام میدم.

پینوشت:
پرسیدید برای DeepResearch چطور ؟
این مورد برای من خیلی کاربرد نداره حقیقتش؛ خیلی کم بهش نیاز پیدا می‌کنم و قطعا سراغ z.ai هم نمیرم (اگر به یک جوابی نرسه توی لوپ بی‌نهایت میوفته) برای اینکار Grok خوب کار می‌کنه (من موارد خیلی خیلی سخت رو فقط تست کردم) و یا Deepseek البته به تازگی Kimi k2 هم آپدیت گرفته که اگر مورد دیگری پیش بیاد تست می‌کنم.
ولی بطور کلی چون کارهام بدون DeepResearch و با همون قابلیت‌های مدل‌های قبلی حل می‌شه خیلی تجربه‌ای ازین قابلیت ندارم؛ برای همین پیشنهاد دقیقی ندادم.
28👍15
شاید مدل‌هام رو ببرم روی AMD GPU ها
دارم با قیمت و ... شروع می‌کنم؛ بنچمارک‌های سرعت و هزینه و تعداد کاربر و ... که خیلی خوب بوده
با vultr اول شروع کردم چون یادمه ۱-۲ سال پیش بعنوان پارتنر Amd معرفی شدند.
اگر کسی توی scale بالا تست کرده بهم بگه
AMD MI300X - MI325X - MI355X
من سراغ قیمت‌های MI355X دارم میرم.

vultr cloud gpu
11👍5
اگر سراغ Kimi k2 رفتید؛ سایتش : kimi.com تنها چیزی که روی این مورد لازم دارید قابلیت researcher هست.
بسته به کاری که بهش می‌گید انجام بده به زمان نیاز داره مثلا من یک سری تسک که معمولا باید ۵-۶ نفر رو می‌گفتم سایت‌ها و ... رو بگردند و گزارش آماده کنند بهش دادم (همرو توی ۱ مورد بهش بدید و اطلاعات کامل چون فقط ۱ مورد رایگان دارید؛ نمی‌دونم محدودیتش تا چه زمانی هست)
گزارش نهاییش؛ از خروجی بچه‌ها بهتر بود.
کلی تایپ کرد؛ داشتم به این فکر می‌کردم عمرا حال ندارم اینو بخونم بعد همرو تبدیل به یک گزارش html, css, js کرد که راحت میشه دنبال کرد؛ گرافیک و ... خوب و قابل ذخیره!

این بهترین فیچری بود که توی ۱ سال اخیر دیدم؛ تنها مشکلم اینه که برای تسک من حدود ۲ ساعت طول کشید تا کار رو انجام داد؛ البته بچه‌ها هم ۳-۴ ساعت طول کشید تا گزارش رو آماده کردند.


در نهایت:
توجه کنید من برای این تسک از دانشجوهای لیسانس استخدام کردم؛ که خب دانش تخصصی بالایی ندارند!
نرید توی تسک‌های تخصصی که دانشمندان عزیز توش موندن رو بهش بدید بعد بگید خوب کار نکردا!
30👍14
Forwarded from Python Hints
اگر از uv استفاده می‌کنید حتما اون رو آپدیت کنید یک باگ
RCE: Remote Code Execution
توی یکی از کتابخونه‌ها پیدا شده که البته uv هم ازون کتابخونه استفاده می‌کرده.

چون موضوع مربوط به Rust هست توضیحات بیشترش رو داخل کانال Rust می‌نویسم ولی خواستم اعلام کنم که حتما آپدیت کنید uv رو
@pyrust
14👍3
اینکه راجب این مدل و دیتاست اون (هردو رایگان منتشر شده) بعد زا ۴ روز هیچ چیزی نشنیدم چیزی هست که آزار دهنده هست.
اینکه ۱۰۰۰ تا پست راجب chatgpt 5.1 دیدم ولی راجب این به سختی ۱ پست تازه همین هم به لطف ابزاری که برای کرال کردن و خلاصه ‌کردن مطالب مفید اجرا دارم دیدم.

داستان چیه ؟
متا یک مدل ASR جدید + دیتاست منتشر کرده که بیش از 1600 زبان رو شناسایی می‌کنه حتی شاید بشه گفت کم استفاده‌ترین زبان‌های موجود رو و مدل‌هاش رو هم توی سایز های مختلف منتشر کرده.
من کدهای دموی خودش رو اجرا کردم نتایجش خوب بود.

خیلی پروژه‌های شخصی و کارهای قشنگی میشه با این مدل‌ها کرد:
Meta OmniLingual
👍155
Antigravity

یک مقدار باگ داره ولی اذیت نمی‌کنه (روی لپ‌تاپ تست اولیه زدم ولی چیز خوبیه!)

تازه که کرسر اومده بود همچین وضعیتی داشت ولی با توجه به اینکه گوگل پشت این قضیه هست فکر نمی‌کنم فیکس کردنش خیلی طولانی باشه.

من با اکانت تمیز + vpn تست کردم؛ کارم تموم شد روی این سیستم هم تست می‌کنم اگر محدودیت داشت اطلاع میدم!

درنهایت اینکه ؛ برای استفاده شخصی رایگان هست ولی احتمال ۹۹٪ از دیتاها برای ترین مدل‌هاش استفاده می‌کنه (اینم جک خواهم کرد)

Download Link
👍153
دستاوردهای یادگیری عمیق(InTec)
Antigravity یک مقدار باگ داره ولی اذیت نمی‌کنه (روی لپ‌تاپ تست اولیه زدم ولی چیز خوبیه!) تازه که کرسر اومده بود همچین وضعیتی داشت ولی با توجه به اینکه گوگل پشت این قضیه هست فکر نمی‌کنم فیکس کردنش خیلی طولانی باشه. من با اکانت تمیز + vpn تست کردم؛ کارم…
Gemini Pro 3

قطعا مدل عالی‌ای هست؛ شکی ندارم.
ولی
Antigravity

آشغال هست؛ تست بیشتر انجام دادم.

Back to neovim + Gemini 3 Pro



https://gemini.google.com/app

مدل دیگه‌ای که معرفی شده :
Grok4.1
هست؛ بدون تعارف Grok4 یکی از بهترین مدل‌هایی بود که ازش استفاده می‌کردم!

پینوشت:
Grok4.1
که اتفاقا دسترسی رایگان هم داره refactor خیلی خوب انجام میده و البته سرعت بهتری هم داره؛ کار امشب در اومد.
تست این دو مدل جدید با بنچمارک کد اختصاصی خودم!
👍2512