دستاوردهای یادگیری عمیق(InTec)
9.54K subscribers
363 photos
40 videos
44 files
674 links
هوش مصنوعی، یادگیری ماشین و یادگیری عمیق
موضوع اصلی کانال

این یک بلاگ شخصی با طرز تفکر شخصی هست.

Core Python : @PyHints

تلاشی هم در یادگیری Rust دارم که درحال داکیومنت شدن هم هست؛ اگر شماهم به این زبان علاقمند هستید join یادتون نره

Rust: @PyRust
Download Telegram
Qwen3-VL

بعد از Qwen3-Code این تنها مدل ازین خانواده هست که خیلی دوست داشتم تستش کنم و خب با یک توانایی خیلی خفن منتشر شد:
کنترل موبایل و دسکتاپ.

من ازش خواستم سورس کد یک سایت رو بخونه و اطلاعات مربوط به frontend اش رو برام در بیاره (صفحه main رو البته) و خیلی راحت اینکار رو کرد.
قطعا بیشتر تست می‌کنم چون سلسله‌ای از ایده‌ها تو ذهنم هست.

اگر فرصت داشتید بنظرم ارزش تست کردن داره!
👍252
چندین بار اومدم از تجربم روی راه‌اندازی H200 بگم و Sync کردن و تست‌های مختلف که چندروز درگیرش بودم.

ولی واقعاً انگیزه‌ای نیست!

بقول صاحب شرکت؛
آقا من ۱۸ میلیارد پول اینارو دادم ولی با این وضعیت دیگه پول متخصص ندارم بدم!

چیزی که متوجه شدم:
سفارش‌ها ۱ روز قبل جنگ انجام شده؛
بعد جنگ شده و کلی عقب افتاد
در نهایت هر قطعه از یک راهی وارد شده (جهت دور زدن تحریم مثل اینکه)
بعد از جنگ یک سری قراردادهاشون لغو شده
الان هم توی این شرایط یک سری دیگر ...
27👍10
یک عنوان شغلی هم داریم
Content Writer
من از ۹۰٪ اینا فرار می‌کنم؛ (مخصوصاً اونایی که مثل نونواها هرروز صبح، ظهر و شب پست میذارن) چرا ؟

چون اینا دقیقاً Halucination دنیای واقعی ما هستند؛ دقیقاً مشخص نیست تخصص طرف چیه و راجب چی حق داره حرف بزنه یا بنویسه ولی راجب همه چیز شبه تخصص می‌نویسه.

مثلاً طرف مواردی راجب ورزش نوشته (تا دلت بخواد غلط داره)
الان یک مطلبی رو خوندم، طرف راجب تراپی و هوش مصنوعی نوشته بود!

تخصص تراپی رو که ندارم و کسی هم کنارم نیست که سوال کنم؛ اما توی هوش مصنوعی فقط کلمات تخصصی رو توی فرمت درست و براساس احتمال قرار گرفتن کنار هم گذاشته!

جدی میگم؛ سر و ته جمله مشخص نیست؛ ۸۰٪ مطلبش راجب LLM (هوش مصنوعی از نظر اینا) اشتباه هست، یعنی حتی اگر مطلب رو به ChatGpt هم می‌داد ایراداش رو می‌گرفت براش.

بدترین بخشش اینه که ۱۵ تا از کانکشن‌های بنده توی لینکدین، این پست رو لایک کردند (منم آنفالو کردم؛ برخلاف خیلی‌ها من وقتی کانکشن‌هام چیزی رو لایک یا کامنت می‌ذارند وقت می‌ذارم و می‌خونم.)
👍557
#ایده #تجربه

برای یک علاقمندی شخصی چندروزی بود که داشتم سرچ میکردم و نهایتا به ۵۰ تا وبسایت رسیدم؛ از این موارد ۲۰ مورد انگلیسی - ۸ مورد فرانسه - ۸ مورد داچ و آلمانی و باقی موارد هم شرق آسیا شامل چین و ژاپن و کره بود.

من از همه‌ی این سایت‌ها و تمام مطالبی که انتشار میدادند به یک سری موارد خاص نیاز داشتم؛ که خب اکثر سایت‌ها این فیلترها رو توی بخش Advance خودشون فراهم میکردند ولی بیش از ۴۰-۵۰ فیلتر مختلف داشتند.

مثلا: فرض کنید ۵۰ تا سایت مثل آمازون که هزاران نوع محصول رو برای فروش دارند و شما هم جدیدترین محصول رو می‌خواید هم توی دسته بندی و تنظیمات خاص خودتون هم اینکه مثلا اگر دریل فلان رو سفارش دادید بر اساس توضیحاتش دقیقا به مته و سه‌راهی و کابل و پاور و ... هم برسید. (من مثال ساده زدم ولی این سایت‌ها چون تخصصی هست دقیقا همه‌ی این تنظیمات فیلترها رو ارائه میده)

۵۰ مورد سایت هرکدوم ۵۰ تا تنظیمات و فیلتر - و البته بیش از ۶-۷ زبان زنده دنیا؛ تقریبا داشتم ناامید می‌شدم و به این فکر میکردم که api های رایگان رو پول بدم و از یک شرکت واسط بخرم که :
۱- فیلتر‌ها برام از قبل انجام شده باشه
۲- همه موارد به زبان انگلیسی باشه
۳- دردسری نداشته باشه
اما مشکل اصلی این بود که حداقل ۵ دقیقه و حداکثر ۱۵ دقیقه تاخیر داره این API و این سایت بهترین ارائه دهنده هست.

یکباره به ذهنم زد چیزی که دقیقا میخوام اتفاق بیوفته رو به LLM بدم + سورس کد سایت‌ها یا لینک صفحه فیلترها و ازش بخوام یک url کامل با فیلترها بهم بده.

واقعا باورم نمیشه؛ ۱ ساعت طول کشید prompt نوشتم و درنهایت فقط و فقط Grok تونست کار رو برام انجام بده هر ۵۰ وبسایت (هربار پرامپت را با ۱۰ تا از سایت‌ها بهش میدادم)
الان من ۵۰ تا url دارم که دقیق فیلتر شده و فقط کافیه هر ۳۰ دقیقه یکبار request بدم و آپدیتش کنم!

هم ۵۰۰۰ دلار هزینه سالیانه api رو از رو دوشم برداشت؛ هم قوانین سایت رو پیدا کرد (هر ۳۰ دقیقه آپدیت میشه) هم تاخیر‌ها رو حذف کرد و در نهایت کدش رو برام نوشت (یک مقدار اشتباه داشت ولی خب بازم عالی بود)

این تسک رو هیچکدوم از مدل‌های دیگه نتونستند انجام بدند ( حتی ۱۰٪ اش رو)
اینم تبدیل شد به یکی از تست‌هایی که ازین به بعد انجام خواهم داد برای ارزیابی مدل‌ها؛ خلاصه خواستم بگم این توانایی‌هارو هم دارند مدل‌های LLM خیلی چیز جالبی هست.
👍4618
اینو می‌گم که دیگه اتفاق نیوفته؛
روی کدهای LLM توی بکند و فرانت long polling جواب نیستا!
باید از SSE استفاده کنید.

واقعا فکر نمی‌کردم هیجوقت لازم بشه این نکته رو بگم تا اینکه امروز دیدم یک شرکتی که درآمدش هم تو ایران کم نیست داره long poll استفاده می‌کنه بجای SSE توی سرویس‌های LLM اش.

قبل از اینکه با لقب سنیورتون همرو ... کنید؛ حداقل ۲ تا مطلب طراحی سیستم بخونید.

پیونشت (شما گفتید) :
روزای اول بعضی شرکت‌ها رفته بودن سراغ web-socket برای سرویس دهی.
👍264
امروز رو با تست دوتا مدل جدید شروع کنیم :

۱) خانواده Granite 4.0 از IBM
۲) برای این یکی هیجان دارم NeuTTS Air که رقیب درخوری برای مدل‌های Eleven Labs بنظر میاد.
12👍7
GLM-4.6

بدون شک باید تستش کنید؛ امروز روی یک پروژه کار می‌کردم که به مشکلات زیادی خورد توی refactor و البته اکثرا هم logic بود.
تقصیر منم نبود کدی که دستم اومد انقدر کثیف بود که هرجاش رو دست میزدم ۲-۳ جای دیگه بهم میریخت.

الان که دارم این متن رو می‌نویسم refactor اصلی تموم شده و منطق درست هست؛ حالا هدف بعدی بهینه سازی هست که باید روش کار کنم!

چون به مشکلات منطقی زیادی خوردم؛ از تموم مدل‌های موجود گمک گرفتم؛
Gemini
همون ابتدا از دور خارج شد چون vpn هام رو شناسایی میکرد و وقت نداشتم که بخوام مشکل رو حل کنم
Qwen
از دور خارج شد؛ چون کدها انقدر زیاد بود که توی یک درخواست جا نمی‌شد؛ با اینکه هربار فقط کدهای مربوط به یک بخش رو بهش میدادم (راستی برای این موضوع هم یک پروژه شخصی دارم که ast رو استفاده می‌کنه و قدم به قدم سورس کد رو واکشی می‌کنه و توضیح میده و... بگذریم الان جاش نیست)

مواردی که تست کردم
GLM-4.5, GLM4.6 - Claude - Grok Expert - ChatGPT, Deepseek
برای تمام مدل‌ها اگر قابلیت deep think روی بهترین ورژن‌هاشون وجود داشت ازون استفاده کردم.

مدل‌های Deepseek, Claude همون اول حذف شدند؛ شروع خیلی خوبی داشتند ولی بعدش توی logic مربوط به async, multi-thread همه چیز رو گم کردند و افتادند روی loop که همون کد اشتباه رو به حالت‌های مختلف هی تکرار می‌کردند.
اما خیلی جالب بود که توی اولین تلاش هر دو مورد یک سری از باگ‌ها رو پیدا کردند و فهمیدند از کجا باید شروع کنند بخصوص Claude که این موضوع رو بدون کمک پیدا کرد؛ اما نتونست حلش کنه.


مدل Grok خیلی جالب بود؛ اول راحت‌ترین راه حل رو پیشنهاد داد بعد که بهش گفتم دارم refactor می‌کنم پس راه حل بهتر رو پیشنهاد بده روشش رو عوض کرد؛ اما ۲ تا مشکل داشت :
۱- اگر من خطایی رو داشتم؛ مثلا یک import اشتباه متوجه نمی‌شد و توی loop بی‌نهایت میوفتاد.
۲- هیچ توضیحی نمیده و هربار کل کد رو تایپ می‌کنه!
حتی وقتی ازش خواستم توضیح بده؛ توضیحاتش رو همرو یا قبل از کد زدن می‌گه یا بعدش که خب رفتار خوبی نیست ولی اگر دقیقا می‌دونید چی می‌خواید و چرا این مدل خیلی کم خرف هست.

مدل ChatGPT بر خلاف Grok توضیح میده و تیکه تیکه جواب میده و میشه باهاش کنار اومد؛ یک تکنیک async اشتباه رو می‌خواستم تست کنم برای دیباگ نیاز داشتم. روی Grok هرچقدر توضیح دادم اینکار رو نکرد و کد رو تحویلم نداد؛ درنهایت هم چیزی که تحویل داد اشتباه بود. همینکار رو با ChatGPT انجام دادم؛ چون فکر میکردم اینم مقاومت کنه براش توضیح دادم که روی Debug لازم دارم و ... (پرامپت آخری که به Grok دادم تا کار کنه) و خروجی داد ولی بطور کلی نتونست بهترین راه حل رو پیشنهاد بده (چیزی که Grok انجام داده بود)

درنهایت اومدم سراغ GLM4.6 توضیحات اولیه مختصر و ادیت کد (برای توضیحات بیشتر گفته مجدد پرامپت بده که بنظرم خیلی رفتار درست و خوبیه)
مشکل رو پیدا کرد مثل Grok و راه حل خوبی رو هم پیشنهاد داد مهمترین بخشش سرعتش هست بسیار بسیار سریع توکن‌ها رو خروجی میده و باهاش میشه راحت کد توسعه داد.
یک مشکل من با LLM ها همینه سرعت توسعه خودم از کل‌کل با اونها بیشتره.
یک چیز جالبتر اینکه تنها مدلی بود که توی کدها بعد از درست‌کردن Logic اشتباه (چندتا پرامپت طول کشید ولی مسیر درست رو داشت می‌رفت) وقتی راهکار آخر رو داشت تایپ می‌کرد در انتها چندتا فایل و بخش دیگه رو پیشنهاد داد؛ چرا؟ چون فکر میکنه این تغییرات refactor رو تمیزتر می‌کنه و واقعا هم درست فکر می‌کنه!

درنهایت یک بخش‌هایی از کد رو درحال منتقل کردن به Rust هستم چون این بخش‌ها bottleneck شده برامون و Rust خیلی می‌تونه کمک کنه threading, async, ... سنگینی داره.
Grok, ChatGpt, GLM-4.6 

رو برای اینکار ازشون کمک گرفتم که توی مرور سریع GLM-4.6 بنظر کد درستی رو فقط داده؛ توی نگاه اول روی Grok, ChatGPT دارم خطا می‌بینم ( از نوع channel اشتباه استفاده کردند)

خلاصه:
بنظرم بد نیست به آپدیت جدید z.ai هم سری بزنید و با GLM-4.6 هم تست انجام بدبد؛ سرعت و دقت فوق‌العاده!
توی این تعداد پارامتر و دقت؛ این سرعت خیلی خیلی جذاب هست.
روی firefox هم می‌تونید از Dark Reader Addons استفاده کنید یکم تنظیمش کنید Dark mode خوبی برای z.ai بهتون میده (دلیلی که خودم ازین مدل کم استفاده می‌کنم همین بود)
👍3216
دستاوردهای یادگیری عمیق(InTec)
Intel Arc B50-B60 Pro گزینه‌های خوبی برای گرافیک هست؛ هر دو مورد توی دسته بندی mini-gpu قرار می‌گیره ولی برا خلاف مدل‌های Nvidia اجازه هرکاری بهتون میده؛ رندر - بازی و البته مهمتر از همه AI منم تازه دارم راجبش تحقیق می‌کنم (قبلتر توی معرفی راجبش پست گذاشته…
B50 Pro

بنچمارک‌های کاربری روش منتشر میشه و مدل 20B پارامتری openai رو با 42t/s داره اجرا می‌کنه
مصرف برق: ۷۰ وات
قیمت: آپدیت خورده بخاطر تعرفه‌ها و شده ۳۵۰ دلار

اگر برای inference و llm نیاز به GPU دارید این مدل رو حتما بهش نگاه کنید یا داداش بزرگش B60 Pro رو
12👍4
متا یک ابزار جدید منتشر کرده (شاید خیلی ساکت شخصا اتفاقی دیدم) به اسم OpenZL که برای compress کردن دیتا استفاده می‌شه که Format Aware هم هست.

compression path
های متفاوت می‌تونید بهش بدید (براساس نوع داده) ولی همه‌ی موارد با یک decompressor به حالت عادی بر می‌گردند.
مهم سرعت خیلی بالا توی اینکار هست.

درحال حاضر:
well-suited to compressing vector, tabular, or tree-structured data, and can be expected to perform well with numeric, string, or binary data. Common examples include timeseries datasets, ML tensors, and database tables.

بنظرم بدرد تیم‌های توسعه ماژول‌های دیتابیس یا تیم‌هایی که دیتا پایپ‌لاین سنگین دارند هم می‌خوره قطعا!

مثلا بعنوان نمونه؛ یک سمپل دیدم که طرف لاگ‌های سرورهای شرکت رو داشت با این تست می‌کرد! لاگ خیلی خیلی سنگین میشه توی شرکت‌های بزرگ.

Introducing OpenZL: An Open Source Format-Aware Compression Framework
👍153
بنظرم اینکه نتونم یک مدل رو روی سیستم لود کنم خیلی خیلی بهتر از اینه که بتونم لود کنم و ۳-۴ تا توکن در ثانیه خروجی بگیرم.

خب بالاخره DGX Spark هم اومد و این انتشار دیرهنگام و قیمت 4000$ و عملکرد ضعیفش باعث شده هیچکس بهش علاقمند نباشه! برخلاف باقی محصولات nvidia که نسخه founder edition به زور پیدا می‌شه این محصول رو به راحتی می‌تونید پیدا کنید.

تنها نکته مثبت این محصول؛ قابل حمل بودن و البته مصرف برق کم هست!
برای مصرف برق کم گزینه‌های دیگه و سریعتر هم هست؛ AMD و شرکت‌های دیگه کارهای جالبی در این زمینه کردند؛ چند موردی رو توی کانال‌های دیگه معرفی کردم (تست هم کردم)
قابل حمل بودنش اما؛ کمی شک دارم کسی بخواد دستگاه 4000$ دلاری که موقع استفاده هم شدیدا داغ میشه رو توی کیفش بذاره و با خودش جابجا کنه (ی سوال همینجا برام پیش اومد؟ چرا ماژول wifi اش زیر دستگاه هست بخشی که قراره روی میز قرار بگیره؟)
اکثر کسایی که خرید کردند و تست کردند؛ میگن باید توی خونه بذاری با یک خنک کننده خوب و دسترسی remote بهش بگیری!

موارد جایگزین چی می‌تونه باشه ؟
از شرکت اینتل می‌تونید برید سراغ GPUهای سری Arc B50, B60 با توجه به قیمت‌‌ها میشه با کمی حوصله سیستمی با قمیت 5000-6000$ خرید کرد که 256GB رم و 96GB هم حافظه گرافیک داشته باشه با سرعت انتقال داده سریعتر BUS منظورم هست. شخصا با قیمت‌هایی که گفته شد؛ قطعات رو کنار هم گذاشتم حدود 5200$ می‌شد البته هارد ۲ برابر و ماژولار بودن و گیم و کارهای دیگه انجام دادن روی این سیستم مواردی هست که با پرداخت ۱۲۰۰ دلار بیشتر به دست میارید! مهمترین نکته پرفورمنس حداقل ۱۰ برابر برای خیلی از مدل‌ها هست!
بعضی مدل‌هایی که روی DGX Spark طبق گزارشات 3-5 t/s بیشتر نمیده روی این دستگاه بالای 30t/s بهتون میده مثلا مدل‌های خانواده Qwen3

جایگزین‌های دیگه خرید mini-pc های شرکت‌های رغیب که از AI chip های AMD استفاده می‌کنند؛ با اینکه توی Inference عملکرد خوبی دارند مشکل این دستگاها عملکرد ضعیف موقع Finetune کردن هست برای همین گزینه Intel رو بیشتر پیشنهاد میدم!

اما اگر هر دو این موارد برای شما قابل قبول نیست؛ حتی خرید یک سیستم با ۴ تا Nvidia 3090 خوش قیمت‌تر و به مراتب سریعتر از DGX Spark هست.

تنها نکته مصرف برق هست؛ دو مورد اول مصرف برق زیادی ندارند مثلا B50 های اینتل 70W مصرف دارند؛ اما حتی سیستمی با ۴ تا 3090 که مصرف بالایی هم داره خیلی بصرفه تر از DGX Spark خواهد بود؟ چرا ؟ میزان زمانی که دولوپر‌های شما بر اساس کند بودن token/second از دست نمی‌دند میزان زمانی هست که کار شما سریعتر پیشرفت می‌کنه و خب این خودش تاثیر مستقیم روی درآمد داره!


خلاصه که DGX Spark به معنای واقعی یک سخت‌افزار بدرد نخور ولی بسیار خوشگل هست!

شخصا برای آپگیرید سیستم چشم به Arc B60 دارم و البته قیمتی هم که بالاتر گفتم با فرض قیمت‌هایی هست که اینتل گفت + هاردهای اضافه و water cooling, ...

پ.ن:
۱- هزینه سیستم با ۴ تا 3090 حدودا: 3800-5200 دلار هست بستگی به مادربرد و ...
۲- این لینک هم ببینید اگر ۴ تا 3090 خواستید ببندید.
Local Ai Home Server Build at High End $5000 Price
👍156
دستاوردهای یادگیری عمیق(InTec)
بنظرم اینکه نتونم یک مدل رو روی سیستم لود کنم خیلی خیلی بهتر از اینه که بتونم لود کنم و ۳-۴ تا توکن در ثانیه خروجی بگیرم. خب بالاخره DGX Spark هم اومد و این انتشار دیرهنگام و قیمت 4000$ و عملکرد ضعیفش باعث شده هیچکس بهش علاقمند نباشه! برخلاف باقی محصولات…
چندتا از دوستان پیام دادند بنا به دلایلی مجبور به خرید miniPC هستند؛ علاوه بر مواردی که من اشاٰره کردم یک مشکلی هم که داره دیده میشه با نسخه اصلی DGX Spark گرما بیش از حد زیر درخواست‌های زیاد هست؛ انویدیا اینطوری تبلیغ کرده که ۱ دونه ازین دستگاه بگیر؛ ۳-۴ تا مدل لود کن و بذار چندتا دولوپر استفاده کنند ولی زیر لود سنگین سریعا داغ می‌کنه!

قطعا این مشکل توسط پارتنر‌های انویدیا حل خواهد شد ولی خب خود دستگاه همونطوری که گفتم ارزش خرید نداره!
جایگزین اگر نیاز دارید:
EVO-X2 AI Mini PC
با تخفیف‌های جدیدی که GMKtec داره میده برای نسخه ۱۲۸ گیگ رم و ۲ ترابایت حافظه فقط ۲۰۰۰ دلار هست و البته تعداد توکن بیشتری میده طبق گزارش خود GMKtec چندتا از عددها این هست :
Qwen3: 235B ——> 11 t/s
Qwen3: 30B ——> 55 t/s
GPT-OSS: 120B ——> 19 t/s
GPT-OSS: 20B ——> 57 t/s

نکته مهمتر با این miniPC می‌تونه به راحتی نقش سیستم اصلی شمارو هم داشته باشه؛
16-core, 32-thread, 64MB L3 Cache

اگر بازم چیز بهتری خواستید (بهتر از نظر من) نسخه اینتل به تازگی معرفی شده
EVO-T1 AI Mini PC
نسخه ۹۶ گیگ رم و ۲ ترابایت هارد این ورژن ۱۱۷۰ دلار هست که با باقی اختلافش با DGX Spark می‌تونید یک Nvidia 5090 هم بخرید و بهش متصل کنید؛ به کمک OCuLink می‌تونید GPU بهش وصل کنید برای گیمینگ و کارهای جدی AI

دوستان اگر دارید ویدئو‌ از DGX Spark می‌بینید؛ ویدئو ‌های اسپانسر و کسایی که دستگاه براشون ارسال شده رو نبینید! خیلی‌هاشون صادق نیستند و فقط مزیت‌ها رو می‌گن (۹۹٪ هم دستگاه رو با مدل‌های دیگه مقایسه نمی‌کنند؛ مثل همین دو مدل GMKtech که به راحتی DGX Spark رو قورت میده)
👍97
برای Deepseek OCR پیشنهاد می‌کنم، برید سراغ مقاله‌اش.

بخش OCR توی مقاله کمترین جذابیت رو داره؛ چرا

A picture is worth a thousand words


کاری که deepseek کرده این هست؛ میشه گفت یک تکنیک compression ایجاد کرده که context بیشتری به LLM بده

بخش Encoder چیزی هست که لازم دارید، بیشتر بخونید.
حالا چرا OCR ؟ برای اثبات اینکه تکنیکی که حرفش رو زدن قابل انجام هست
👍184
#توضیح

توی خیلی از صحبت‌ها به اینجا میرسیم که؛ چرا دیگه روی @pytens فعالیت نداری ؟
انقدر این صحبت زیاد شده که تصمیم گرفتم یکبار توضیح بدم!

من اولین بار بیش از ۱۰ سال قبل با هوش مصنوعی آشنا شدم و وارد این فیلد شدم (پروژه کارشناسیم بخشی از موضوعی بود که قبل از اون ۱ سال روش کار کرده بودم توی یک همکاری دیگر)
دلیل اصلی اینکه وارد این فیلد کاری شدم جدابیت‌های حل مسئله‌اش بود؛ اینکه یک سری جالش‌های سخت رو با ترکیب چند راهکار یا پیشنهاد راهکاری جدید حل می‌کردند برام خیلی جذاب بود چالش‌هایی که بعضا با برنامه‌نویسی قابل حل نبود.
مثل همون image classification, segmentation, ... بهترین بخش این موضوع اما اینجا بود که با آدمهایی آشنا می‌شدم که هم علاقه بسیار به کاری که می‌کردند داشتند (پول کافی توش نبود واقعا) هم خیلی nerd بودند.
و اکثرا هم از فیلدهایی اومده بودند (شغل اصلیشون) که بقول خودشون دیگه چالش بزرگی براشون نداشت.

توی ۲-۳ سال اخیر و البته شاید ۱ سال گذشته (توی ایران) اما این فیلد دیگه مثل قبل نیست.
برای من این موضوع که با کسی صحبت می‌کنم و متوجه می‌شم ML Engineer, Deep learning, ... هست خیلی جذابیت داره واقعا با ذوق و شوق راجب کارم (برنامه‌نویسی بطورکلی‌تر) با آدم‌ها صحبت می‌کنم اما اینکه بعد متوجه می‌شم هیچ درک درستی از مفاهیم نداره بدتر خیلی انرژیم رو می‌گیره؛ اینکه نمی‌دونه python, embedding, transformer, ... چطور کار می‌کنه یا چه قابلیت‌هایی داره ولی به خودش تایتل میده و میگه با Agent, LLM, ... کار می‌کنه واقعا تاثیر منفی روی من داره.
اکثرا n8n, langchain, openai api یا کارهایی ازین دست انجام می‌دند و فکر می‌کنند دیگه تبدیل به متخصص هوش مصنوعی شدند درحالی که فقط یاد گرفت بین هزاران ابزار موجود برای برنامه‌نویس‌ها با ۲-۳ مورد از ساده‌ترین‌هاش کار کنه.

اگر یا عنوان تخصصی مثل ML Engineer, Data-scientist , ... بدون درک مفاهیم فقط یادگرفتی از این ابزارها استفاده کنی؛ هیج جذابتی برای من نداره کاری که می‌کنی اما اگر یک Software engineer هستی که برای آپدیت بودن سراغ این ابزارها رفتی برات بسیار احترام قائلم که وقت گذاشتی و ابزارهایی که فکر کردی به کارت میاد رو یاد گرفتی.

خلاصه که چون توی چندسال اخیر فیلد ما خیلی رفته سمت کار با ابزار ترجیح دادم وارد فیلدهای دیگه بشم و اکثر وقت و کارم رو توی اون‌ها بگذرونم تا چالش‌های واقعی رو خودم حل کنم؛ (دیدید ۹۸-۹۹٪ پروژه‌های AI رفته سمت اینکه ی api wrapper بنویسیم دور chatgpt, gemini یا ... اگرم جواب نداد بگیم شدنی نیست؛ نه کسی دیتا جمع می‌کنه نه کسی راهکار میده حتی دیتا کلین کردن هم دیگه خیلی جاها نمی‌دونن چیه همرو میده به chatgpt تا انجام بده.)

همه‌ی اینا باعث شده من جز یک پروژه اصلی که قرارداد دارم؛ بیشتر وقتم رو روی Rust, Python, Backend Development و یادگیری درمورد چالش‌هایی مسائلی مثل Distributed processing؛ System Architecture, ... بگذرونم و در زمینه AI فعلا سعی می‌کتم بیشتر مقالاتی که راهکارهای جذاب ارائه میدند رو بخونم فقط و تا اطلاع ثانوی فقط خودم رو Software Engineer معرفی کنم.

درنهایت برگردم به سوال اصلی؛
چرا فعالیت نمی‌کنم روی کانال ؟

هدف از این کانال هیچوقت دیده شدن و معرفی خودم نبوده. فقط خواستم کنار دوستانم رشد کنیم (هرچند دوستان بسیاری هم پیدا کردم) همین هدف باعث شده وقتی چیز جذابی برای گفتن ندارم و وقتی چیز جذابی نمی‌بینم چیزی هم ننویسم و سکوت کنم.
51👍16
یکی از بهترین نویسنده‌ها در زمینه Machine Learning بالاخره کتابش رو روی Pytorch هم منتشر کرد.

Aurelien Geron

البته نسخه کامل کتاب فعلا فقط روی Oreilly Media در دسترس هست ولی حدودا ۲ هفته دیگه از همه‌ی پلتفرم‌ها می‌تونید خرید کنید.

یک نگاهی به مباحث بخش pytorch انداختم؛ بنظر میاد خیلی از مباحث مهم رو قراره از بیس کد بزنید اما فقط بخش‌های مهم رو و وقتی به درک خوبی از کلیت عملکرد رسیدید از پکیج‌های آماده مثل transformers و ... استفاده بشه.

خلاصه پترن پترن چندسال اخیر و نسخه‌های تنسورفلو و کراس کتاب هست.
37
دستاوردهای یادگیری عمیق(InTec)
چندروز هست دارم به یکی از دوستان نزدیکم روی ایده‌اش کمک می‌کنم؛ بیشتر کدهای بکند و مربوط به AI اش با من هست. یکی از مواردی که توی MVP دیده شد این بود که علاوه بر سرعت توکن هم برامون خیلی مهمه (چندتا فاز داره و مثلا یک مرحله‌اش اینه که خروجی رو Text to Speech…
#Quick

۱۰ سال زمان برده تا به این دستاورد رسیدند تا 250x سریعتر از رقبا و توی همین بازه هم تو زمان ساخت حدود ۱۸ ماه هیچ پیشرفت خاصی نداشتند (هزینه هرماه حدود ۸ میلیون دلار) جز fail کردن و یادگرفتن؛ این چیزیه که مدیرعامل شرکت می‌گه این دید قشنگی هست برای ساخت.

یادمه توی یک مصاحبه؛ از ایلان ماسک راجب انفجارها و فرودهای ناموفق راکت‌ها سوال پرسیدند گفتند خسته نمی‌شی انقدر پول خرج می‌کنی و موفق نمی‌شی ؟
جواب داد قرار نیست فرود موفق ببینیم روی این سری؛ هدف اینه که اشتباهات رو پیدا کنیم هربار که این تست‌ها انجام میشه برای این هست که سیستم رو امن‌تر کنیم (یعنی یک سری از انفجارها و ... از قبل برنامه‌ریزی شده بود) و اگر انفجار انجام نشه باید نگران باشیم.

البته با ایران مقایسه نشه‌ها؛ اینا شرکت‌های خصوصی هستند.
ما شرکت‌های خصوصیمون هیچ ریسکی نمی‌کنند؛
دولتی‌ها ریسک می‌کنند که خب البته بیشتر هدف دزدی هست نه یادگیری و پیشرفت.
👍306
بهترین نکته در مورد
ChatGpt Atlas
که بمیرم هم نصب نمی‌کنم بعنوان کسی که هم AI کار کرده هم امنیت.

از مشکلات، privacy و امنیتش بگذرم این بود که!

اینا از chromium دارند استفاده می‌کنند و یک تیم هم برای توسعه این موضوع تشکیل شده!

جانم؟
مگه سم‌آلتمن و ... نبودند گفتند با این نسخه می‌شه کارهای software engineer هارو انجام داد؟
خب الان دوتا سوال دارم:

۱- برای توسعه ۴ تا فیچر احمقانه که نمونه کدهای ورژن ساده‌اش همه جا هست، چرا تیم توسعه دهنده تشکیل دادید؟

۲- اگر انقدر نتایج روی آنچه خود تیم openai تسک‌های واقعی software engineering اسم می‌ذاره خوب هست!
چرا یک fork از chromium گرفتید که حالا به هر دلیلی بدنامی chrome رو دنبال خودش داره ؟

آها شاید openai پول کافی برای شارژ تعداد توکن مورد نیاز جهت توسعه این محصول رو نداره، بازم زود قضاوت کردم.


شارلاتان تر از سم آلتمن دنیا به خودش ندیده؛ آدمای درست رو دنبال کنید که openai رو ساختند :

John Schulman, Ilya Sutskever, Dario Amodei, ...

و تورو به اعتقاداتتون دست بردارید از این سوالا که من تازه برنامه‌نویسی رو شروع کنم، بنچمارک جدید مدل فلان شده ۹۰٪ نمی‌دونم ....

ازین پیاما به من ندید!
بکشید بیرون از اینستاگرام!
👍3114
وقتی JSON معرفی شد؛ یکی از اهدافش خوانایی بهتر برای آدمها بود ولی خب هممه می‌دونیم که این موضوع باعث سربار هم می‌شه برای محاسبات و ...
یکی از مشکلات اصلی برای LLM ها هم رعایت استانداردهای مربوط به JSON هست و اینکه وضعیت تعداد براکت‌های باز و بسته رو نگه داره!
اینکه هرکدوم ازین براکت‌ها هم توکن حساب می‌شوند هم یک ضرر مالی جداس.

همین دوتا دلیل باعث شد؛ من برای:
۱- دقت بالاتر
۲- کم کردن هزینه‌ها

دنبال روش‌های دیگه توی تولید و parse کردن دیتاها بگردم تقریبا چیزی حدود ۱۰٪ مواقع توی پرامپت‌های بزرگ و تسک‌های سنگین خروجی JSON هام valid نبود؛ هم یوزر رو کلافه می‌کرد هم هزینه‌های من رو اضافه (این کار برای خودم هست؛ شرکتی درکار نیست)

توی این گشت و گذار به یک پروژه روی گیت‌هاب رسیدم
Token Oriented Object Notation

توی تست‌های من (یک سری از لاگ‌های چت‌های گذشته رو بهش دادم؛ بصورت رندم) به راحتی حداقل ۲۰٪ توکن کمتر استفاده می‌کنه توی بهترین حالت به ۶۴٪ هم رسید (ولی خیلی کم پیش اومد توی دیتاهای من) برای خروجی LLM ها
و البته دقتش هم بهتر شد؛ تقریبا توی ۱۰ مورد چالشی که اکثر وقتا JSON invalid میداد فقط ۱ مورد دیتا رو اشتباه کرد؛ که اون مورد هم با پرامپت بهتر قابل حل هست.

نمونه از داکیومنت خودش :
{
"users": [
{ "id": 1, "name": "Alice", "role": "admin" },
{ "id": 2, "name": "Bob", "role": "user" }
]
}


users[2]{id,name,role}:
1,Alice,admin
2,Bob,user


خلاصه که اگر شما هم با این دوتا چالش سرکار دارید یا اگر توی شرکت هزینه‌ی بخصوص بالای 10,000 دلار ماهیانه روی مدل‌های هوش مصنوعی دارید و اکثرا هم خروجی رو بصورت structured نیاز دارید؛ بنظرم حتما ازین تکنیک استفاده کنید.
👍3321
دستاوردهای یادگیری عمیق(InTec)
#توضیح توی خیلی از صحبت‌ها به اینجا میرسیم که؛ چرا دیگه روی @pytens فعالیت نداری ؟ انقدر این صحبت زیاد شده که تصمیم گرفتم یکبار توضیح بدم! من اولین بار بیش از ۱۰ سال قبل با هوش مصنوعی آشنا شدم و وارد این فیلد شدم (پروژه کارشناسیم بخشی از موضوعی بود که قبل…
#خارج_از_بحث
این متن مخصوص کسایی هست که به برنامه‌نویسی واقعا علاقه دارند و ارائه پروژه استاندارد و بهینه براشون مهم هست؛ خودمونی تر
you worship well thought out software

اگر این موضوع براتون اهمیتی نداره؛ وقتتون رو با خوندن این متن تلف نکنید.

اول این ویدئو رو ببینید بعدش باقی متن رو بخونید:

Youtube Video

اگر اشتباه نکنم سال 2020 بود که صحبت‌ها درباره LLM بالا گرفت و 2021 وقتی بود که برای اولین بار خیلی جدی‌تر گفته شد این ابزارها دیگه کم کم می‌تونند نرم‌افزار تولید کنند ( از همون موقع هم ما کلی صحبت داشتیم که عمرا و فقط می‌تونند جای کدر‌ها رو بگیرند و مهندسین نرم‌افزار رو بهشون کمک کنند)

همین اولم بگم که رسما می‌تونم اعلام کنم بیشترین درآمد دقیقه‌ای و سریعترین درآمدم هم به لطف همین LLMها بوده (توی کانال رندرنج درموردش گفتم و هنوزم هرازگاهی گیرم میاد؛ اسپویل مربوط به حل مشکلات بوده)

اما همین موارد هم باعث شده خیلی از ذوق و شوقم رو برای AI از دست بدم (میگم AI چون برای تمام فیلدهاش ذوق دارم) چندتا ازین موارد:

۱- موردی که راحت‌ترین درآمد رو بهم میده؛ تیم‌هایی متشکل از تعداد زیادی Vibe Coder و نیروی Junior که کل پروژه رو LLM چیده و تا دلتون بخواد توش ایرادات فنی و طراحی وجود داره و وظیفه من Troubleshoot کردن پروژه هست.
شخصا بخوام به قضیه نگاه کنم دستمزد این کار خیلی بالاس؛ خیلی خیلی بالا.
فرض کنید یک تیم ۶ماه وقت گذاشته یک نرم‌افزاری رو توسعه داده و حالا بعد از یک سری موفقیت و درآمدزایی کوچیک به بن‌بست و مشکلاتی خورده که نمی‌دونه از کجاس؛ تو این شرایط پول زیادی خرج میشه (تاحالا با درد شدید دکتر رفتی؟ شرایط یکسان هست)

۲- کامیونیتی‌های ضعیف و مطالب کمی درست و کلی غلط:(کاملا واضحه با LLM بررسی شده)
زمانی بود که وارد یک کامیونیتی معمولی مثلا پایتون هم که می‌شدی ممکنه بود یک روزی متوجه بشی اونی که گوشه کامیونیتی دیروز ازت درمورد فرق f-string, fromat داشت سوال می‌کرد خودش مثلا نصف core-banking رو نوشته و حالا تو وقت ناهارش داره پایتون تمرین می‌کنه؛ من خیلی از دوستانم رو اینطوری باهاشون آشنا شدم.
خیلی‌ها توی این کانال هستند و من هربار که باهاشون صجبت می‌کنم کلی چیز جدید یاد میگیرم.

۳- پروژه‌های تکراری و ضعیف با بدترین پیاده‌سازی ممکن.
خیلی از پروژه‌هایی که این روزا بهم پیشنهاد میشه و رد می‌کنم؛ توی این دسته بندی قرار می‌گیره اگر آشنا نباشه درجا رد می‌کنم اگر هم نتونم اینکار رو بکنم و یا توقع انجام ۱۰۰ تا کار ازم باشه؛ از تکنیک دستمزد بالا استفاده می‌کنم (کلا دستمزدم زیاد هست شما ببین اینجا چی می‌شه دیگه)
یکی از بیشترین پروژه‌هایی که میومد:‌
بیا یک api بزنیم؛ chatgpt رو ارائه بدیم نه در حد openrouter و ... ها اونا چالشش زیاده ما فقط chatgpt رو بگیریم جوابش رو بدیم به کاربر این وسطم دیتاهای چت‌ها رو ذخیره کنیم اگر شد واسه تبلیغات بفروشیم.
هزینه‌اش هم هرچی chatgpt از ما گرفتم ما ۱۵٪ میذاریم روش همون رو برای کاربر فاکتور می‌کنیم.
تازه همین مورد هم اگر برید ببینید انقدر ضعیف پیاده‌سازی شده که دائم باهاشون جنگ خواهید داشت.

۴- همین مورد توقع قبول ۱۰۰ تا وظیفه یا توقع تحویل کار توی ۱/۵ زمان نرمال.
موقع پول دادن ما یک دولوپر هستیم که با کمک LLM کار رو پیش می‌بریم و توسعه میدیم.
موقع پاسخگویی؛ ماها سنیوری هستیم که توقع میره هوای جونیورها رو داشته باشیم و پروژه رو بهتر و استاندارد تحویل بدیم.
موقع زمانبندی؛ مگه چیکار می‌خوای بکنی بیا ی اکانت ۱۰ دلاری برات بخرم بده LLM بزنه تو فقط تستش کن
(یکی نیست بگه خب الاغ اگر اینه خود خرت بشین نرم‌افزارتو توسعه بده؛ دیگه لازمم نیست ۸ ساعت در روز کار کنی ۱۶ ساعت کار کن پول بیشتری ذخیره کنی)

توی اینترنت هم روزی ۱ بار دوره‌ی جدید میاد برای LLM Agent ها
ی سری آدم نشستن از اینور صفحه؛ ی کامپوننت رو میگرین میندازن وسط صفحه؛ بعد اینا رو بهم وصل می‌کنند؛ یک کلید هم این وسطا از سرویس دهنده میگیرن و خر کیف اعلام می‌کنند که
ML Engineer
هستند و این موقعیت شغلی رو در یک دوره ۱۰ ساعته به شما آموزش خواهند داد.
یک مشت گوسفند هم دنبال اینا که با خرید این دوره تبدیل به ML Engineer بشوند.

اوضاع چقدر بده ؟ اونقدری که من یک notifier نوشته بودم برای یک سری سایت مثل udemy, xda, ... هر شب ساعت ۱۱:۵۹ اجرا می‌شد و صبح بهم اطلاع میداد چه دوره‌هایی ترند شده یا معرفی شده
(همین کد رو برای کتاب‌ها هم دارم)
چندروز پیش خاموشش کردم؛ واقعا حیف اینترنت که صرف کرال کردن اینا بشه؛ حیف برق کشور که صرف پردازش و تمیز کردن خروجی این کرالرها بشه؛ به تازگی چندتا شرکت هم دارم می‌بینم توی ایران تخصصی برای prompt engineering داره ایجاد می‌شه که امیدوارم یک شوخی کثیف از دوستان نزدیکم باشه برای اذیت کردن بنده.
32👍10