Out of Distribution

نهضت ادامه دارد بعد از این که DeepSeek R1 نشون داد که می‌شه با RL با ریواردهای ساده و البته تکیه بر GRPO، مدل زبانی رو آموزش داد و توانایی‌های ریزنینگی‌شون رو بهبود بخشید توجهات به این سمت، یعنی آموزش مدل‌ها با RL جلب شده. حالا یک کار اومده که مدل کوچولوی…

دیپ لرنینگ در واقعیت آن چنان عمق تئوری نداره و بیشتر شبیه به لگوبازی می‌مونه. برای همین هر کسی می‌تونه با گذاشتن یک وقت معقول و بدون درگیرشدن با مفاهیم و فرمول‌های پیچیده تئوری، به دیپ لرنینگ تا حد خوبی مسلط بشه و اکثر مقالات رو (که چیزی بیشتر از همین لگوبازی‌ها نیستند) بفهمه. برای فهم بهتر این اتفاق، می‌شه دیپ لرنینگ رو بذاریم کنار یک علم نظری مثل فیزیک و مقایسه کنیم که چه قدر فیزیک نسبت به دیپ لرنینگ جنبه‌های تئوری بیشتری داره و دیپ لرنینگ چه قدر از این نظر کم عمقه. بعضی‌ها هستند حالا مشکلی با این جنبه کم‌عمقی نظری ندارند و از همون جنبه لگوبازیه یا مهندسی قضیه لذت می‌برند که چطور می‌شه حالا با این ابزاری که داریم چیزهای مختلفی بسازیم، در مقابل اینها اما یک عده‌ای هستند که براشون جالبه که اون مساله عمقش محدود نباشه و هر روز یک چیز جدید نظری عمیق‌تر باشه تا براشون مایه سوال و شگفتی باشه.

اما در عین حال، یک جنبه‌ای از پارادایم هوش مصنوعی فعلی که توش مقداری تئوری وجود داره، RL هست. RL جاییه که دیگه همه چیز لگوبازی ساده نیست و یک اندک فرمول‌هایی برای اذیت کردن وجود دارند و ریزش آدم‌ها همین جا شروع می‌شه :) بارها شده دیدم یک سری آدم‌ها چه قدر خفن به نظر می‌رسن در حوزه دیپ لرنینگ و به راحتی تا آخرین مفاهیم و اخبار روز دیپ لرنینگ رو باهاش آشنا هستند و می‌تونن راجع بهشون صحبت کنند اما RL براشون شبیه یک جزیره مه‌آلود می‌مونه و وقتی سوالی حتی کلی در موردش پیش می‌آد پاسخی براش ندارن. در همین راستا چند وقت اخیر در اینستا و یوتیوب و توییتر زیاد محتوای از سمت فارسی‌زبان ها دیدم که دیپ‌سیک رو بررسی کرده بودند و بهش تاخته بودند که این که چیز جدیدی نیست و از این قسم حرفا. امروز بعد از دیدن یکی دیگه از این محتواها به این فکر افتادم که اینها اغلب احتمالا با RL آشنایی دقیقی ندارند و برای همین چیزی که تو DeepSeek R1 اتفاق افتاده رو نمی‌بینند. این که چطوری شبکه با RL داره آموزش می‌بینه، چطوری صرفا یک ریوارد نهایی و یک ریوارد ساده میانی رول بیسد داره و این که چطور GRPO این وسط جواب می‌ده از جمله همین نکاته. برای مثال اگر توییتر کامیونیتی هوش مصنوعی رو نگاه کنید (بر خلاف محتواهای داخلی که میگن دیپ سیک نوآوری نداره) یک ترندی در این چند وقت راه افتاده که ملت سعی می‌کنند ببینید چطور می‌شه این رویکرد آموزش با RL رو به مسائل دیگه و با تکنیک‌های غیر از GRPO تعمیم داد.

پی‌نوشت: البته واقعیتش RL هم آن چنان پیچیدگی نداره، در مقابل فیزیک و ریاضی همه مسائل ما متاسفانه در حکم خاله‌بازی اند.

1.57K viewsMahdi, edited 03:22

Out of Distribution

تعطیلات عید فقط اونجاییش که نه می‌دونی چند شنبه است و نه حتی مهمه برات که امروز چند شنبه است. اوج رهایی از زمان و تحقق زندگی در لحظه

1.38K viewsMahdi, 22:44

Out of Distribution

فرانسوا شله، طی توییتی گفته که قصد دارند نسخه دوم ARC رو در فوریه منتشر کنند. همچنین گفته که در حال کار روی بنچمارک AGIای هستند که فورمتش کاملا با ARC فعلی فرق داره. برام جالبه ببینم مساله جدیدی که می‌خواد مطرح کنه باز هم در قالب program synthesis می‌گنجه…

ریزنینگ زنده است، چون ARC زنده است

سرانجام ساعاتی پیش ARC-2 رو رونمایی کردند. تسک‌ها به نظر کامپوزیشنال‌تر شدند یعنی با rule‌هایی مواجهیم که هم خودشون ترکیب چند تا rule پایه هستند و هم خیلی به context وابسته‌اند.

جایزه رو هم بردن روی ۷۰۰ هزار دلار. به شرطی که دقت بالای ۸۵ درصد گرفته بشه، این در حالیه که عملکرد o3 رو این بنچمارک ۵ درصده

لینک:
https://arcprize.org/

1.79K viewsMahdi, 23:00

Out of Distribution

دیشب بی‌حوصله بودم و دوباره مقداری ور رفتم. تصاویر به نظر خودم قشنگ اند ولی وقتی مقایسه می‌کنم می‌بینم که حسی که از کشیدن یک دایره و رنگ کردنش می‌گیرم خیلی متفاوت‌تره تا این که یک پرامپت می‌دم به هوش مصنوعی و برام تصویر تولید می‌کنه. شاید هنر صرفا اون outcome…

امروز دیدم یک مدل متن به تصویر جدیدی به نام reve اومده و خیلی ازش تعریف شده. من هم دیگه به عادت مالوف و از روی فان و تفریح مقداری باهاش ور رفتم نتایج این شد که می‌بینید. نکته‌ای که در توییتر هم خیلی مورد بحث بود توانایی عالی reve در خروجی‌دادن درست و صحیح متن هستش که جالبه.

لینک:
reve.art

2.65K viewsMahdi, 06:43

Out of Distribution

راجع به رده‌بندی الو و LMSYS Chatbot Arena و Gemini و اینها گوگل پس از چندی خفت و خواری در زمینه LLM‌ها، سرانجام هفته پیش یک اتفاق مهم، یک اتفاق شاد رو تجربه کرد. اون اتفاق هم این بود که مدل Gemini-1.5-Pro سرانجام تونست صدرنشین بنچمارک LMSYS بشه و بالاتر…

Google

Gemini 2.5: Our most intelligent AI model

Gemini 2.5 is our most intelligent AI model, now with thinking.

هشت ماه از این پست می‌گذره و نبرد ادامه داره و امروز Gemini 2.5 این بار با حاشیه قابل توجه دوباره صدرنشین شد. تا همین چند وقت پیش یادمه که گوگل به شدت از رقابت LLM‌ها عقب بود و حتی برخی تصور می‌کردند که بلایی که گوگل سر یاهو آورد این بار openai سر خودش میاره اما گوگل دلاور بازگشت خوبی رو تا اینجا به رقابت داشته. عملکردشون در این چند وقت و مخصوصا از Gemini 1.5 به بعد جذاب بوده.

لینک:
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinking

پی‌نوشت: از این که سرعت رشد و رقابت بین این‌ها این قدر بالاست و سرعت رشد من نسبت به اینها صفره و اصلا ما جایی از این بازی نیستیم، افسرده‌ام. یارب چقدر فاصله‌ی دست و زبان است

1.46K viewsMahdi, 03:36

Out of Distribution

ارومیه، تار مویی میان پان‌ترک و پان‌کرد

ارومیه و کلا آذربایجان غربی موقعیت قابل تاملی دارند. منطقه‌ای که ترکیبی از اقوام آذری و کرد و اقلیتی ارمنی هست. از طرفی بین سه منطقه خارجی قفقاز، کردستان و ترکیه قرار گرفته. این ویژگی جغرافیای و قومیتی خاص، این منطقه رو مستعد درگیری‌های شدید کرده. اتفاقاتی که در این هفته در ارومیه افتاد نسبت به اتفاقات بعد از جنگ جهانی اول هیچ بود. در جنگ جهانی اول و در شرایط فلج بودن دولت مرکزی ایران، ارومیه تبدیل به محل نزاع بین عثمانی و روسیه و ارمنی‌ها در پی تشکیل کشور مستقل و کردها شد و بسیاری فجایع قتل و غارت درش رخ داد. درگیری قومیتی و تمایلات جدایی طلبانه در ایران چیز غیرعادی نیستند ولی اون چیزی که داستان ارومیه رو نسبت به بقیه جاهای ایران متمایزتر می‌کنه، اینه که اگر در بقیه جغرافیای مرزی ایران بین دو گروه دعوای قومیتی هست معمولا اونجاها یک گروه از گروه دیگه داخلی‌تر محسوب می‌شه و صرفا یک گروه تمایلات جدایی طلبانه داره ولی در ارومیه در بدترین حالت می‌شه شاهد حضور همزمان تمایلات جدایی طلبی پان ترکی و پان کردی بود. جایی که به علت نزدیک به مناطق مختلف خارجی می تونه اتش بحران رو شعله‌ورتر کنه.

گذشته از شرایط جمعیتی و جغرافیایی، دعواهای قومیتی خطیر هستند. فرض کنید روزی در خیابون با کسی دعواتون می‌شه و مثلا سر شما در اثنای دعوا می‌شکنه. شما احتمالا خاطره دعوا و آسیب براتون میمونه اما این خاطره به شما جهت دهی نمی‌ده. حالا فرض کنید در خیابون با یکی دعواتون می‌شه و از روی ظاهر یا لهجه طرف، قومیت یا صنفش رو می‌شناسید. احتمالا تا عمر دارید وقتی شخص دیگه ای رو از اون قومیت یا صنف ببینید براتون اون خاطره ناگوار و حس خطر و بی اعتمادی تداعی می‌شه. و این نسل اندار نسل ممکنه انتقال پیدا کنه بچه شما هم می‌بینه و این حس منفی‌اش رو به نسل بعدی منتقل می‌کنه. و اصلا حتی شاید شما هم اون واقعه دعوا و آسیب رو تجربه نکنید و صرفا بشنیود یکی از یک قومیتی یکی از قومیت شما رو آسیب زده. بدون این که فکر کنید که مقصر چه کسی بوده این حس ترس و ناامنی در خودآگاه یا ناخودآگاه شما شکل می‌گیره. این چرخه باطل شکسته نمی‌شه مگر این که آدم‌ها به قدری با هم در ارتباط باشند و آدم‌های مختلفی از قومیت‌های مختلف رو تجربه کنند تا اون حس تمایزشون کمرنگ‌تر بشه و اشتراکات دیگه‌ای پررنگ بشن. فرض کنید مثلا در دنیایی میگن علی‌آبادی‌ها آدم‌های خشنی هستند و اگر شما در زندگیتون با ده تا علی آبادی درست دوست بوده باشید اگر حتی یک علی آبادی خشنی ببینید در ذهنتون تعمیم پیدا نمیکنه.

به هر صورت تفاوت‌های قومیتی با یک جرقه میتونن منجر به یک انفجار بشن. اتفاقی که این هفته در ارومیه بین ترک ها و کردها افتاد قابلیت این که به جاهای بدتری بکشه رو داشت و خدا رو شکر زود خاتمه پیدا کرد. ما در کشوری زندگی می‌کنیم که گروه‌های مختلف از نظر قومیتی، زبانی، فرهنگی، مذهب و صنفی با هم تفاوت دارند. هر جرقه در گروهی اگر بخواد پاسخ گروهی از سمت دیگه رو داشته باشه منجر به انفجار می‌شه. سیاست بهینه در این بین باید برقراری مماشات گروه‌های مختلف با هم و همچنین جلوگیری از تحرکات گروهی در راستای واگرایی باشه. در واقع مرز رفتاری در رفتار درست با چنین مقوله‌ای برای قدرت مرکزی بسیار ظریف و باریکه. تلاش برای دخالت و پذیرفتن تمایزات در عین این که واگرایی بیشتری ایجاد نشه خیلی حرکت ظریف و خطرناکیه

1.46K viewsMahdi, edited 03:17

Out of Distribution

زندگی را باید رو به جلو زیست، اما فقط می‌توان آن را رو به عقب فهمید.

سورن کیرکگور

1.66K viewsMahdi, 18:39

Out of Distribution

کز این منزلِ ویران بروم

خُرَّم آن روز کز این منزلِ ویران بروم
راحتِ جان طلبم و از پِیِ جانان بروم

گر چه دانم که به جایی نَبَرد راه غریب
من به بویِ سرِ آن زلفِ پریشان بروم

دلم از وحشتِ زندانِ سِکَندَر بگِرفت
رخت بربندم و تا مُلکِ سلیمان بروم

چون صبا با تنِ بیمار و دلِ بی‌طاقت
به هواداریِ آن سروِ خِرامان بروم

در رهِ او چو قلم گر به سرم باید رفت
با دلِ زخم‌کَش و دیدهٔ گریان بروم

نذر کردم گر از این غم به درآیم روزی
تا درِ میکده شادان و غزل‌خوان بروم

به هواداری او ذَرِّه‌صفت، رقص‌کنان
تا لبِ چشمهٔ خورشیدِ درخشان بروم

تازیان را غمِ احوالِ گران‌باران نیست
پارسایان مددی تا خوش و آسان بروم

ور چو حافظ ز بیابان نبرم رَه بیرون
همرهِ کوکبهٔ آصفِ دوران بروم

حافظ

1.49K viewsMahdi, 21:47

Out of Distribution

امیدوارم خدا در حکم کفاره لحاظ کنه

1.38K viewsMahdi, 02:19

Out of Distribution

گویا openai نسخه جدیدی از 4o رونمایی کرد و صدرنشینی gemini به اندازه عمر پشه هم نشد. رقابت این‌ها اون بالا بسیار عجیبه از این نظر که سیاله. در واقع رقابت الانشون رقابت الانشون نیست مال چند وقت قبله.

1.62K viewsMahdi, edited 03:02

About

Blog

Apps

Platform