Out of Distribution
نهضت ادامه دارد بعد از این که DeepSeek R1 نشون داد که میشه با RL با ریواردهای ساده و البته تکیه بر GRPO، مدل زبانی رو آموزش داد و تواناییهای ریزنینگیشون رو بهبود بخشید توجهات به این سمت، یعنی آموزش مدلها با RL جلب شده. حالا یک کار اومده که مدل کوچولوی…
دیپ لرنینگ در واقعیت آن چنان عمق تئوری نداره و بیشتر شبیه به لگوبازی میمونه. برای همین هر کسی میتونه با گذاشتن یک وقت معقول و بدون درگیرشدن با مفاهیم و فرمولهای پیچیده تئوری، به دیپ لرنینگ تا حد خوبی مسلط بشه و اکثر مقالات رو (که چیزی بیشتر از همین لگوبازیها نیستند) بفهمه. برای فهم بهتر این اتفاق، میشه دیپ لرنینگ رو بذاریم کنار یک علم نظری مثل فیزیک و مقایسه کنیم که چه قدر فیزیک نسبت به دیپ لرنینگ جنبههای تئوری بیشتری داره و دیپ لرنینگ چه قدر از این نظر کم عمقه. بعضیها هستند حالا مشکلی با این جنبه کمعمقی نظری ندارند و از همون جنبه لگوبازیه یا مهندسی قضیه لذت میبرند که چطور میشه حالا با این ابزاری که داریم چیزهای مختلفی بسازیم، در مقابل اینها اما یک عدهای هستند که براشون جالبه که اون مساله عمقش محدود نباشه و هر روز یک چیز جدید نظری عمیقتر باشه تا براشون مایه سوال و شگفتی باشه.
اما در عین حال، یک جنبهای از پارادایم هوش مصنوعی فعلی که توش مقداری تئوری وجود داره، RL هست. RL جاییه که دیگه همه چیز لگوبازی ساده نیست و یک اندک فرمولهایی برای اذیت کردن وجود دارند و ریزش آدمها همین جا شروع میشه :) بارها شده دیدم یک سری آدمها چه قدر خفن به نظر میرسن در حوزه دیپ لرنینگ و به راحتی تا آخرین مفاهیم و اخبار روز دیپ لرنینگ رو باهاش آشنا هستند و میتونن راجع بهشون صحبت کنند اما RL براشون شبیه یک جزیره مهآلود میمونه و وقتی سوالی حتی کلی در موردش پیش میآد پاسخی براش ندارن. در همین راستا چند وقت اخیر در اینستا و یوتیوب و توییتر زیاد محتوای از سمت فارسیزبان ها دیدم که دیپسیک رو بررسی کرده بودند و بهش تاخته بودند که این که چیز جدیدی نیست و از این قسم حرفا. امروز بعد از دیدن یکی دیگه از این محتواها به این فکر افتادم که اینها اغلب احتمالا با RL آشنایی دقیقی ندارند و برای همین چیزی که تو DeepSeek R1 اتفاق افتاده رو نمیبینند. این که چطوری شبکه با RL داره آموزش میبینه، چطوری صرفا یک ریوارد نهایی و یک ریوارد ساده میانی رول بیسد داره و این که چطور GRPO این وسط جواب میده از جمله همین نکاته. برای مثال اگر توییتر کامیونیتی هوش مصنوعی رو نگاه کنید (بر خلاف محتواهای داخلی که میگن دیپ سیک نوآوری نداره) یک ترندی در این چند وقت راه افتاده که ملت سعی میکنند ببینید چطور میشه این رویکرد آموزش با RL رو به مسائل دیگه و با تکنیکهای غیر از GRPO تعمیم داد.
پینوشت: البته واقعیتش RL هم آن چنان پیچیدگی نداره، در مقابل فیزیک و ریاضی همه مسائل ما متاسفانه در حکم خالهبازی اند.
اما در عین حال، یک جنبهای از پارادایم هوش مصنوعی فعلی که توش مقداری تئوری وجود داره، RL هست. RL جاییه که دیگه همه چیز لگوبازی ساده نیست و یک اندک فرمولهایی برای اذیت کردن وجود دارند و ریزش آدمها همین جا شروع میشه :) بارها شده دیدم یک سری آدمها چه قدر خفن به نظر میرسن در حوزه دیپ لرنینگ و به راحتی تا آخرین مفاهیم و اخبار روز دیپ لرنینگ رو باهاش آشنا هستند و میتونن راجع بهشون صحبت کنند اما RL براشون شبیه یک جزیره مهآلود میمونه و وقتی سوالی حتی کلی در موردش پیش میآد پاسخی براش ندارن. در همین راستا چند وقت اخیر در اینستا و یوتیوب و توییتر زیاد محتوای از سمت فارسیزبان ها دیدم که دیپسیک رو بررسی کرده بودند و بهش تاخته بودند که این که چیز جدیدی نیست و از این قسم حرفا. امروز بعد از دیدن یکی دیگه از این محتواها به این فکر افتادم که اینها اغلب احتمالا با RL آشنایی دقیقی ندارند و برای همین چیزی که تو DeepSeek R1 اتفاق افتاده رو نمیبینند. این که چطوری شبکه با RL داره آموزش میبینه، چطوری صرفا یک ریوارد نهایی و یک ریوارد ساده میانی رول بیسد داره و این که چطور GRPO این وسط جواب میده از جمله همین نکاته. برای مثال اگر توییتر کامیونیتی هوش مصنوعی رو نگاه کنید (بر خلاف محتواهای داخلی که میگن دیپ سیک نوآوری نداره) یک ترندی در این چند وقت راه افتاده که ملت سعی میکنند ببینید چطور میشه این رویکرد آموزش با RL رو به مسائل دیگه و با تکنیکهای غیر از GRPO تعمیم داد.
پینوشت: البته واقعیتش RL هم آن چنان پیچیدگی نداره، در مقابل فیزیک و ریاضی همه مسائل ما متاسفانه در حکم خالهبازی اند.
تعطیلات عید فقط اونجاییش که نه میدونی چند شنبه است و نه حتی مهمه برات که امروز چند شنبه است. اوج رهایی از زمان و تحقق زندگی در لحظه
Out of Distribution
فرانسوا شله، طی توییتی گفته که قصد دارند نسخه دوم ARC رو در فوریه منتشر کنند. همچنین گفته که در حال کار روی بنچمارک AGIای هستند که فورمتش کاملا با ARC فعلی فرق داره. برام جالبه ببینم مساله جدیدی که میخواد مطرح کنه باز هم در قالب program synthesis میگنجه…
ریزنینگ زنده است، چون ARC زنده است
سرانجام ساعاتی پیش ARC-2 رو رونمایی کردند. تسکها به نظر کامپوزیشنالتر شدند یعنی با ruleهایی مواجهیم که هم خودشون ترکیب چند تا rule پایه هستند و هم خیلی به context وابستهاند.
جایزه رو هم بردن روی ۷۰۰ هزار دلار. به شرطی که دقت بالای ۸۵ درصد گرفته بشه، این در حالیه که عملکرد o3 رو این بنچمارک ۵ درصده
لینک:
https://arcprize.org/
سرانجام ساعاتی پیش ARC-2 رو رونمایی کردند. تسکها به نظر کامپوزیشنالتر شدند یعنی با ruleهایی مواجهیم که هم خودشون ترکیب چند تا rule پایه هستند و هم خیلی به context وابستهاند.
جایزه رو هم بردن روی ۷۰۰ هزار دلار. به شرطی که دقت بالای ۸۵ درصد گرفته بشه، این در حالیه که عملکرد o3 رو این بنچمارک ۵ درصده
لینک:
https://arcprize.org/
Out of Distribution
دیشب بیحوصله بودم و دوباره مقداری ور رفتم. تصاویر به نظر خودم قشنگ اند ولی وقتی مقایسه میکنم میبینم که حسی که از کشیدن یک دایره و رنگ کردنش میگیرم خیلی متفاوتتره تا این که یک پرامپت میدم به هوش مصنوعی و برام تصویر تولید میکنه. شاید هنر صرفا اون outcome…
امروز دیدم یک مدل متن به تصویر جدیدی به نام reve اومده و خیلی ازش تعریف شده. من هم دیگه به عادت مالوف و از روی فان و تفریح مقداری باهاش ور رفتم نتایج این شد که میبینید. نکتهای که در توییتر هم خیلی مورد بحث بود توانایی عالی reve در خروجیدادن درست و صحیح متن هستش که جالبه.
لینک:
reve.art
لینک:
reve.art
Out of Distribution
راجع به ردهبندی الو و LMSYS Chatbot Arena و Gemini و اینها گوگل پس از چندی خفت و خواری در زمینه LLMها، سرانجام هفته پیش یک اتفاق مهم، یک اتفاق شاد رو تجربه کرد. اون اتفاق هم این بود که مدل Gemini-1.5-Pro سرانجام تونست صدرنشین بنچمارک LMSYS بشه و بالاتر…
Google
Gemini 2.5: Our most intelligent AI model
Gemini 2.5 is our most intelligent AI model, now with thinking.
هشت ماه از این پست میگذره و نبرد ادامه داره و امروز Gemini 2.5 این بار با حاشیه قابل توجه دوباره صدرنشین شد. تا همین چند وقت پیش یادمه که گوگل به شدت از رقابت LLMها عقب بود و حتی برخی تصور میکردند که بلایی که گوگل سر یاهو آورد این بار openai سر خودش میاره اما گوگل دلاور بازگشت خوبی رو تا اینجا به رقابت داشته. عملکردشون در این چند وقت و مخصوصا از Gemini 1.5 به بعد جذاب بوده.
لینک:
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinking
پینوشت: از این که سرعت رشد و رقابت بین اینها این قدر بالاست و سرعت رشد من نسبت به اینها صفره و اصلا ما جایی از این بازی نیستیم، افسردهام. یارب چقدر فاصلهی دست و زبان است
لینک:
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinking
پینوشت: از این که سرعت رشد و رقابت بین اینها این قدر بالاست و سرعت رشد من نسبت به اینها صفره و اصلا ما جایی از این بازی نیستیم، افسردهام. یارب چقدر فاصلهی دست و زبان است
ارومیه، تار مویی میان پانترک و پانکرد
ارومیه و کلا آذربایجان غربی موقعیت قابل تاملی دارند. منطقهای که ترکیبی از اقوام آذری و کرد و اقلیتی ارمنی هست. از طرفی بین سه منطقه خارجی قفقاز، کردستان و ترکیه قرار گرفته. این ویژگی جغرافیای و قومیتی خاص، این منطقه رو مستعد درگیریهای شدید کرده. اتفاقاتی که در این هفته در ارومیه افتاد نسبت به اتفاقات بعد از جنگ جهانی اول هیچ بود. در جنگ جهانی اول و در شرایط فلج بودن دولت مرکزی ایران، ارومیه تبدیل به محل نزاع بین عثمانی و روسیه و ارمنیها در پی تشکیل کشور مستقل و کردها شد و بسیاری فجایع قتل و غارت درش رخ داد. درگیری قومیتی و تمایلات جدایی طلبانه در ایران چیز غیرعادی نیستند ولی اون چیزی که داستان ارومیه رو نسبت به بقیه جاهای ایران متمایزتر میکنه، اینه که اگر در بقیه جغرافیای مرزی ایران بین دو گروه دعوای قومیتی هست معمولا اونجاها یک گروه از گروه دیگه داخلیتر محسوب میشه و صرفا یک گروه تمایلات جدایی طلبانه داره ولی در ارومیه در بدترین حالت میشه شاهد حضور همزمان تمایلات جدایی طلبی پان ترکی و پان کردی بود. جایی که به علت نزدیک به مناطق مختلف خارجی می تونه اتش بحران رو شعلهورتر کنه.
گذشته از شرایط جمعیتی و جغرافیایی، دعواهای قومیتی خطیر هستند. فرض کنید روزی در خیابون با کسی دعواتون میشه و مثلا سر شما در اثنای دعوا میشکنه. شما احتمالا خاطره دعوا و آسیب براتون میمونه اما این خاطره به شما جهت دهی نمیده. حالا فرض کنید در خیابون با یکی دعواتون میشه و از روی ظاهر یا لهجه طرف، قومیت یا صنفش رو میشناسید. احتمالا تا عمر دارید وقتی شخص دیگه ای رو از اون قومیت یا صنف ببینید براتون اون خاطره ناگوار و حس خطر و بی اعتمادی تداعی میشه. و این نسل اندار نسل ممکنه انتقال پیدا کنه بچه شما هم میبینه و این حس منفیاش رو به نسل بعدی منتقل میکنه. و اصلا حتی شاید شما هم اون واقعه دعوا و آسیب رو تجربه نکنید و صرفا بشنیود یکی از یک قومیتی یکی از قومیت شما رو آسیب زده. بدون این که فکر کنید که مقصر چه کسی بوده این حس ترس و ناامنی در خودآگاه یا ناخودآگاه شما شکل میگیره. این چرخه باطل شکسته نمیشه مگر این که آدمها به قدری با هم در ارتباط باشند و آدمهای مختلفی از قومیتهای مختلف رو تجربه کنند تا اون حس تمایزشون کمرنگتر بشه و اشتراکات دیگهای پررنگ بشن. فرض کنید مثلا در دنیایی میگن علیآبادیها آدمهای خشنی هستند و اگر شما در زندگیتون با ده تا علی آبادی درست دوست بوده باشید اگر حتی یک علی آبادی خشنی ببینید در ذهنتون تعمیم پیدا نمیکنه.
به هر صورت تفاوتهای قومیتی با یک جرقه میتونن منجر به یک انفجار بشن. اتفاقی که این هفته در ارومیه بین ترک ها و کردها افتاد قابلیت این که به جاهای بدتری بکشه رو داشت و خدا رو شکر زود خاتمه پیدا کرد. ما در کشوری زندگی میکنیم که گروههای مختلف از نظر قومیتی، زبانی، فرهنگی، مذهب و صنفی با هم تفاوت دارند. هر جرقه در گروهی اگر بخواد پاسخ گروهی از سمت دیگه رو داشته باشه منجر به انفجار میشه. سیاست بهینه در این بین باید برقراری مماشات گروههای مختلف با هم و همچنین جلوگیری از تحرکات گروهی در راستای واگرایی باشه. در واقع مرز رفتاری در رفتار درست با چنین مقولهای برای قدرت مرکزی بسیار ظریف و باریکه. تلاش برای دخالت و پذیرفتن تمایزات در عین این که واگرایی بیشتری ایجاد نشه خیلی حرکت ظریف و خطرناکیه
ارومیه و کلا آذربایجان غربی موقعیت قابل تاملی دارند. منطقهای که ترکیبی از اقوام آذری و کرد و اقلیتی ارمنی هست. از طرفی بین سه منطقه خارجی قفقاز، کردستان و ترکیه قرار گرفته. این ویژگی جغرافیای و قومیتی خاص، این منطقه رو مستعد درگیریهای شدید کرده. اتفاقاتی که در این هفته در ارومیه افتاد نسبت به اتفاقات بعد از جنگ جهانی اول هیچ بود. در جنگ جهانی اول و در شرایط فلج بودن دولت مرکزی ایران، ارومیه تبدیل به محل نزاع بین عثمانی و روسیه و ارمنیها در پی تشکیل کشور مستقل و کردها شد و بسیاری فجایع قتل و غارت درش رخ داد. درگیری قومیتی و تمایلات جدایی طلبانه در ایران چیز غیرعادی نیستند ولی اون چیزی که داستان ارومیه رو نسبت به بقیه جاهای ایران متمایزتر میکنه، اینه که اگر در بقیه جغرافیای مرزی ایران بین دو گروه دعوای قومیتی هست معمولا اونجاها یک گروه از گروه دیگه داخلیتر محسوب میشه و صرفا یک گروه تمایلات جدایی طلبانه داره ولی در ارومیه در بدترین حالت میشه شاهد حضور همزمان تمایلات جدایی طلبی پان ترکی و پان کردی بود. جایی که به علت نزدیک به مناطق مختلف خارجی می تونه اتش بحران رو شعلهورتر کنه.
گذشته از شرایط جمعیتی و جغرافیایی، دعواهای قومیتی خطیر هستند. فرض کنید روزی در خیابون با کسی دعواتون میشه و مثلا سر شما در اثنای دعوا میشکنه. شما احتمالا خاطره دعوا و آسیب براتون میمونه اما این خاطره به شما جهت دهی نمیده. حالا فرض کنید در خیابون با یکی دعواتون میشه و از روی ظاهر یا لهجه طرف، قومیت یا صنفش رو میشناسید. احتمالا تا عمر دارید وقتی شخص دیگه ای رو از اون قومیت یا صنف ببینید براتون اون خاطره ناگوار و حس خطر و بی اعتمادی تداعی میشه. و این نسل اندار نسل ممکنه انتقال پیدا کنه بچه شما هم میبینه و این حس منفیاش رو به نسل بعدی منتقل میکنه. و اصلا حتی شاید شما هم اون واقعه دعوا و آسیب رو تجربه نکنید و صرفا بشنیود یکی از یک قومیتی یکی از قومیت شما رو آسیب زده. بدون این که فکر کنید که مقصر چه کسی بوده این حس ترس و ناامنی در خودآگاه یا ناخودآگاه شما شکل میگیره. این چرخه باطل شکسته نمیشه مگر این که آدمها به قدری با هم در ارتباط باشند و آدمهای مختلفی از قومیتهای مختلف رو تجربه کنند تا اون حس تمایزشون کمرنگتر بشه و اشتراکات دیگهای پررنگ بشن. فرض کنید مثلا در دنیایی میگن علیآبادیها آدمهای خشنی هستند و اگر شما در زندگیتون با ده تا علی آبادی درست دوست بوده باشید اگر حتی یک علی آبادی خشنی ببینید در ذهنتون تعمیم پیدا نمیکنه.
به هر صورت تفاوتهای قومیتی با یک جرقه میتونن منجر به یک انفجار بشن. اتفاقی که این هفته در ارومیه بین ترک ها و کردها افتاد قابلیت این که به جاهای بدتری بکشه رو داشت و خدا رو شکر زود خاتمه پیدا کرد. ما در کشوری زندگی میکنیم که گروههای مختلف از نظر قومیتی، زبانی، فرهنگی، مذهب و صنفی با هم تفاوت دارند. هر جرقه در گروهی اگر بخواد پاسخ گروهی از سمت دیگه رو داشته باشه منجر به انفجار میشه. سیاست بهینه در این بین باید برقراری مماشات گروههای مختلف با هم و همچنین جلوگیری از تحرکات گروهی در راستای واگرایی باشه. در واقع مرز رفتاری در رفتار درست با چنین مقولهای برای قدرت مرکزی بسیار ظریف و باریکه. تلاش برای دخالت و پذیرفتن تمایزات در عین این که واگرایی بیشتری ایجاد نشه خیلی حرکت ظریف و خطرناکیه
کز این منزلِ ویران بروم
خُرَّم آن روز کز این منزلِ ویران بروم
راحتِ جان طلبم و از پِیِ جانان بروم
گر چه دانم که به جایی نَبَرد راه غریب
من به بویِ سرِ آن زلفِ پریشان بروم
دلم از وحشتِ زندانِ سِکَندَر بگِرفت
رخت بربندم و تا مُلکِ سلیمان بروم
چون صبا با تنِ بیمار و دلِ بیطاقت
به هواداریِ آن سروِ خِرامان بروم
در رهِ او چو قلم گر به سرم باید رفت
با دلِ زخمکَش و دیدهٔ گریان بروم
نذر کردم گر از این غم به درآیم روزی
تا درِ میکده شادان و غزلخوان بروم
به هواداری او ذَرِّهصفت، رقصکنان
تا لبِ چشمهٔ خورشیدِ درخشان بروم
تازیان را غمِ احوالِ گرانباران نیست
پارسایان مددی تا خوش و آسان بروم
ور چو حافظ ز بیابان نبرم رَه بیرون
همرهِ کوکبهٔ آصفِ دوران بروم
حافظ
خُرَّم آن روز کز این منزلِ ویران بروم
راحتِ جان طلبم و از پِیِ جانان بروم
گر چه دانم که به جایی نَبَرد راه غریب
من به بویِ سرِ آن زلفِ پریشان بروم
دلم از وحشتِ زندانِ سِکَندَر بگِرفت
رخت بربندم و تا مُلکِ سلیمان بروم
چون صبا با تنِ بیمار و دلِ بیطاقت
به هواداریِ آن سروِ خِرامان بروم
در رهِ او چو قلم گر به سرم باید رفت
با دلِ زخمکَش و دیدهٔ گریان بروم
نذر کردم گر از این غم به درآیم روزی
تا درِ میکده شادان و غزلخوان بروم
به هواداری او ذَرِّهصفت، رقصکنان
تا لبِ چشمهٔ خورشیدِ درخشان بروم
تازیان را غمِ احوالِ گرانباران نیست
پارسایان مددی تا خوش و آسان بروم
ور چو حافظ ز بیابان نبرم رَه بیرون
همرهِ کوکبهٔ آصفِ دوران بروم
حافظ
Out of Distribution
هشت ماه از این پست میگذره و نبرد ادامه داره و امروز Gemini 2.5 این بار با حاشیه قابل توجه دوباره صدرنشین شد. تا همین چند وقت پیش یادمه که گوگل به شدت از رقابت LLMها عقب بود و حتی برخی تصور میکردند که بلایی که گوگل سر یاهو آورد این بار openai سر خودش میاره…
گویا openai نسخه جدیدی از 4o رونمایی کرد و صدرنشینی gemini به اندازه عمر پشه هم نشد. رقابت اینها اون بالا بسیار عجیبه از این نظر که سیاله. در واقع رقابت الانشون رقابت الانشون نیست مال چند وقت قبله.