Out of Distribution
2.37K subscribers
472 photos
9 videos
9 files
276 links
Download Telegram
جمع‌بندی کارپثی از داستان‌ LLMها در ۲۰۲۵

اینفلوئنسر محبوبم آقای آندره‌آ کارپثی، در یک بلاگ کوتاهی برداشت‌های خودش از LLMها در سال ۲۰۲۵ رو به اشتراک گذاشته. بخش‌های مهمش این‌ها هستند:

1. Reinforcement Learning from Verifiable Rewards (RLVR)
2. Ghosts vs. Animals / Jagged Intelligence
3. Cursor / new layer of LLM apps
4. Claude Code / AI that lives on your computer
5. Vibe coding
6. Nano banana / LLM GUI

۱- کارپثی معتقده که RLVR یکی از مهم‌ترین اتفاقات هوش مصنوعی در سال گذشته بوده و میشه گفتش که یک استیج جدید روی استیج‌های قبلی که PT و SFT و RLHF بودند اضافه شده و اعتقاد داره که RLVR بوده که به خاطر خواصش باعث شده که مدل‌ها به توانایی استدلال دست پیدا کنند.

۲- یک اعتقاداتی درباره ماهیت و ذات هوش و هوش مصنوعی داره که در این بخش درباره‌اش صحبت کرده. می‌گه که فضای هوش چیزی گسترده‌تر از تصور اولیه ماست و سنجیدن هوش LLM با حیوانات کار ممکنی نیست. معتقده که LLM بیشتر شبیه به یک روحی هست که عصاره هوش انسانی درش بروز پیدا کرده و پشت فضای واقعی دنیا در حال تعامل هست (استعاره بسیار عمیق). از یک طرف دیگه هم می‌گه که هوش LLMها هنوز دندانه‌دار هست یعنی در یک دامینی خوبه ولی اندکی که از اون دامین خارج می‌شیم ابله هست و برای همین هنوز تا AGI فاصله داریم. در کنار اینها هم می‌گه که بنچمارک‌ها چون همیشه قابل سنجش هستند (یعنی جواب درست/غلط دارند) پس همیشه در معرض این هستیم که با تولید داده و انجام RLVR روی بنچمارک‌ها مدل‌هامون روی اونها پیروز کنیم در حالی که هنوز جنبه واقعی هوش نرسیده باشیم (این تکه‌اش کراس اوری هست با اون نگاهی که راجع به RLVR داشت، در واقع می‌گه که با این که RLVR به ما اجازه داد که هر چیز قابل سنجشی رو روش آموزش بدیم مدلهامون رو ولی نشون داد که یک چیزهایی فراتر از قلمرو راستی‌آزمایی‌پذیری انگار وجود دارند) یک صحبت جالب دیگه هم داشت که می‌گفت هر شغلی که قابلیت راستی‌آزمایی‌پذیری بیشتری داشته باشه سریعتر هم توسط هوش مصنوعی جایگزین می‌شه (مثل مهندسی نرم افزار مثلا).

۳- در مورد Cursor صحبتی که می‌کنه می‌گه که Cursor یک لایه جدید ابسترکشن از LLM appها رو معرفی کرد. شما می‌تونید به جای کرسر برید با GPT صحبت کنید و ازش کد بگیرید ولی کرسر روی اون نیازمندی خاص شما اومده یک جور context engineering انجام داده و تعامل شما با llm رو جوری مهندسی کرده که کار شما رو راحت کرده. بر همین اساس احتمالا در آینده شاهد اپ‌های مختلف تری روی همین ابسترکشن شبیه cursor منتها برای دامین‌ها و نیازمندی‌های دیگه خواهیم بود. مثلا فرض کنید cursor برای آموزش یا روان‌درمانی چه شکلی می‌تونن باشند.

۴- یک صحبتی هم راجع به Cursor Code کرده که به نظرش از این حیث که روی کامپیوتر شما اجرا می‌شه و قابلیت Agency داره جالبه. به نظرش شبیه یک روحی هست که در محیط کامپیوتر شما زندگی می‌کنه.

۵- راجع به vibe coding حرف می‌زنه و میگه که خودش ازش خیلی استفاده کرده. خودش مثلا Rust بلد نبوده ولی با vibe coding تونسته توکنایزرهای بر پایه rust بزنه و کلا معتقده که وایب کدینگ مفهوم برنامه‌نویسی و شرح وظایف رو تغییر می‌ده.

۵- و در نهایت هم Nano Banana. حضرت کارپثی می‌گه که این که ما چطور و از طریق چه رابطی با انسان رابطه برقرار کنیم یک مساله مهمیه. همین الان بخش مهمی از تعاملات llm با انسان از طریق markdown صورت می‌گیره و اگر markdownای وجود نداشت تجربه کار با llmها سخت می‌شد. بر همین جنبه معتقده که ارائه تصویر (مثل ارائه اسلاید، نمودار،‌ اینفوگرافی) به انسان بسیار موثرتر هست تا ارائه متن خالی و برای همین نانوبنانا رو یک جهش بزرگ در عرصه رابطه کاربری بین انسان و هوش مصنوعی می‌دونه.

در نهایت همین TLDR از صحبت‌هاش:

TLDR. 2025 was an exciting and mildly surprising year of LLMs. LLMs are emerging as a new kind of intelligence, simultaneously a lot smarter than I expected and a lot dumber than I expected. In any case they are extremely useful and I don't think the industry has realized anywhere near 10% of their potential even at present capability. Meanwhile, there are so many ideas to try and conceptually the field feels wide open. And as I mentioned on my Dwarkesh pod earlier this year, I simultaneously (and on the surface paradoxically) believe that we will both see rapid and continued progress and that yet there is a lot of work to be done. Strap in.


لینک:
https://karpathy.bearblog.dev/year-in-review-2025/

پی‌نوشت: از این که پست‌های کانال رو به اشتراک می‌گذارید از شما ممنونیم.
هوش مصنوعی، با این که خیلی جذاب و داغ بوده در سال‌های اخیر ولی از جهاتی به عنوان یک فیلد ریسرچی به نظر در حال fail کردنه. تعداد مقالات ارسالی به کنفرانس‌ها و ژورنال‌ها بسیار بسیار زیاد شده. بعد به این تعداد مقاله‌ ارسال‌شده داور وجود نداره. بعد مثلا بعضی کنفرانس‌ها مثل ACL برای جبران این وضع قاعده وضع می‌کنند که هر کسی که پیپر می‌نویسه ارسال می‌کنه باید حتما به عنوان reviewer هم ثبت نام کنه و بقیه کارها رو داوری کنه وگرنه از فرستادن پیپر تو دوره‌های بعدی محروم می‌شه. بعد به همین خاطر داوری اجباری، یک تعداد داوری بی‌کیفیت به وجود میان. تازه همه اینها به کنار، نرخ اکسپتی پیپرها در کنفرانس‌های تاپ حدود ۲۵-۳۰ درصده. یعنی یک درصد زیادی پیپر هستند که اینا از کنفرانس‌های قبلی آماده هستند و تو هر کنفرانس بعدی سابمیت می‌شن. در چنین حالتی افراد آکادمیک جهت رقابت با همدیگه مجبورند عوض کار کردن روی یک تعداد کم پیپر روی تعداد زیادی پیپر کار کنند تا شانس پذیرششون بیشتر بشه و همین انباشت رو بیشتر و بیشتر می‌کنه. در بلندمدت نهایتا تعداد زیادی پیپر روی هم انباشت می‌شن و دیگه رسما فیلد رو باید در حالت بن‌بست تعطیل کرد. خیر داغ‌شدن این فیلد به ما نرسید که بدتر نقره‌داغمون کرد.
ارزش روی خروجی سریع است؟

چند وقتی هست که تیم‌لیدرم عوض شده و توفیق شمشیر‌زدن در رکاب آقای پویا پاینده رو داریم. بعد از گذشت چند وقت یک سری رفتارهای پاینده برام معنادار شدند و دیگه نه به عنوان یک رخداد یهویی که به عنوان یک ویژگی شخصیتی ازش می‌شناسم. روال کلی شخصیتش این شکلیه که وقتی می‌خوام یک تسکی رو شروع کنم با من اول خیلی جدی بحث می‌کنه چرا می‌خوای اصلا این تسک رو بزنی؟ در حالی که به نظرم خیلی همه چیز بدیهی است ولی باز سوال پیچم می‌کنه و نهایتا بعد از کلی صحبت ازم می‌خوام یک داک برای مساله و راه حل بنویسم. بعد هم که "کد" رو می‌زنم و کار می‌کنه و مرج رکش رو می‌فرستم، کوهی از کامنت‌ها بر سر مرج رکم می‌ریزه. جمله پرتکرارش هم این شکلیه که این دیزاین، به نظر دیزاین خوبی نیست برو بهترش کن.

حالا مرتبط با همین این مساله امروز در راه بازگشت به خانه این بلاگ رو دیدم. حرف کلیش اینه که طراحی یک چیز جدای از ابزار (که کد باشه) هست و ما خیلی وقتا اصل ماجرا رو گم کردیم و درگیر کد شدیم. و بحثی هم که مطرح می‌کنه اینه که با ورود AI و ایجاد قابلیت به خروجی رسیدن سریع، نقش‌هایی که از مهندسین انتظار می‌ره انگار دارند به صورت مخربی تغییر می‌کنند. می‌گه حالا که Cursor داریم، این آفت رو در کنارش داریم که بدون طراحی اولیه سراغ پیاده‌سازی سریع هل داده بشیم و از قبلش آسیب ببینیم. آسیبی که می‌تونه شامل از دست دادن تفکر مفهومی و عدم جستجوی راه‌حل‌های مختلف بین اعضای تیم باشه و همین باعث می‌شه که محصولات کمتر منحصر به فرد باشند.

مطلب پررنگی دیگه‌ای هم که در بلاگ بود این بود که طراحی دو بخشه. بخش اول طراحی مساله است. و بخش دوم هم طراحی مفهوم راه حل و اجرای اونه. در بخش طراحی مساله باید مشخص بشه اصلا دنبال چه هستیم و ذی‌نفع کیه و چی می‌خواد. خیلی وقتا تیم‌ها در مسیر یک پروژه‌ای شکست می‌خورند، شاید به نظر برسه روی راه حل دارند دعوا می‌کنند ولی ۹۰٪ اوقات ماجرا اینه که چون روی مساله هم صفحه نیستند راه حل‌های مختلفی به ذهنشون می‌رسه. حالا از وقتی که.Cursor اومده این شکلی شده که یک فیچری به ذهنمون می‌رسه و چون هزینه زمانی رسیدن بهش خیلی کمه همینجوری می‌ریم یهو سریع به خروجی می‌رسیم و اتفاقا درگیری سر راه حل رو هم نداریم چون در لحظه بهش رسیدیم، فارغ از این که قبلش اصلا روی خود مساله و راه حلش فکر کرده باشیم. خیلی‌ها می‌گن مهندسی نرم افزار اتومات می‌شه توسط هوش مصنوعی به زودی، بله، شما شاید بتونی ابزار و کد‌زدن رو با AI جایگزین کنید ولی هنوز اون نقش طراحی مهندسی نرم افزار، مثل این گیرهایی که پاینده می‌ده، قابل جایگزینی کامل نیست. ممکنه حتی مثلا در لایه معماری نرم افزار و اینها اتومات بشه یک روزی ولی باز یک لایه ابسترکشنی بالاتر از اون شکل می‌گیره که در اون لایه باز دعوای دیزاین وجود خواهد داشت. آدمایی که از قضیه دور باشن یک چیزی از کد زدن تو ذهنشون هست در حالی که در واقعیت قضیه متفاوت‌تره.

لینک بلاگ:
https://linear.app/now/design-is-more-than-code
تراستی حیا کن

این طور که به نظر میاد مبلغی، بیشتر از حداقل ۶ میلیارد دلار، از فروش نفت که باید توسط تراستی‌ها به کشور باز می‌گشته و از اون ور صرف واردات نهاده‌های دامی میشده، هنوز به کشور برنگشته و این بلبشوی فعلی در بازار مواد خوراکی و بعدش هم دلار رو سبب شده.

پی‌نوشت: تراستی یعنی چی؟ با توجه به این که ایران تحریم هست، مبادلات و انتقال‌های مالی نمی‌تونه با دنیا انجام بده. به فرض مثال اگر به پالایشگاهی در چین نفت فروخته میشه، اون پالایشگاه قاعدتاً نمیتونه مستقیما دلار به حساب بانک مرکزی ایران بریزه. در این جا یک سری شرکت صوری (که اغلب در امارات قرار دارند) هستند که کار اونها انجام دادند کارهای صرافی‌طور برای صادرات و واردات ایران هست. به این شکل که مثلا از یک ور پول صادرات نفت ایران رو دریافت می‌کنند و از اونور هم پول واردات نهاده‌های دامی رو می‌پردازند. حالا قضیه اینه که فروش نفت ایران بعد از اسنپ بک هم همچنان وجود داره اما این دوستان تراستی پول‌ها رو بر نمی‌گردونن.

حالا این که این دوستان شریف و خدوم و زحمت‌کش، چرا پول رو بر نمی‌گردونن، نیتشون چیه و از سهو میکنند یا از قصد، چیزی هست که احتمالا در قسمت‌های بعدی این سریال متوجه می‌شیم.

لینک‌های مرتبط:

https://www.ilna.ir/fa/tiny/news-1732213

https://www.ilna.ir/fa/tiny/news-1733417
زاهد بودم ترانه‌گویم کردی
سرفتنهٔ بزم و باده‌خویم کردی

سجاده‌نشین باوقاری بودم
بازیچهٔ کودکان کویم کردی

مولوی
Out of Distribution
Photo
نسبتا پیش‌دستانه؟

این توییت از یکی از نمایندگان کمیسیون امنیت ملی امروز در توییتر زیاد دست به دست می‌شد. دو نکته رو می‌شه راجع بهش بحث کرد. اولا که حمله پیش‌دستانه وقتی معنا داره که شما بتونی در سایه غافلگیری به طرف مقابل یک ضربه تاکتیکی وارد کنی طوری که طرف نتونه خودش رو جمع کنه. مثلا زدن سایت‌ها یا تجهیزات نظامی یا حذف فرماندهان سطح بالا از مصادق حمله پیش‌دستانه می‌تونن باشند (کاری که اسراییل سری پیش با ایران کرد). اما ایران با توجه به دقت موشک‌هایی که داره نمی‌تونه ضربه تاکتیکی بزنه و اصلا بخواد بزنه هم با توجه به اشراف اطلاعاتی اسراییل-آمریکا نمی‌تونه عنصر غافلگیری رو ایجاد کنه. در این صورت پس ضربه پیش‌دستانه آیا منطق دیگه‌ای می‌تونه داشته باشه؟ بله. در شرایطی که شما مطمئن باشی طرف مقابل به صورت حتمی ظرف چند وقت آینده به شما حمله می‌کنه و شما مورد غافگیری واقع می‌شی حمله پیش‌دستانه این کارکرد رو داره که حداقل ابتکار زمان شروع جنگ رو از طرف مقابل می‌گیری و اجازه نمی‌دی شوک و غافلگیری زمان‌بندی‌شده بهت تحمیل بشه.

از طرف دیگر اما بحثی که در سوشال مدیا و مخصوصا کاربران ارزشی شکل گرفته بود این بود که به این نماینده مجلس گیر داده بودند چرا اسرار رو فاش می‌کنی. اما برعکس به نظر می‌رسه این حرکت عمدی و برنامه‌ریزی شده از سطح بالاتری باشه و به نظر حتی کلماتی که در پیام هست رو خود این بابا انتخاب نکرده. مخصوصا وقتی مورد قبل رو در نظر می‌گیریم که ایران توان ضربه‌زدن تاکتیکی رو در حمله پیش‌دستانه نداره، در این صورت پس اصلا گفتن علنی این که من می‌خوام پیش‌دستانه حمله کنم اصلا چه معنی داره؟ اینجا محتمل‌ترین توضیح اینه که خود گفتن، بخشی از بازی محاسباتی است نه افشای یک عملیات مشخص.

دو سناریو قابل حدسه. اول این علنی گفتن می‌تونه خودش بخشی از زمان خریدن باشه. شما وقتی طرف مقابل (که خواهان حمله هست) رو تهدید به حمله پیش‌دستانه می‌کنی، طرف مقابل رو در محاسباتش به یک سمت هل می‌دی. طرف مقابل ممکنه مقداری احتیاط درش به وجود بیاد که مبادا در لحظه‌ای که آماده نیست ضربه بخوره، پس مدتی صبر می‌کنه تا مطمئن بشه از جایی که نباید ضربه نمی‌خوره و یا این که سریعتر نقشه‌اش رو اجرا می‌کنه در حالی که ممکنه آمادگی صددرصدی بابتش نداشته باشه. یک سناریو دیگه هم ممکنه این وسط باشه و اون اینه که اسراییل قصد داره یک عملیات محدود (مثلا علیه سایت نطنز/اصفهان یا سایت‌های تولید موشک یا زدن چند مقام نظامی-سیاسی) هست و بعدش اعلام پایان حمله کنه که بعدش بتونه کنترل تشدید رو حفظ کنه و ایران هم پاسخ سنگینی نده (نظیر همه سناریوهایی که از ترور سلیمانی تا ترورهای آخر سوریه رخ داد). در چنین حالتی معنی "نسبتا پیش‌دستانه" می‌تونه این باشه که در شرایطی که ایران حس کنه که موعد حمله اسراییل نزدیکه زودتر دست به حمله بزنه (فراموش نکنیم که ایران در جنگ سری قبل هم طبق قرائن شب واقعه می‌دونست که حمله قراره رخ بده ولی تصوری از شدت اون نداشت).

در کل ولی با اوضاع خیط و اسف‌بار اقتصادی-سیاسی داخلی و خارجی، احتمال وقوع این امر به صفر میل می‌کنه. الله اعلم.
Paridokht
Salar Aghili
زخمی از زمانه و خسته از خیال‌ها ...
زمانی که من جوانی ۲۲-۲۳ ساله بودم، یادمه این اساتید قدیمی دانشگاه همیشه گلایه می‌کردند چرا هوش مصنوعی همش شده دیپ لرنینگ و دیگه به مدل‌های آماری یا اصلا قبل‌تر، مدل‌های سیمبلیک توجهی نمی‌شه. امروز حالا وقتی داشتم ردیت رو بالا پایین می‌کردم و گزارش‌های تحت عنوان Folan of LLMs in 2025 ملت رو می‌دیدم این حس بهم دست داد که دیگه کلا هوش از دیپ لرنینگ هم محدود‌تر شده و تقریبا شده LLMها. باری به هر جهت این دو تا بلاگی که ریویوی بر اتفاقات افتاده در حوزه LLMها افتاده بودند رو مفید یافتم.چیزی که بین هر دو مشترک و قابل حدس بود، اشاره به RLVR و Tool Call و رشد محصولاتی نظیر Claude Code و Cursor بود. در کنار اینها، هر دو هم به این مطلب اشاره داشتند که نقش چینی‌ها در سال گذشته در قلمرو AI به طور قابل مشهودی پررنگ شده.

نکات جالبی که از بلاگ راشکا دیدم یکی این بود که اعتقاد داشت ما وارد پدیده‌ای به نام Benchmaxxing شدیم. یعنی توسعه‌دهنده‌های مدل‌ها به طرز وسواسی دارن سعی می‌کنن خودشون رو صرفا روی بنچمارک‌ها بهتر نشون بدن، در حالی که وقتی که خارج از بنچمارک‌ها سنجیده می‌شن، به طرز واضحی تفاوت دارند. در واقع امسال بود که معنی contamination رو به خوبی درک کردیم یعنی چی. یک نکته دیگه هم راجع به Burnout شدن راجع به LLMها نوشته بود که به نظرم جالب بود. میگه که کار مهندسین نرم افزار الان بیشتر از این که کدزدن باشه، تبدیل به ریویوکردن کدهای llm generated شده. و همونطور که کدریویو‌کردن کار حوصله‌سربرتریه تا کد زدن، این خطر وجود داره که افراد با حضور llm در حوزه کاریشون دچار burnout و افسردگی کاری بشن. یک مقدار هم راجع به ارزش private data نوشته بود و اعتقاد داشت که با رشد llmها به زودی ارزش private data بیشتر و بیشتر می‌شه. شرکت‌ها با فهمیدن خطر llmها از دادن داده‌های خصوصی‌شون امتناع می‌کنن و از اون طرف هم داشتن یک llm با اطلاعات عمومی ارزون‌تر می‌شه و دیگه رقابت بر سر داده‌های خصوصی می‌مونه.

تیکه اخر بلاگش هم راجع به کارهایی که در پارسال کرده بوده صحبت کرده. خیلی جالبه که خودش رو از کارمندی تمام وقت آزاد کرده تا بتونه به کارهای دیگه نظیر تولید محتوا و کتاب نوشتن بپردازه. و اصلا شخصا نوشته که برای تامین هزینه‌های مالیم (مثل هزینه‌های روزمره زندگی یا هزینه‌های کلاد) بیشتر دست به قراردادهای مشاوره‌ای زده. خودش می‌گه پیشنهادهای کار تمام وقت بسیاری داره اما از اون جایی که براش مهمه که مستقل بمونه ترجیح می‌ده کارمند تمام وقت نشه. (این آقا سباستین نویسنده کتاب Build A Large Language Model (From Scratch) هست که کتاب معروفیه).


لینک بلاگ‌ آقای Sebastian Raschka
https://magazine.sebastianraschka.com/p/state-of-llms-2025
بلاگ دوم اما از آقای Simon Willson هست که گسترده تر نوشته و چون آندره‌‌آآقا جان کارپثی ریتوییتش کرده بود خوندمش. این هم تقریبا ۷۰ درصد مطالبش شبیه به بلاگ Raschka بود: RLVR و Tool Call و رشد چینی‌ها و از این قبیل چیزها. با این وجود اما سه مطلب درش بود که نتونستم بازنشرشون نکنم:

۱- میگه که در سالی که گذشت این YOLO کردن ایجنت‌ها (یعنی این که بهشون این دسترسی رو بدی که برای هر کاری کردن نیازی به گرفتن اجازه ازت نباشه)، رایج شد. و پدیده‌ای که داره رخ می‌ده اینه که مردم دارن به این دسترسی دادن به ایجنت‌ها عادت می‌کنند و یک روزی گند این درمیاد. یک مفهوم جامعه‌شناختی مرتبط با این هم هست به نام Normalization of Deviance که این جوریه:
where repeated exposure to risky behaviour without negative consequences leads people and organizations to accept that risky behaviour as normal

۲- این برادر سیمون پارسال یک بنچمارک فان برای خودش تعریف کرده: مدل بتونه با خروجی متنی، یک فایل SVG از پلیکان دوچرخه‌سوار بسازه. این کار خیلی سخته چون که هم دوچرخه از نظر هندسی سخته و هم پلیکان بد شکل و چغره و از اون طرف هم قطعا داده آموزشی از پلیکان در حال دوچرخه‌سواری اون هم با SVG وجود نداره. حالا نکته‌ای که هست دیده که این بنچمارک مسخره‌ای که تعریف کرده با عملکرد مدل‌ها در تسک‌های دیگه کوریلیشن داره و هر چه یک مدلی بهتر باشه بهتر می‌تونه این تصویر رو تولید کنه. از اونور هم بنچمارکش تبدیل به میم شده و حتی شرکت‌هایی مثل گوگل و انتروپیک گاها عملکرد مدل‌هاشون رو روی این بنچمارک پلیکان دوچرخه‌سوار نمایش دادند.

۳- یک حدسی زده که MCP امسال با این که درخشید اما آخرین سالی هم بوده که درخشیده. چون که ایجنت‌هایی که قادرند از ابزارهایی مثل bash به خوبی استفاده کنند دیگه نیازی به MCP شاید نداشته باشند.

۴- این نکته‌اش رو خیلی خوشم اومد: می‌گه که prompt injection و jailbreaking بسیار در سال گذشته خطرناک شدند و مردم به خوبی جدی نمی‌گیرند ابعاد مختلف این خطر رو. چون که در عین این که فکر می‌کنند معنی jailbreaking رو می‌دونند با ابعاد و زوایای پنهان این پدیده آشکار نیستند. خودش کاری که کرده اومده یک واژه به نام lethal trifecta ساخته که تعریف کامل تری از ابعاد خطرات گول زدن هوش مصنوعیه. نکته‌اش اینه که می‌گه وقتی یک واژه جدید و سخت تعریف کنید مردم دیگه فکر نمی‌کنند معنی واژه رو می‌دونن بلکه مجبور می‌شن برن بخونن تا بفهمن دقیقا چیه.

۵- در سالی که گذشت مفهوم داشتن تست برای ما پررنگ تر‌شد. در واقع مدل‌ها بدون تست‌ها صرفا یک پیاده‌سازی نصفه نیمه انجام می‌دن که ممکنه حالت‌های مرزی رو پوشش نده. چیزی که مهمه اینه که مجموعه تستی داشته باشیم تا مدل بتونه به خوبی از درستی کاری که کرده مطمئن بشه.

۶- و در نهایت راجع به پدیده ای به نام slop صحبت می‌کنه. می‌گه که اینترنت همینجوری همیشه پر از مطالب الکی و بیخود و مزخرف بود حالا اما با اومدن AI این مطالب خیلی خیلی بیشتر شدند. مثالش این ویدیوهای فیکی که از نجات حیوانات در اینستا ترند شده.


لینک بلاگ:
https://simonwillison.net/2025/Dec/31/the-year-in-llms
مو مونده بی‌کس

خداوندا به فریاد دلم رس
کس بی کس تویی مو مانده بی‌کس

همه گویند طاهر کس نداره
خدا یار موئه چه حاجت کس

باباطاهر
Ala Gözlüm (Muzem.net)
TugraLokki, Lokki Tugra
Ala Gozlum

چند وقتی تو اینستا توجهم به آهنگ پس زمینه بعضی ریل‌ها جلب میشد که به نظر به زبان آذری یک چیزی میخوند، ولی از اونجایی که چیزی از آذری حالیم نمیشد نمی‌تونستم بگردم پیداش کنم. تا این که هفته پیش سرانجام به یکی رفقای آذریم سپردم آقا این رو برام پیدا کن. امروز از خواب بیدار شدم دیدم برام فرستاده.

با تشکر از علی‌اکبر خان بدری

لینک یوتیوب:
https://youtu.be/jeyNvO9wNSU?si=2doSV5KmKFmbGhpk
امشب دلهره‌ای از جنس شامگاه ۳۱ شهریور یا شب اول مهر یا هر روز تعطیلی رو دارم که قرار بود فرداش برم مدرسه. دلهره پایان آزادی موقت و شروع محکومیت بی‌پایان. آخر هفته، اولش برام خوب بود و سرحال بودم ولی هر چی جلوتر رفتم بیشتر فرسوده و بی‌رمق شدم. اون رمق تازه هم شاید اثر سوختگیری از صحبت با یک بنده خدایی در اواخر هفته قبل بود. این بزرگ هفته قبل به من گفت که شما اگر به دیگران نگاه ابزاری داشته باشی بعد از مدتی دیگران و خودت هم به خودت نگاه ابزاری پیدا میکنند. حس کردم حرف دلم رو از اون شنیدم.

آمدم این رو send کنم با خودم گفتم آدمهای موفقی که دیدم و اتفاقا از بابت اوناست که می‌خوام این رو بنویسم در ناخودآگاهشون همین هستند. بقیه رو ابزار می‌بینند. مگر زندگی چیزی جز اینه؟ بهای موفقیت شاید گاه در بی‌رحمی و بی‌اخلاقیه. نه؟ زندگی مدتهاست کلافه‌کننده شده بدون این که اتفاق خوبی بیافته. امیدم رو به بهبود از دست دادم. کاش میشد restart و new game کرد، لااقل از نسخه سیوشده در تابستان ۹۹.

پی‌نوشت: یادم افتاد تابستان ۹۹ وسط کرونا بود اگر زنده بودم هم امکان داشت در لود بعدی یا خودم میمردم یا نزدیکانم، بازگشت به اونجا هم زیاد منطقی نیست پس. همین رو پیش بریم ببینیم به کجا میرسه.
Asemaan Ham Zamin Mikhorad
Chaartaar
بی‌تو بی‌شب افروزی ماندنت ...

"آسمان هم زمین می‌خورد" را گوش کنید.

پی‌نوشت: قاعدتا در این چند سال این آهنگ می‌شد زودتر هم در کانال گذاشته بشه. امشب ولی موقعیتش پیش آمد و اول ناخودآگاه مشغول زمزمه شدم که بعدش گذاشتم.
Out of Distribution
بلعیده و هضم‌شدن آدم‌ها در میدان‌ها این اواخر با یک فرد فرهیخته‌ای آشنا شدم که از فرصت‌های هم‌صحبتی که با ایشون گهگاه رخ می‌داد، لذت می‌بردم و یاد می‌گرفتم. این بزرگ، البته بر خلاف من، ساکت‌ و فروتن هستند. یکبار ازش پرسیدم چرا مثلا جایی اثری از شما نیست و…
محمدرضاشاه تا سال ۵۵ با موفقیت تونسته بود اعتراضات رو مدیریت کنه. یکی از اتفاقی که اما در کنار عوامل دیگه باعث انقلاب در دو سال بعد شد، رای آوردن کارتر در انتخابات سال ۵۵ آمریکا بود. شاه هم اتفاقا این رو میدونست که کارش با کارتر سخت میشه و برای همین بر روی رقیب جمهوری خواهش (فورد) سرمایه‌گذاری کرد اما شکست خورد. اما چرا اصلا کارتر گزینه نامناسبی بود؟ کارتر پروژه خودش رو اصلاحات حقوق بشری و سیاسی در کشورهای اقتدارگرا قرار داده بود و برای همین به محمدرضاشاه هم برای ایجاد فضای باز سیاسی فشار آورد. شاه هم نهایتا تحت تأثیر همین فشارها، تن به یکسری اصلاحات نظیر کاستن از سانسور در نشریات، آزادی یکسری از زندانیان سیاسی و ... کرد. نهایتا اما این اصلاحات کارتری باعث نشد شاه حامی داخلی (چه از چپ‌ها و چه از مذهبی ها) پیدا کنه، برعکس باعث شد ترس بقیه از پهلوی بریزه و در فضای باز سیاسی بیشتر جرئت پیدا کردند تا مقابل شاه اقدام کنند. و در آخر هم که در کمتر از دو سال انقلاب شد.

با این تفاسیر احتمالا اگر محمدرضا شاه هم با ماشین زمان از سال ۵۹ به ۵۵ می‌رفت احتمالا به جای پذیرش دیکته‌های کارتر، در برابرش ایستادگی می‌کرد و سعی می‌کرد با امتیاز دادن به نیروهای مذهبی، پایگاهی داخلی برای خودش بسازه. مقصود این که هیچ ملتی نمیتونه به واسطه تکیه بر یک قدرت خارجی، به اصلاح امور داخلی امیدوار باشه. نه به خاطر این که کشورهای دیگه مستکبرند یا شیطانند، نه. به خاطر این که هر کشی دنبال منافع خودش هست. و شما همیشه برای یک کشور خارجی، دیگری محسوب می‌شید. استقلال معنای چنین ارزشی هست. عادی‌سازی و سفیدسازی دخالت قدرت خارجی در کشور، یعنی پذیرفتنش سپردن سرنوشت به دیگری.

قدرت‌های بزرگ، خیریه نیستند، اونها تاجرانی هستند که فاکتور هزینه‌های خودشون رو با سهم از آینده و منابع کشور شما تسویه می‌کنند. وقتی سرنوشت تغییرات سیاسی به دست بیگانه میافته، اولویت دیگر نه دموکراسیه و نه رفاه مردم، بلکه اولویت، ایجاد ساختاری میشه که بیشترین نفع رو برای مداخله‌گر داشته باشد. اصلاحی که ریشه در اراده ملی و توازن قوای داخلی نداشته باشد، با یک چرخش سیاسی در پایتخت‌های جهانی (مثل همون تغییری که از فورد به کارتر رخ داد) فرو می‌ریزه.

خیلی اوقات موقعی که حرف از استقلال و مخالفت با دخالت خارجی میشه، ذهن‌ها سمت سخنرانی‌های سمت جمهوری اسلامی می‌ره اما کمتر کسی توجه می‌کنه که اتفاقا پهلوی بود که هزینه طرحی که آمریکای کارتر ریخته بود رو پرداخت. ربطی به دموکرات و جمهوری خواه هم نداره. بعدها سر ماجرای گروگان‌گیری ج.ا. در هماهنگی با ریگان، این قدر گروگان‌ها رو پس نداد تا کارتر به ریگان ببازه. جمهوری خواه ها هم بعدها سر ماجرای ایران-کنترا به ایران اسلحه فروختند. همین ریگان جلوتر در انتهای جنگ به شدت علیه ایران عمل کرد. خلاصه که سیاست امر سیالیه اما هیچ چیز ارزش استقلال عمل رو نداره.
حکمت وجود بنچمارک

حالا درسته که جدیدا مد شده بنچمارک‌ها فحش می‌خورن و بابت این که انرژی فیلد به صورت وسواسی صرف بهبودشون می‌شه تحت انتقادند، اما بنچمارک‌‌ها به نوعی ستون نظم‌دهی به یک فیلد هستند. این رو آدم وقتی می‌فهمه که با یک فیلدی مواجه می‌شه که درش بنچمارک مشخصی نیست و این جوری میشه که هر کسی میاد برای خودش روی همون کارهای اولیه، یک ستینگ و کاری تعریف می‌کنه و نتیجتا تهش فیلد تبدیل به یک فیلد پخش و پلا و بی‌انسجام می‌شه که تو گراف سایتیشن‌ها مشخص میشه که هیچ کی از اون یکی خبر نداره. وجود بنچمارک باعث می‌شه کارها عملا به نوعی کلاستر بشن و بتونن روی جهت‌های مشخصی متمرکز و همگرا بشن.
در باب long horizon

ایلان ماسک چند وقت پیش در طی یک مصاحبه‌ای گفت که به نظرش ویدئوهای کوتاه که در اینستا و تیک تاک و ... فراگیر شدند، بدترین اختراع بشر بودند. چون که باعث پوسیدگی مغز و کاهش توان تمرکز آدمها میشن. بنده ضمن تکبیر بر این حرف خواستم اضافه کنم که توییتر هم اثر مخرب مشابهی داشته. آدمها به واسطه توییتر عادت کردند کوتاه بنویسند و توان بلندنویسی‌شون رو دارند از دست میدن. در حالی که توییتای کوتاه و کلی معمولا پرلایک‌ترند، اما به نظرم هنر در بلندنویسیه. شما وقتی بلندنویسی می‌کنی میتونی جنبه‌های مختلف یک پدیده رو بررسی کنی و بینشون تقارن پیدا کنی و در نهایت پس از طرح اما های موجود، طرح کلی رو بود.

از اون ور قضیه، علاوه بر حالا ضعیف شدن مردم در بلندنویسی، ذائقه مردم هم به واسطه توییتر رو به کوتاه خوانی رفته. حال و حوصله خواندن مطالب بلند رو ندارند و نهایتا با دیدن چهار تا توییت و آخر آخرش یک بلاگ حس کاذب سواد هم میگیرند. ربطی هم به این جریان یا اون جریان، چپ و راست، نسل قدیم و جدید، ایرانی یا خارجی نداره. بشر کلا در long horizon execution داره تنبل و ضعیف و البته بی‌میل میشه.
طوری شد که حس نوشتنش هم نیست. مگه درس بگیرم دیگه اینطوری نشه

لعنت به من

#تجارب
استحاله به دست بناپارت؟

هفته پیش در شبکه‌های اجتماعی ترند بیشتر سمت شعارهای چند طرف و البته توییت‌بازی‌های شریفی زارچی بود. در این میان اما سعید لیلاز یک مصاحبه با یورونیوز داشت که به نظرم بسیار جالب توجه بود.

لیلاز مصاحبه رو این طوری آغاز می‌کنه که در عین حال که جمهوری اسلامی در تصمیم‌گیری به بن بست رسیده اما از طرف مقابل نظامی هست که فعلا آلترناتیو نداره. در واقع در بین اپوزسیون هیچ گونه توافق و یا حتی ایده مشخصی برای جایگزینی جمهوری اسلامی وجود نداره. بعد نظر خودش رو مطرح می‌کنه که به زودی چرخ تاریخ ما رو به بناپارتیسم می‌رسونه. و در سپس در حین مصاحبه این پدیده رو از زوایای مختلف بحث می‌کنه.

لیلاز از زاویه مردم معتقده که بناپارتیسم در بین مردم از طریق شعارهای ارجاع گرایانه به رضاشاه خودنمایی می‌کنه، شعارهایی که الزاما به این معنی نیست که مردم خواهان بازگشت سلطنت پهلوی هستند بلکه مردم الان بیش از این که دغدغه فرهنگی، سیاسی یا اجتماعی داشته باشند به دنبال کارآمدی هستند.

از طرف زاویه ناظمین حکومتی هم لیلاز معتقده که با وجود همه بن‌بست‌ها، شاکله جمهوری اسلامی به ویژه از نظر امنیتی هنوز مستقره و از طرف مقابل هم اپوزسیونی وجود نداره که بتونه کنترل اوضاع رو به دست بگیره. با این حال نظام همچنان قادر به تصمیم‌گیری های بزرگ نیست (چرا که به نظرش مجموعه افراد داخل حکومت مناسبتاشون به گونه‌ای هست که کارآمدی بروکراسی حکومت رو برای سیاستگذاری از بین می‌برند) لیلاز معتقده در چنین شرایطی، نظم حاکم و راس حاکمیت (که از نظر لیلاز یک چیز فردی نیست) تصمیم می‌گیرند به سمت یک بناپارت گذار کنه. بناپارت در مفهوم یک شخصی هست که با تکیه بر اقتدار شخصی خودش و البته توافق و حمایت راس حاکمیت دست به بازسازی نظم می‌زنه. بناپارت قرار نیست که محبوب باشه بلکه قراره که تصمیم‌های سخت رو با قاطعیت و تمرکز قدرت (به معنای یکپارچگی) اجرا کنه.

در ادامه هم یکسری صحبت‌ها درباره علت‌های عقب ماندگی ایران می‌کنه و نظرش اینه که بیشتر از این حاصل تحریم باشه حاصل سیاست‌ها و ناکارآمدی‌های داخلی هست. در نهایت هم به نظرم عصاره مصاحبه‌اش این دو تکه زیر هست:

لیلاز: سیستم فلج شده و به بن‌بست رسیده. بنابراین قادر به اتخاد یک تصمیم عقلانیِ عقلایی در جهت حل قاطع مسئله نیست. هیچ مسئله‌ای را دیگر حل نمی‌کند ... این شیوۀ حکمرانی به بن‌بست رسیده ولی چون آلترناتیو ندارد، پدیده‌ای از درونش می‌زند بیرون و ماهیت نظام سیاسی را تغییر می‌دهد.

مصاحبه کننده: یعنی می‌فرمایید بناپارت نظام را می‌برد به سمت استحاله؟

لیلاز: بله.

لینک مصاحبه:
https://parsi.euronews.com/2026/01/03/iran-exclusive-interview-protests-khamenei-us-crisis
فهم دیگری اصل قضیه است

اکانت کاتخون یکی از اکانت‌های توییتری محبوب بنده است و این جمله‌اش هم بسیار دقیق و زیباست.‌ محدود به قشر خاصی هم نیست. هر طیفی رو در بر می‌گیره. مقامات حاکمیتی، اپوزسیون، ارزشی‌ها، براندازها، باحجاب‌ها، بی‌حجاب‌ها، چپ‌ها، راست‌ها، بورژواها، پرولتاریاها، اساتید، دانشجوها و ...

شما تا وقتی جای طرف مقابل نتونی خودت رو فرض کنی و بخوای یک ضرب بر حسب درک خودت فتوا و حکم بدی حرفت از نظر عملی بی‌اثر و ارزشه.

کاتخون را در تلگرام میتوانید اینجا دنبال کنید:
https://xn--r1a.website/katechon6
زندگی به عنوان سرویس
معلوم نیست اینترنت از فردا هست یا نه. مواظب خودتون باشید، دوستتون دارم ❤️
امروز از وقتی شایعات احتمال خرابی اینترنت رو شنیدم، رفتم ollama رو نصب کردم و روش Gemma12b رو دانلود و استفاده کردم. قصد داشتم که gptoss20b رو هم بریزم که متاسفانه به لحاظ سخت افزاری وسعم نکشید.

دوران عجیبی شده. یک زمانی عدم دسترسی به اینترنت، کابوس بود الان عدم دسترسی به LLM برایم فقدان جدی‌تری شده. اگر در زمینه اینترنت ما عملا از نظر دیتا وابسته به کلود بودیم در عصر llmها ما انگار از نظر compute در حال وابستگی به کلود هستیم.

پی‌نوشت: یادم افتاد خیلی بچه که بودم یک کتاب‌های بزرگ و قطوری بود که درشون نمونه کد و داکیومنتیشن c بود و ملت با خودشون اینور اونور می‌بردند.