Out of Distribution

جمع‌بندی کارپثی از داستان‌ LLMها در ۲۰۲۵

اینفلوئنسر محبوبم آقای آندره‌آ کارپثی، در یک بلاگ کوتاهی برداشت‌های خودش از LLMها در سال ۲۰۲۵ رو به اشتراک گذاشته. بخش‌های مهمش این‌ها هستند:

1. Reinforcement Learning from Verifiable Rewards (RLVR)
2. Ghosts vs. Animals / Jagged Intelligence
3. Cursor / new layer of LLM apps
4. Claude Code / AI that lives on your computer
5. Vibe coding
6. Nano banana / LLM GUI

۱- کارپثی معتقده که RLVR یکی از مهم‌ترین اتفاقات هوش مصنوعی در سال گذشته بوده و میشه گفتش که یک استیج جدید روی استیج‌های قبلی که PT و SFT و RLHF بودند اضافه شده و اعتقاد داره که RLVR بوده که به خاطر خواصش باعث شده که مدل‌ها به توانایی استدلال دست پیدا کنند.

۲- یک اعتقاداتی درباره ماهیت و ذات هوش و هوش مصنوعی داره که در این بخش درباره‌اش صحبت کرده. می‌گه که فضای هوش چیزی گسترده‌تر از تصور اولیه ماست و سنجیدن هوش LLM با حیوانات کار ممکنی نیست. معتقده که LLM بیشتر شبیه به یک روحی هست که عصاره هوش انسانی درش بروز پیدا کرده و پشت فضای واقعی دنیا در حال تعامل هست (استعاره بسیار عمیق). از یک طرف دیگه هم می‌گه که هوش LLMها هنوز دندانه‌دار هست یعنی در یک دامینی خوبه ولی اندکی که از اون دامین خارج می‌شیم ابله هست و برای همین هنوز تا AGI فاصله داریم. در کنار اینها هم می‌گه که بنچمارک‌ها چون همیشه قابل سنجش هستند (یعنی جواب درست/غلط دارند) پس همیشه در معرض این هستیم که با تولید داده و انجام RLVR روی بنچمارک‌ها مدل‌هامون روی اونها پیروز کنیم در حالی که هنوز جنبه واقعی هوش نرسیده باشیم (این تکه‌اش کراس اوری هست با اون نگاهی که راجع به RLVR داشت، در واقع می‌گه که با این که RLVR به ما اجازه داد که هر چیز قابل سنجشی رو روش آموزش بدیم مدلهامون رو ولی نشون داد که یک چیزهایی فراتر از قلمرو راستی‌آزمایی‌پذیری انگار وجود دارند) یک صحبت جالب دیگه هم داشت که می‌گفت هر شغلی که قابلیت راستی‌آزمایی‌پذیری بیشتری داشته باشه سریعتر هم توسط هوش مصنوعی جایگزین می‌شه (مثل مهندسی نرم افزار مثلا).

۳- در مورد Cursor صحبتی که می‌کنه می‌گه که Cursor یک لایه جدید ابسترکشن از LLM appها رو معرفی کرد. شما می‌تونید به جای کرسر برید با GPT صحبت کنید و ازش کد بگیرید ولی کرسر روی اون نیازمندی خاص شما اومده یک جور context engineering انجام داده و تعامل شما با llm رو جوری مهندسی کرده که کار شما رو راحت کرده. بر همین اساس احتمالا در آینده شاهد اپ‌های مختلف تری روی همین ابسترکشن شبیه cursor منتها برای دامین‌ها و نیازمندی‌های دیگه خواهیم بود. مثلا فرض کنید cursor برای آموزش یا روان‌درمانی چه شکلی می‌تونن باشند.

۴- یک صحبتی هم راجع به Cursor Code کرده که به نظرش از این حیث که روی کامپیوتر شما اجرا می‌شه و قابلیت Agency داره جالبه. به نظرش شبیه یک روحی هست که در محیط کامپیوتر شما زندگی می‌کنه.

۵- راجع به vibe coding حرف می‌زنه و میگه که خودش ازش خیلی استفاده کرده. خودش مثلا Rust بلد نبوده ولی با vibe coding تونسته توکنایزرهای بر پایه rust بزنه و کلا معتقده که وایب کدینگ مفهوم برنامه‌نویسی و شرح وظایف رو تغییر می‌ده.

۵- و در نهایت هم Nano Banana. حضرت کارپثی می‌گه که این که ما چطور و از طریق چه رابطی با انسان رابطه برقرار کنیم یک مساله مهمیه. همین الان بخش مهمی از تعاملات llm با انسان از طریق markdown صورت می‌گیره و اگر markdownای وجود نداشت تجربه کار با llmها سخت می‌شد. بر همین جنبه معتقده که ارائه تصویر (مثل ارائه اسلاید، نمودار،‌ اینفوگرافی) به انسان بسیار موثرتر هست تا ارائه متن خالی و برای همین نانوبنانا رو یک جهش بزرگ در عرصه رابطه کاربری بین انسان و هوش مصنوعی می‌دونه.

در نهایت همین TLDR از صحبت‌هاش:

TLDR. 2025 was an exciting and mildly surprising year of LLMs. LLMs are emerging as a new kind of intelligence, simultaneously a lot smarter than I expected and a lot dumber than I expected. In any case they are extremely useful and I don't think the industry has realized anywhere near 10% of their potential even at present capability. Meanwhile, there are so many ideas to try and conceptually the field feels wide open. And as I mentioned on my Dwarkesh pod earlier this year, I simultaneously (and on the surface paradoxically) believe that we will both see rapid and continued progress and that yet there is a lot of work to be done. Strap in.

لینک:
https://karpathy.bearblog.dev/year-in-review-2025/

پی‌نوشت: از این که پست‌های کانال رو به اشتراک می‌گذارید از شما ممنونیم.

karpathy

2025 LLM Year in Review

2025 Year in Review of LLM paradigm changes

3.39K viewsM S, edited 16:59