Infinity

این عکس هام خیلی قشنگن. اوج نبوغ معماری و هندسه نسل های قبلی رو برای همیشه در تاریخ ثبت کردند.

❤25🔥4

1.19K viewsHassan Maleki, 16:57

‌این مقاله از هاروارد و MIT بدون سر و صدا به مهم‌ترین سؤال هوش مصنوعی پاسخ می‌دهد که هیچ‌کس به درستی بنچمارک نکرده(محک نزده):
‌
آیا مدل‌های زبانی بزرگ واقعاً می‌توانند مطلب علمی جدیدی را کشف کنند، یا فقط در حرف زدن درباره آن خوب هستند؟

این مقاله که با عنوان «ارزیابی مدل‌های زبانی بزرگ در کشف علمی» نامیده می‌شود و به جای پرسیدن سؤالات پیش پا افتاده و(trivia) ویا معمول از مدل‌ها، چیزی بسیار سخت‌تر را مورد آزمایش قرار داده :

آیا مدل‌ها می‌توانند فرضیه بسازند، آزمایش طراحی کنند، نتایج را تفسیر کنند و باورها را مانند دانشمندان واقعی به‌روزرسانی کنند؟

این چیزی است که نویسندگان به شیوه متفاوتی انجام دادند 👇

• آن‌ها مدل‌های زبانی را در کل حلقه کشف ارزیابی می‌کنند:
فرضیه → آزمایش → مشاهده → بازنگری
• وظایف شامل زیست‌شناسی، شیمی و فیزیک هستند، نه پازل‌های اسباب‌بازی
• مدل‌ها باید با داده‌های ناقص، نتایج پر از نویز(اختلال) و سرنخ‌های غلط کار کنند
• موفقیت بر اساس پیشرفت علمی اندازه‌گیری می‌شود، نه روان بودن یا اعتماد به نفس

آنچه پیدا کردند، تکان‌دهنده است.

مدل‌های زبانی بزرگ در پیشنهاد فرضیه‌ها خوب هستند، اما در همه چیزهای بعدی شکننده‌اند.

✓ آن‌ها داده ها را بیش از اندازه با الگوهای سطحی مطابقت می‌کنند(over fit)
✓ حتی وقتی شواهد با آن‌ها تناقض دارد، رها کردن فرضیه‌های بد برایشان سخت است
✓ همبستگی را با علیت اشتباه می‌گیرند
✓ وقتی آزمایش‌ها شکست می‌خورند، توضیحات توهمی می‌سازند
✓ برای محتمل بودن بهینه‌سازی می‌کنند، نه پیدا کردن حقیقت

شگفت‌انگیزترین نتیجه:

نمرات بالای بنچمارک (محک زدن) با توانایی کشف علمی همبستگی ندارد.

برخی از مدل‌های برتر که در آزمون‌های استدلال استاندارد غالب هستند، وقتی مجبور به اجرای آزمایش‌های تکراری و به‌روزرسانی نظریه‌ها شوند، کاملاً شکست می‌خورند.

چرا این مهم است:

علم واقعی استدلال یک‌باره نیست.

علم واقعی حاصل از بازخورد، شکست، بازنگری و خویشتن‌داری است.

مدل‌های زبانی بزرگ امروز:

• مانند دانشمندان حرف می‌زنند
• مانند دانشمندان می‌نویسند
• اما هنوز مانند دانشمندان فکر نمی‌کنند

پیام اصلی مقاله:

هوش علمی، هوش زبانی نیست.

نیاز به حافظه، ردیابی فرضیه، استدلال علی، و توانایی گفتن «اشتباه کردم» دارد.

تا وقتی مدل‌ها نتوانند این کار را به طور قابل اعتماد انجام دهند، ادعاها درباره «دانشمندان هوش مصنوعی» عمدتاً نابهنگام هستند.

این مقاله هوش مصنوعی را تبلیغ نمی‌کند. شکاف باقی‌مانده را تعریف می‌کند.

و دقیقاً به همین دلیل مهم است.

🔗 Alex Prompter

🔻پیوند به مقاله:

https://arxiv.org/abs/2512.15567

https://x.com/i/status/2001909854525624770

arXiv.org

Evaluating Large Language Models in Scientific Discovery

Large language models (LLMs) are increasingly applied to scientific research, yet prevailing science benchmarks probe decontextualized knowledge and overlook the iterative reasoning, hypothesis...

❤10👍2🔥2✍1

3.46K viewsHassan Maleki, 21:21