Forwarded from LLM Club
🔔 برگزاری جلسهی پانزدهم باشگاه مدلهای زبانی بزرگ (به صورت حضوری و مجازی)
📚 موضوع: دیپسیک دقیقا چگونه کار میکند؟
👤 سخنران: دکتر محمدحسین رهبان
🗓 زمان: چهارشنبه ۱۴۰۳/۱۲/۰۸، ساعت ۱۳:۰۰ تا ۱۴:۱۵
مکان برگزاری: به صورت ترکیبی (مجازی و حضوری)؛
لینک مجازی: http://vc.sharif.edu/mjafari
حضوری: «علاقهمندان به شرکت در این برنامه به صورت حضوری، حتما این فرم را پر نمایند»
🔍 در این مقاله، نویسندگان با بهکارگیری یک رویکرد نوین بر پایهی یادگیری تقویتی خالص، بدون اتکا به تنظیم اولیه نظارتی، امکان تولید خودکار زنجیرههای تفکر (Chain‑of‑Thought) را برای مدلهای زبانی فراهم میکنند. سپس، با کمک دادههای نظارتشدهی کوچکی، برای بهبود ثبات و خوانایی خروجیها و بهکارگیری تکنیک GRPO برای بهینهسازی فرآیند یادگیری، مشکلات مرتبط با خوانایی پایین و انسجام متنهای تولیدی برطرف میشوند. افزون بر این، در این مقاله روند تقطیر تواناییهای استدلال مدلهای بزرگ به مدلهای فشردهتر نیز ارائه شده است که این انتقال، کارایی مدلهای کوچکتر را افزایش داده و دامنهی کاربردهای آنها را بهطور قابل توجهی گسترش میدهد.
منابع:
1. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
2. DeepSeek-V3 Technical Report
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همهی شما دعوت میکنیم که در این جلسه شرکت کنید.
#LLM_Club #INL_Lab #DeepSeek
@LLM_JC
📚 موضوع: دیپسیک دقیقا چگونه کار میکند؟
👤 سخنران: دکتر محمدحسین رهبان
🗓 زمان: چهارشنبه ۱۴۰۳/۱۲/۰۸، ساعت ۱۳:۰۰ تا ۱۴:۱۵
مکان برگزاری: به صورت ترکیبی (مجازی و حضوری)؛
لینک مجازی: http://vc.sharif.edu/mjafari
حضوری: «علاقهمندان به شرکت در این برنامه به صورت حضوری، حتما این فرم را پر نمایند»
🔍 در این مقاله، نویسندگان با بهکارگیری یک رویکرد نوین بر پایهی یادگیری تقویتی خالص، بدون اتکا به تنظیم اولیه نظارتی، امکان تولید خودکار زنجیرههای تفکر (Chain‑of‑Thought) را برای مدلهای زبانی فراهم میکنند. سپس، با کمک دادههای نظارتشدهی کوچکی، برای بهبود ثبات و خوانایی خروجیها و بهکارگیری تکنیک GRPO برای بهینهسازی فرآیند یادگیری، مشکلات مرتبط با خوانایی پایین و انسجام متنهای تولیدی برطرف میشوند. افزون بر این، در این مقاله روند تقطیر تواناییهای استدلال مدلهای بزرگ به مدلهای فشردهتر نیز ارائه شده است که این انتقال، کارایی مدلهای کوچکتر را افزایش داده و دامنهی کاربردهای آنها را بهطور قابل توجهی گسترش میدهد.
منابع:
1. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
2. DeepSeek-V3 Technical Report
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همهی شما دعوت میکنیم که در این جلسه شرکت کنید.
#LLM_Club #INL_Lab #DeepSeek
@LLM_JC