Forwarded from LLM Club
🔔 اعلام برنامه جلسهی چهاردهم ژورنالکلاب مدلهای زبانی بزرگ
📚 موضوع: نحوهی ساخت و آموزش مدلهای زبانی چندزبانه و به طور خاص مدل Aya-expanse
👤 سخنران مهمان: دکتر مرضیه فدایی، پژوهشگر ارشد هوش مصنوعی در شرکت Cohere
🗓 زمان: یکشنبه ۱۴۰۳/۱۱/۲۸، ساعت ۱۹:۳۰ تا ۲۱:٠٠
مکان برگزاری: vc.sharif.edu/ch/mjafari
🔍 مدل زبانی آیا-اکسپنس یک مدل چندزبانه بزرگ است که توسط تیم Cohere For AI توسعه یافته و از ۲۳ زبان مختلف از جمله فارسی پشتیبانی میکند. این مدل با استفاده از تکنیکهای پیشرفتهای مانند داوری داده، آموزش با ترجیح چندزبانه، تنظیمات ایمنی و ترکیب مدلها، عملکرد بالایی را در پردازش زبانهای مختلف ارائه میدهد. هدف از توسعه ایا-اکسپنس، ارائه یک مدل چندزبانه با کیفیت بالا برای استفاده پژوهشگران در سراسر جهان است. طبق معیارها و سنجههای مختلف (از جمله این سنجه) مدل آیا-اکسپنس کیفیت خوبی بر روی زبان فارسی نیز دارد.
لینک یوتیوب ژورنالکلاب (ویدئو و اسلاید جلسهها)
افزودن رویداد به تقویم گوگل
از همهی شما دعوت میکنیم که در این جلسه شرکت کنید.
#LLM #LLM_JC #LLM_Club #INL_Lab #Aya_Expanse
@LLM_JC
📚 موضوع: نحوهی ساخت و آموزش مدلهای زبانی چندزبانه و به طور خاص مدل Aya-expanse
👤 سخنران مهمان: دکتر مرضیه فدایی، پژوهشگر ارشد هوش مصنوعی در شرکت Cohere
🗓 زمان: یکشنبه ۱۴۰۳/۱۱/۲۸، ساعت ۱۹:۳۰ تا ۲۱:٠٠
مکان برگزاری: vc.sharif.edu/ch/mjafari
🔍 مدل زبانی آیا-اکسپنس یک مدل چندزبانه بزرگ است که توسط تیم Cohere For AI توسعه یافته و از ۲۳ زبان مختلف از جمله فارسی پشتیبانی میکند. این مدل با استفاده از تکنیکهای پیشرفتهای مانند داوری داده، آموزش با ترجیح چندزبانه، تنظیمات ایمنی و ترکیب مدلها، عملکرد بالایی را در پردازش زبانهای مختلف ارائه میدهد. هدف از توسعه ایا-اکسپنس، ارائه یک مدل چندزبانه با کیفیت بالا برای استفاده پژوهشگران در سراسر جهان است. طبق معیارها و سنجههای مختلف (از جمله این سنجه) مدل آیا-اکسپنس کیفیت خوبی بر روی زبان فارسی نیز دارد.
لینک یوتیوب ژورنالکلاب (ویدئو و اسلاید جلسهها)
افزودن رویداد به تقویم گوگل
از همهی شما دعوت میکنیم که در این جلسه شرکت کنید.
#LLM #LLM_JC #LLM_Club #INL_Lab #Aya_Expanse
@LLM_JC
Forwarded from LLM Club
🔔 برگزاری جلسهی پانزدهم باشگاه مدلهای زبانی بزرگ (به صورت حضوری و مجازی)
📚 موضوع: دیپسیک دقیقا چگونه کار میکند؟
👤 سخنران: دکتر محمدحسین رهبان
🗓 زمان: چهارشنبه ۱۴۰۳/۱۲/۰۸، ساعت ۱۳:۰۰ تا ۱۴:۱۵
مکان برگزاری: به صورت ترکیبی (مجازی و حضوری)؛
لینک مجازی: http://vc.sharif.edu/mjafari
حضوری: «علاقهمندان به شرکت در این برنامه به صورت حضوری، حتما این فرم را پر نمایند»
🔍 در این مقاله، نویسندگان با بهکارگیری یک رویکرد نوین بر پایهی یادگیری تقویتی خالص، بدون اتکا به تنظیم اولیه نظارتی، امکان تولید خودکار زنجیرههای تفکر (Chain‑of‑Thought) را برای مدلهای زبانی فراهم میکنند. سپس، با کمک دادههای نظارتشدهی کوچکی، برای بهبود ثبات و خوانایی خروجیها و بهکارگیری تکنیک GRPO برای بهینهسازی فرآیند یادگیری، مشکلات مرتبط با خوانایی پایین و انسجام متنهای تولیدی برطرف میشوند. افزون بر این، در این مقاله روند تقطیر تواناییهای استدلال مدلهای بزرگ به مدلهای فشردهتر نیز ارائه شده است که این انتقال، کارایی مدلهای کوچکتر را افزایش داده و دامنهی کاربردهای آنها را بهطور قابل توجهی گسترش میدهد.
منابع:
1. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
2. DeepSeek-V3 Technical Report
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همهی شما دعوت میکنیم که در این جلسه شرکت کنید.
#LLM_Club #INL_Lab #DeepSeek
@LLM_JC
📚 موضوع: دیپسیک دقیقا چگونه کار میکند؟
👤 سخنران: دکتر محمدحسین رهبان
🗓 زمان: چهارشنبه ۱۴۰۳/۱۲/۰۸، ساعت ۱۳:۰۰ تا ۱۴:۱۵
مکان برگزاری: به صورت ترکیبی (مجازی و حضوری)؛
لینک مجازی: http://vc.sharif.edu/mjafari
حضوری: «علاقهمندان به شرکت در این برنامه به صورت حضوری، حتما این فرم را پر نمایند»
🔍 در این مقاله، نویسندگان با بهکارگیری یک رویکرد نوین بر پایهی یادگیری تقویتی خالص، بدون اتکا به تنظیم اولیه نظارتی، امکان تولید خودکار زنجیرههای تفکر (Chain‑of‑Thought) را برای مدلهای زبانی فراهم میکنند. سپس، با کمک دادههای نظارتشدهی کوچکی، برای بهبود ثبات و خوانایی خروجیها و بهکارگیری تکنیک GRPO برای بهینهسازی فرآیند یادگیری، مشکلات مرتبط با خوانایی پایین و انسجام متنهای تولیدی برطرف میشوند. افزون بر این، در این مقاله روند تقطیر تواناییهای استدلال مدلهای بزرگ به مدلهای فشردهتر نیز ارائه شده است که این انتقال، کارایی مدلهای کوچکتر را افزایش داده و دامنهی کاربردهای آنها را بهطور قابل توجهی گسترش میدهد.
منابع:
1. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
2. DeepSeek-V3 Technical Report
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همهی شما دعوت میکنیم که در این جلسه شرکت کنید.
#LLM_Club #INL_Lab #DeepSeek
@LLM_JC
Forwarded from کنفرانسها و ژورنالهای کامپیوتر (M. A.B)
برگزاری جلسهی بیست و پنجم باشگاه مدلهای زبانی بزرگ
📚 موضوع: بازتعریف معیارهای ارزیابی مدلهای چندزبانی بزرگ
👤 سخنران: Julia Kreutzer، پژوهشگر ارشد هوش مصنوعی در Cohere
🗓 زمان: چهارشنبه ۱۴۰۴/۰۳/۱۴ ساعت ۱۸:۲۰
📍 لینک جلسه: از طریق پخش زندهی یوتیوب و همچنین کلاس مجازی دانشگاه شریف
🔍 در این جلسه، روشهای ارزیابی توانایی تولید متن در مدلهای چندزبانه بررسی میشود. تاکید میشود که ترجمهی ماشینی پرامپتها میتواند بر نتایج تأثیر بگذارد، بنابراین استفاده از متن اصلی بهجای متن ترجمهشده توصیه شده و همچنین پیشنهاد میشود از روشهایی مانند آزمونهای معنیدار آماری، تحلیل کیفی خطاها، و تجزیه و تحلیل دستهبندیشده بر اساس زبان استفاده شود تا نتایجی قابلاعتمادتر و بازتولیدپذیرتر بهدست آید. در پایان نیز چکلیستی عملی برای بهبود ارزیابی در اختیار پژوهشگران قرار میگیرد.
منابع:
1. Multilingual LLM Evaluation through the Lens of Machine Translation Evaluation
یوتیوب (ویدئو جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همه دعوت میکنیم که در این جلسه شرکت کنند.
#LLM_Club
@LLM_CLUB
📚 موضوع: بازتعریف معیارهای ارزیابی مدلهای چندزبانی بزرگ
👤 سخنران: Julia Kreutzer، پژوهشگر ارشد هوش مصنوعی در Cohere
🗓 زمان: چهارشنبه ۱۴۰۴/۰۳/۱۴ ساعت ۱۸:۲۰
📍 لینک جلسه: از طریق پخش زندهی یوتیوب و همچنین کلاس مجازی دانشگاه شریف
🔍 در این جلسه، روشهای ارزیابی توانایی تولید متن در مدلهای چندزبانه بررسی میشود. تاکید میشود که ترجمهی ماشینی پرامپتها میتواند بر نتایج تأثیر بگذارد، بنابراین استفاده از متن اصلی بهجای متن ترجمهشده توصیه شده و همچنین پیشنهاد میشود از روشهایی مانند آزمونهای معنیدار آماری، تحلیل کیفی خطاها، و تجزیه و تحلیل دستهبندیشده بر اساس زبان استفاده شود تا نتایجی قابلاعتمادتر و بازتولیدپذیرتر بهدست آید. در پایان نیز چکلیستی عملی برای بهبود ارزیابی در اختیار پژوهشگران قرار میگیرد.
منابع:
1. Multilingual LLM Evaluation through the Lens of Machine Translation Evaluation
یوتیوب (ویدئو جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همه دعوت میکنیم که در این جلسه شرکت کنند.
#LLM_Club
@LLM_CLUB
Forwarded from LLM Club
برگزاری جلسهی بیست و ششم باشگاه مدلهای زبانی بزرگ
📚 موضوع: بررسی قدرت استدلال مدلهای زبانی بزرگ در زمان تست
👤 سخنران: دکتر مهدی رضاقلیزاده، پژوهشگر ارشد هوش مصنوعی در AMD
🗓 زمان: یکشنبه ۱۴۰۴/۰۳/۱۸ ساعت ۲۰:۰۰
📍 لینک جلسه: کلاس مجازی دانشگاه شریف
🔍 در این جلسه موضوع «استدلال با مدلهای زبانی بزرگ با استفاده از توان محاسباتی در زمان تست» بررسی میشوند. در این بحث، تمرکز بر روشهایی خواهد بود که به جای افزایش اندازه مدل یا نیاز به بازآموزی، از ظرفیت محاسباتی در زمان استنتاج (test-time compute) برای بهبود توانایی استدلال مدل استفاده میکنند. هدف این ارائه بررسی مزایا، چالشها و پیشرفتهای اخیر در این حوزه است که راههای جدیدی را برای بهبود عملکرد مدلها بدون هزینههای سنگین آموزش دوبارهی آنها پیشنهاد میدهند.
یوتیوب (ویدئو جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همه دعوت میکنیم که در این جلسه شرکت کنند.
#LLM_Club
@LLM_CLUB
📚 موضوع: بررسی قدرت استدلال مدلهای زبانی بزرگ در زمان تست
👤 سخنران: دکتر مهدی رضاقلیزاده، پژوهشگر ارشد هوش مصنوعی در AMD
🗓 زمان: یکشنبه ۱۴۰۴/۰۳/۱۸ ساعت ۲۰:۰۰
📍 لینک جلسه: کلاس مجازی دانشگاه شریف
🔍 در این جلسه موضوع «استدلال با مدلهای زبانی بزرگ با استفاده از توان محاسباتی در زمان تست» بررسی میشوند. در این بحث، تمرکز بر روشهایی خواهد بود که به جای افزایش اندازه مدل یا نیاز به بازآموزی، از ظرفیت محاسباتی در زمان استنتاج (test-time compute) برای بهبود توانایی استدلال مدل استفاده میکنند. هدف این ارائه بررسی مزایا، چالشها و پیشرفتهای اخیر در این حوزه است که راههای جدیدی را برای بهبود عملکرد مدلها بدون هزینههای سنگین آموزش دوبارهی آنها پیشنهاد میدهند.
یوتیوب (ویدئو جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همه دعوت میکنیم که در این جلسه شرکت کنند.
#LLM_Club
@LLM_CLUB