کنفرانسها و ژورنالهای کامپیوتر
2.33K subscribers
1.79K photos
19 videos
255 files
654 links
بزرگترین کانال اطلاع رسانی تخصصی کنفرانسها و ژورنالهای رشته کامپیوتر و فناوری اطلاعات

ادمین @M_A_B2000
لینک کانال
https://tttttt.me/joinchat/AAAAAD7KWzzx7bfAQOX72g
Download Telegram
Forwarded from LLM Club
🔔 اعلام برنامه جلسه‌ی چهاردهم ژورنال‌کلاب مدل‌های زبانی بزرگ

📚 موضوع: نحوه‌ی ساخت و آموزش مدل‌های زبانی چندزبانه و به طور خاص مدل Aya-expanse
👤 سخنران مهمان: دکتر مرضیه فدایی، پژوهشگر ارشد هوش مصنوعی در شرکت Cohere
🗓 زمان: یک‌شنبه ۱۴۰۳/۱۱/۲۸، ساعت ۱۹:۳۰ تا ۲۱:٠٠
مکان برگزاری: vc.sharif.edu/ch/mjafari
🔍 مدل زبانی آیا-اکسپنس یک مدل چندزبانه بزرگ است که توسط تیم Cohere For AI توسعه یافته و از ۲۳ زبان مختلف از جمله فارسی پشتیبانی می‌کند. این مدل با استفاده از تکنیک‌های پیشرفته‌ای مانند داوری داده، آموزش با ترجیح چندزبانه، تنظیمات ایمنی و ترکیب مدل‌ها، عملکرد بالایی را در پردازش زبان‌های مختلف ارائه می‌دهد. هدف از توسعه ایا-اکسپنس، ارائه یک مدل چندزبانه با کیفیت بالا برای استفاده پژوهشگران در سراسر جهان است. طبق معیارها و سنجه‌های مختلف (از جمله این سنجه) مدل آیا-اکسپنس کیفیت خوبی بر روی زبان فارسی نیز دارد.

لینک یوتیوب ژورنال‌کلاب ‌(ویدئو و اسلاید جلسه‌ها)
افزودن رویداد به تقویم گوگل‌

از همه‌ی شما دعوت می‌کنیم که در این جلسه شرکت کنید.
#LLM #LLM_JC #LLM_Club #INL_Lab #Aya_Expanse
@LLM_JC
Forwarded from LLM Club
🔔 برگزاری جلسه‌ی پانزدهم باشگاه مدل‌های زبانی بزرگ (به صورت حضوری و مجازی)

📚 موضوع: دیپ‌سیک دقیقا چگونه کار می‌کند؟
👤 سخنران: دکتر محمدحسین رهبان
🗓 زمان: چهارشنبه ۱۴۰۳/۱۲/۰۸، ساعت ۱۳:۰۰ تا ۱۴:۱۵
مکان برگزاری: به صورت ترکیبی (مجازی و حضوری)؛
لینک مجازی: http://vc.sharif.edu/mjafari
حضوری: «علاقه‌مندان به شرکت در این برنامه به صورت حضوری، حتما این فرم را پر نمایند»
🔍 در این مقاله، نویسندگان با به‌کارگیری یک رویکرد نوین بر پایه‌ی یادگیری تقویتی خالص، بدون اتکا به تنظیم اولیه نظارتی، امکان تولید خودکار زنجیره‌های تفکر (Chain‑of‑Thought) را برای مدل‌های زبانی فراهم می‌کنند. سپس، با کمک داده‌های نظارت‌شده‌ی کوچکی، برای بهبود ثبات و خوانایی خروجی‌ها و به‌کارگیری تکنیک GRPO برای بهینه‌سازی فرآیند یادگیری، مشکلات مرتبط با خوانایی پایین و انسجام متن‌های تولیدی برطرف می‌شوند. افزون بر این، در این مقاله روند تقطیر توانایی‌های استدلال مدل‌های بزرگ به مدل‌های فشرده‌تر نیز ارائه شده است که این انتقال، کارایی مدل‌های کوچک‌تر را افزایش داده و دامنه‌ی کاربردهای آن‌ها را به‌طور قابل توجهی گسترش می‌دهد.
منابع:
1. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
2. DeepSeek-V3 Technical Report

یوتیوب (ویدئو و اسلاید جلسه‌ها)
توییتر
افزودن رویداد به تقویم گوگل‌


از همه‌ی شما دعوت می‌کنیم که در این جلسه شرکت کنید.

#LLM_Club #INL_Lab #DeepSeek
@LLM_JC
برگزاری جلسه‌ی بیست و پنجم باشگاه مدل‌های زبانی بزرگ
📚 موضوع: بازتعریف معیارهای ارزیابی مدل‌های چندزبانی بزرگ
👤 سخنران:
Julia Kreutzer، پژوهشگر ارشد هوش مصنوعی در Cohere
🗓 زمان: چهارشنبه ۱۴۰۴/۰۳/۱۴ ساعت ۱۸:۲۰
📍 لینک جلسه: از طریق
پخش زنده‌ی یوتیوب و همچنین کلاس مجازی دانشگاه شریف
🔍 در این جلسه، روش‌های ارزیابی توانایی تولید متن در مدل‌های چندزبانه بررسی می‌شود. تاکید می‌شود که ترجمه‌ی ماشینی پرامپت‌ها می‌تواند بر نتایج تأثیر بگذارد، بنابراین استفاده از متن اصلی به‌جای متن ترجمه‌شده توصیه شده و همچنین پیشنهاد می‌شود از روش‌هایی مانند آزمون‌های معنی‌دار آماری، تحلیل کیفی خطاها، و تجزیه و تحلیل دسته‌بندی‌شده بر اساس زبان استفاده شود تا نتایجی قابل‌اعتمادتر و بازتولیدپذیرتر به‌دست آید. در پایان نیز چک‌لیستی عملی برای بهبود ارزیابی در اختیار پژوهشگران قرار می‌گیرد.
منابع:
1. Multilingual LLM Evaluation through the Lens of Machine Translation Evaluation

یوتیوب (ویدئو جلسه‌ها)
توییتر
افزودن رویداد به تقویم گوگل‌
از همه دعوت می‌کنیم که در این جلسه شرکت کنند.
#LLM_Club
@LLM_CLUB
Forwarded from LLM Club
برگزاری جلسه‌ی بیست و ششم باشگاه مدل‌های زبانی بزرگ
📚 موضوع: بررسی قدرت استدلال مدل‌های زبانی بزرگ در زمان تست
👤 سخنران: دکتر مهدی رضاقلی‌زاده، پژوهشگر ارشد هوش مصنوعی در AMD
🗓 زمان: یک‌شنبه ۱۴۰۴/۰۳/۱۸ ساعت ۲۰:۰۰
📍 لینک جلسه:
کلاس مجازی دانشگاه شریف
🔍 در این جلسه موضوع «استدلال با مدل‌های زبانی بزرگ با استفاده از توان محاسباتی در زمان تست» بررسی می‌شوند. در این بحث، تمرکز بر روش‌هایی خواهد بود که به جای افزایش اندازه مدل یا نیاز به بازآموزی، از ظرفیت محاسباتی در زمان استنتاج (test-time compute) برای بهبود توانایی استدلال مدل استفاده می‌کنند. هدف این ارائه بررسی مزایا، چالش‌ها و پیشرفت‌های اخیر در این حوزه است که راه‌های جدیدی را برای بهبود عملکرد مدل‌ها بدون هزینه‌های سنگین آموزش دوباره‌ی آن‌ها پیشنهاد می‌دهند.
یوتیوب (ویدئو جلسه‌ها)
توییتر
افزودن رویداد به تقویم گوگل‌
از همه دعوت می‌کنیم که در این جلسه شرکت کنند.
#LLM_Club
@LLM_CLUB