Forwarded from کانال فرایندکاوی - بهفالَب
فرآیندکاوی و مدلهای زبانی بزرگ (LLMs)🔎
فرآیندکاوی ابزارهای متنوعی برای کشف فرآیندها، انطباق سنجی، سازمان کاوی و پیشبینی ارائه میدهد. استفاده از دانش تخصصی در این زمینهها، مثل شناسایی الگوهای غیرعادی، برای سازمان بسیار مفید است.
مدلهای زبانی بزرگ (LLMs) میتوانند این دانش را فراهم کنند و به این سوالات پاسخ دهند.
در این وبینار به ارتباط بین مدلهای زبانی بزرگ و فرآیندکاوی از جمله وظایفی مانند مدلسازی و شناسایی فرآیند میپردازیم. همچنین به مزایا و محدودیتهای استفاده از این مدلها در فرآیندکاوی اشاره میکنیم.
سخنران وبینار 🗣:
🔹Alessandro Berti
🔸پژوهشگر گروه PADS در دانشگاه RWTH Aachen
موضوع وبینار 🗒:
نقش مدلهای زبانی بزرگ در توسعه، تسریع و دسترسی پذیری فرآیندکاوی
زمان 📅:
چهارشنبه ۳۰ خرداد ۱۴۰۳ ساعت ۱۸ - ۲۰
پلتفرم 🖥:
اسکای روم
وبینار کاملا رایگان و به زبان انگلیسی میباشد.
همین حالا ثبت نام کنید:
🔗 https://evand.com/events/llms-increasing-the-scope-of-process-mining
🧠 بهفالب، سامانه فرایندکاوی مبتنی بر هوش مصنوعی
---------------
🌐 Behfalab.com
فرآیندکاوی ابزارهای متنوعی برای کشف فرآیندها، انطباق سنجی، سازمان کاوی و پیشبینی ارائه میدهد. استفاده از دانش تخصصی در این زمینهها، مثل شناسایی الگوهای غیرعادی، برای سازمان بسیار مفید است.
مدلهای زبانی بزرگ (LLMs) میتوانند این دانش را فراهم کنند و به این سوالات پاسخ دهند.
در این وبینار به ارتباط بین مدلهای زبانی بزرگ و فرآیندکاوی از جمله وظایفی مانند مدلسازی و شناسایی فرآیند میپردازیم. همچنین به مزایا و محدودیتهای استفاده از این مدلها در فرآیندکاوی اشاره میکنیم.
سخنران وبینار 🗣:
🔹Alessandro Berti
🔸پژوهشگر گروه PADS در دانشگاه RWTH Aachen
موضوع وبینار 🗒:
نقش مدلهای زبانی بزرگ در توسعه، تسریع و دسترسی پذیری فرآیندکاوی
زمان 📅:
چهارشنبه ۳۰ خرداد ۱۴۰۳ ساعت ۱۸ - ۲۰
پلتفرم 🖥:
اسکای روم
وبینار کاملا رایگان و به زبان انگلیسی میباشد.
همین حالا ثبت نام کنید:
🔗 https://evand.com/events/llms-increasing-the-scope-of-process-mining
🧠 بهفالب، سامانه فرایندکاوی مبتنی بر هوش مصنوعی
---------------
🌐 Behfalab.com
Forwarded from آکادمی ربوتک
◀️ استفاده از ابزارهای هوش مصنوعی در Google Colab
✅ ویدیو زیر یه ویدیو خوب و سر راست از روش های استفاده از Gemini در Google Colab هست. نکته جالبی که من نمیدونستم ، پیشنهاد رسم نمودار بود که خیلی مفید میتونه باشه.
https://www.youtube.com/watch?v=V7RXyqFUR98
[دوره مرتبط : پایتون ویژه یادگیری ماشین]
#هوش_مصنوعی #یادگیری_ماشین #یادگیری_عمیق
➖➖➖➖➖➖➖➖➖
🔴 آکادمی ربوتک: آموزش هوش مصنوعی به زبان واقعا ساده
@robotech_academy
✅ ویدیو زیر یه ویدیو خوب و سر راست از روش های استفاده از Gemini در Google Colab هست. نکته جالبی که من نمیدونستم ، پیشنهاد رسم نمودار بود که خیلی مفید میتونه باشه.
https://www.youtube.com/watch?v=V7RXyqFUR98
[دوره مرتبط : پایتون ویژه یادگیری ماشین]
#هوش_مصنوعی #یادگیری_ماشین #یادگیری_عمیق
➖➖➖➖➖➖➖➖➖
🔴 آکادمی ربوتک: آموزش هوش مصنوعی به زبان واقعا ساده
@robotech_academy
Forwarded from آکادمی ربوتک
💬 توضیح : در زمینه تولید اجسام سه بعدی تا حالا مقالات خوبی ارایه شده که خروجی کار اونها هم کیفیت بالایی داره ولی برای استفاده از اینها در صنعت حتما باید به Mesh تبدیل بشن و روش های کنونی برای استخراج Mesh عملکرد خیلی خوبی ندارند. این مقاله اومده تا این مشکل رو حل کنه. برای این کار هم از مدل VQ-VAE و یک Decoder-Only Transformer استفاده کرده.
✅ لینک مقاله :
https://arxiv.org/pdf/2406.10163
[دوره مرتبط : مهمترین مقالات هوش مصنوعی در ۲۰۲۳]
#هوش_مصنوعی #یادگیری_ماشین #یادگیری_عمیق
➖➖➖➖➖➖➖➖➖
🔴 آکادمی ربوتک: آموزش هوش مصنوعی به زبان واقعا ساده
@robotech_academy
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Apply Kite
یکی از چیزهایی که عموما بین مباحث رزومه و ویزا و سفارت گم میشه، اهمیت مقصده. شاید در وهله اول تنها چیز مهم گرفتن فاند و سکیور کردن استاد به نظر برسه، ولی اینکه کجا میخواد مقصد تحصیل «و زندگی» شما بشه، چیزیه که باید جزو مسائل ابتداییای باشه که بررسی میکنید؛ وگرنه ممکنه وسط تحصیلتون با همون استاد حمایتگر و همون فاند خوب، یهو احساس کنید جایی که هستید، برای شما نیست.
اگه آفری دارید یا تازه دارید اپلای رو شروع میکنید و دارید پلن a و b و c میریزید، یه تحقیق اساسی راجع به مقصد/مقصدها بکنید؛ از فرهنگ ملی اون کشور و فرهنگ شهری و زندگی روزمره، تا آبوهوا در زمانهای مختلف سال و مکانهای تفریحی و دسترسی به امکانات مختلف، و حتی چیزهایی مثل چگونگی فرآیندهای بوروکراتیک و رسمی. اینا چیزهاییه که نه فقط کشور به کشور، که شهر به شهر فرق میکنه. در نهایت مقصد میتونه به شما یه خونه دائمی بده یا اینکه شما رو مجبور به یک مهاجرت دوم بکنه. از این داستان غافل نشید خلاصه.
ـــــــــــــــــــــــــــــــــــــــ
لینکدین کایت رو برای پوزیشنهای بیشتر و مطالب مرتبط دنبال کنید: Linkedin📱
❤️ @ApplyKiteBot
📱 twitter
🌐 Telegram
اگه آفری دارید یا تازه دارید اپلای رو شروع میکنید و دارید پلن a و b و c میریزید، یه تحقیق اساسی راجع به مقصد/مقصدها بکنید؛ از فرهنگ ملی اون کشور و فرهنگ شهری و زندگی روزمره، تا آبوهوا در زمانهای مختلف سال و مکانهای تفریحی و دسترسی به امکانات مختلف، و حتی چیزهایی مثل چگونگی فرآیندهای بوروکراتیک و رسمی. اینا چیزهاییه که نه فقط کشور به کشور، که شهر به شهر فرق میکنه. در نهایت مقصد میتونه به شما یه خونه دائمی بده یا اینکه شما رو مجبور به یک مهاجرت دوم بکنه. از این داستان غافل نشید خلاصه.
ـــــــــــــــــــــــــــــــــــــــ
لینکدین کایت رو برای پوزیشنهای بیشتر و مطالب مرتبط دنبال کنید: Linkedin
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from DLeX: AI Python (NaviD DariYa)
راهنمای تصمیم درباره Tune کردن یا Tune نکردن داده ها
https://cloud.google.com/blog/products/ai-machine-learning/to-tune-or-not-to-tune-a-guide-to-leveraging-your-data-with-llms
#LLM
#Google
https://cloud.google.com/blog/products/ai-machine-learning/to-tune-or-not-to-tune-a-guide-to-leveraging-your-data-with-llms
#LLM
Forwarded from PyTorch Howsam (Howsam Support)
Media is too big
VIEW IN TELEGRAM
مدتی هست که Lightning.ai سرویسی بنام Studio معرفی کرده که میشه رقیب گوگل کولب هست.
اما مزایای این سرویس چی هست:
* میتونید بهصورت لوکال هم کد بزنید. یعنی توی VSCode یا پایچارم روی سیستم خودتون کد بزنید، ولی از سختافزار استودیو استفاده کنید.
* دادههاتون حفظ میشه و حذف نمیشه.
* میتونید Web App بالا بیارید یا وزن مدلهایی که ساختید رو به اشتراک بذارید.
* 22 ساعت GPU رایگان برای یک ماه هم میده.
بعضی از مزایاش جالب هستن ولی خب مثلا مدت زمان GPU آنچنان زیاد نیست. بد نیست ویدئوی بالا رو ببینید.
بههرصورت، رفتیم که تستش کنیم؛ درخواست فرستادیم و بعد از سه روز درخواست تایید شد. وارد فاز بعدی شدیم که باید دوباره چند مرحله ثبت نام رو پشت سر میذاشتیم. رفتیم جلو و رسیدیم به شماره تلفن برای Verification! اول، خیلی سرخوش شماره ایران رو زدیم که خب هیچی! بعدش، رفتیم یه شماره مجازی گرفتیم که اونم هیچی! 😢 بعدشم که دیگه کلا Mission Failed! 😭 خلاصه اینکه، به قول بانو هایده: تا میخواستیم لب معشوقو ببوسیم. پریدیم که...
حالا شما اگه تجربه کردی به ما بگو که اینجا به اشتراک بذاریم...
link
@pytorch_howsam
اما مزایای این سرویس چی هست:
* میتونید بهصورت لوکال هم کد بزنید. یعنی توی VSCode یا پایچارم روی سیستم خودتون کد بزنید، ولی از سختافزار استودیو استفاده کنید.
* دادههاتون حفظ میشه و حذف نمیشه.
* میتونید Web App بالا بیارید یا وزن مدلهایی که ساختید رو به اشتراک بذارید.
* 22 ساعت GPU رایگان برای یک ماه هم میده.
بعضی از مزایاش جالب هستن ولی خب مثلا مدت زمان GPU آنچنان زیاد نیست. بد نیست ویدئوی بالا رو ببینید.
بههرصورت، رفتیم که تستش کنیم؛ درخواست فرستادیم و بعد از سه روز درخواست تایید شد. وارد فاز بعدی شدیم که باید دوباره چند مرحله ثبت نام رو پشت سر میذاشتیم. رفتیم جلو و رسیدیم به شماره تلفن برای Verification! اول، خیلی سرخوش شماره ایران رو زدیم که خب هیچی! بعدش، رفتیم یه شماره مجازی گرفتیم که اونم هیچی! 😢 بعدشم که دیگه کلا Mission Failed! 😭 خلاصه اینکه، به قول بانو هایده: تا میخواستیم لب معشوقو ببوسیم. پریدیم که...
حالا شما اگه تجربه کردی به ما بگو که اینجا به اشتراک بذاریم...
link
@pytorch_howsam
Forwarded from NLP stuff
معرفی دوره آموزشی و مسابقه rayan
• دانشگاه شریف، مسابقه و دوره پیشرفته و جالبی با نام RAYAN AI در زمینه اعتمادپذیری در یادگیری عمیق (Trustworthiness in Deep Learning) برگزار میکنه. این مسابقه ۳۵ هزار دلار جایزه نقدی داره (درست خوندید) و پاییز برگزار میشه.
• دو تا دوره با اساتید خفن (مثل دکتر رهبان، دکتر سلیمانی و دکتر نجفی و ...) هم برگزار میکنه؛ یکی دوره مقدمه یادگیری ماشین و یادگیری عمیق و دومی هم اعتمادپذیری در یادگیری عمیق.
• دورهها تمرین و پروژه دارند، هم برای مسابقه آماده میشید و هم گواهی پایان دوره از دانشگاه شریف میگیرید. و واقعا سیلابس خوبی دارند (تصویر دو و سه را ببینید).
• دقت کنید که تا ۲۰ تیر (سه روز دیگه) وقت برای ثبت نام دورهها دارید و از ۲۴ تیر تا ۲۸ شهریور برگزار میشه. هزینه ثبتنام هر دوره فقط ۱۰۰ هزار تومنه و مجازی هم هست. تکرار میکنم که ۳۵ هزار دلار جایزه مسابقهست!
پ.ن. ما دوره آموزشی، مسابقه و ایونتی در کانال قرار میدیم که خودمون هم دوست داشته باشیم در اون شرکت کنیم.
لینک ثبت نام دوره آموزشی و مسابقه:
https://rayancup.ir/ai
کانال تلگرام:
@Rayan_AI_Course
#other
@nlp_stuff
• دانشگاه شریف، مسابقه و دوره پیشرفته و جالبی با نام RAYAN AI در زمینه اعتمادپذیری در یادگیری عمیق (Trustworthiness in Deep Learning) برگزار میکنه. این مسابقه ۳۵ هزار دلار جایزه نقدی داره (درست خوندید) و پاییز برگزار میشه.
• دو تا دوره با اساتید خفن (مثل دکتر رهبان، دکتر سلیمانی و دکتر نجفی و ...) هم برگزار میکنه؛ یکی دوره مقدمه یادگیری ماشین و یادگیری عمیق و دومی هم اعتمادپذیری در یادگیری عمیق.
• دورهها تمرین و پروژه دارند، هم برای مسابقه آماده میشید و هم گواهی پایان دوره از دانشگاه شریف میگیرید. و واقعا سیلابس خوبی دارند (تصویر دو و سه را ببینید).
• دقت کنید که تا ۲۰ تیر (سه روز دیگه) وقت برای ثبت نام دورهها دارید و از ۲۴ تیر تا ۲۸ شهریور برگزار میشه. هزینه ثبتنام هر دوره فقط ۱۰۰ هزار تومنه و مجازی هم هست. تکرار میکنم که ۳۵ هزار دلار جایزه مسابقهست!
پ.ن. ما دوره آموزشی، مسابقه و ایونتی در کانال قرار میدیم که خودمون هم دوست داشته باشیم در اون شرکت کنیم.
لینک ثبت نام دوره آموزشی و مسابقه:
https://rayancup.ir/ai
کانال تلگرام:
@Rayan_AI_Course
#other
@nlp_stuff
سلام به همه!
معرفی این سایت رو به این صورت از لینکدین دیدم گفتم به شما هم معرفی کنم
https://jobs-kit.com/
اگه دنبال شغلهای بینالمللی با امکان دورکاری، ریلوکیشن یا Visa Sponsorship هستید، پیشنهاد میکنم حتماً یه سر به وبسایت جابزکیت بزنید.
معرفی این سایت رو به این صورت از لینکدین دیدم گفتم به شما هم معرفی کنم
https://jobs-kit.com/
Forwarded from یادگیری ماشین
دیروز شرکت OpenAI جدیدترین مدل خود را که پیشنمایشی از مدل o1 است معرفی کرد. این مدل که قبلا با نامهای *Q و توتفرنگی در رسانهها مطرح شده بود، قدرت استنتاج و استدلال پیشرفتهتری از مدلهای قبلی ارائه میدهد. البته این فرآیند استدلال باعث کندتر بودن تولید پاسخ شده است. برای بررسی این مدل، یک سوال سادهی استدلالی را از دو مدل ChatGPT o1-preview و ChatGPT 4o پرسیدیم. همانطور که مشاهده میکنید مدل جدید برخلاف مدل قبلی توانسته است به این سوال به درستی پاسخ دهد. البته این یک تست ساده برای یک بررسی اولیه است، درحالیکه ادعا شده است که این مدل برای حل مسائل پیچیدهی ریاضی، کدینگ و علوم توانمندی قابل توجهی دارد. بعنوان نمونه، مدل 4o برای مسائل المپیاد ریاضی دقت ۱۳٪ را بهدست آورده است، درحالیکه نسل جدید به دقت ۸۳٪ رسیده است.
Forwarded from وقایع اتفاقیه AI
مدل o1 و معرفی پارادایم جدید برای مقیاس Inference
تا الان روال این بوده که بودجه محاسباتی و پردازشی LLM ها، عمدتا صرف مرحله Pre-train یا همون ساخت LLM ها میشه و بودجه عجیبی برای Inference در نظر گرفته نمیشه. چرا که به ازای هر پرامپتی که سمت LLM میاد، یک بار یک جنریشن رخ میده و پاسخ تحویل کاربر داده میشه. این روال فعلی تمام LLM ها چه Open و چه Close source هست. هرچند که خود جنریت کردن رو اگر بعنوان تسک پیشبینی توکن بعدی ببینیم، استراتژیهای زیادی براش وجود داره و اتفاقا استفاده از استراتژیهای متفاوت منجر به نتایج متفاوت میشه. مثال معروفش Temperature است که بهتره برای تسکهایی که خلاقیت نیاز داره (مثل نوشتن شعر)، بالا باشه. ولی با این وجود در هرحال عرف تا الان این بوده که برای یک پرامپت، یک پاسخ جنریت میشده ولو با استراتژیهای مختلف.
حالا بطور خلاصه اتفاق بزرگی که در o1 رخ داده، تغییر همین رواله. یعنی به ازای یک پرامپت لزوما یک پاسخ دیگه جنریت نمیشه. بلکه پاسخهای بسیاری چه بصورت موازی و چه متوالی تولید میشه و براساس یک سری مکانیزمهای انتخاب و خودبهبودی درنهایت جواب نهایی تولید و به کاربر نمایش داده میشه. پاسخهای موازی یعنی گرفتن پاسخ از LLM با کانفیگهای جنریشن متفاوت و پاسخهای متوالی یعنی دادن جنریت قبلیِ مدل به مدل و خواستن جنریت بهتر. با اینکه در نهایت به کاربر یک پاسخ نمایش داده میشه ولی میزان توکن تولیدی توسط LLM با میزان توکن نمایش داده شده برابر نیست و این همون چیزیه که OpenAI به جهات مارکتینگی اسمش رو گذاشت Thinking.
سوالی که اینجا بوجود میاد اینه که این مکانیزمهای انتخاب چی ها هستن؟ تقریبا یک ماه پیش Deep-Mind مقالهای منتشر کرد که در اون برای اولین بار صحبت از قانون مقیاس Inference time شد و با آزمایشات مختلف مکانیزمهای انتخاب رو بررسی کرد (قبلا در اینجا درمورد قانون مقیاس LLM ها نوشتم). مقاله بر محور این سوال میره جلو که اگر ما یک بودجه محاسباتی ثابت (ولی نه ناچیز بلکه زیاد) برای Inference داشته باشیم، مدل چقدر میتونه دقت بیشتر روی پرامپتهای چالشی بده؟ در ادامه مقاله دو روش برای خود-بهبودی مدل حین اینفرنس پیاده میکنه که بطور مختصر اشاره میکنم.
تو روش اول میایم distribution مدل رو برای پاسخ بهتر تغییر میدیم. مدل رو قبل از اینکه بره روی پروداکشن یک دور با یک سری دیتا و با یک سری متدهای الهامگرفته از یادگیری تقویتی مثل STaR یا ReST فاینتیون میکنیم. به محض اینکه روی پروداکشن پرامپتی بیاد که شبیه به اون پرامپتهایی باشه که در فاینتیون دیده، فورا بعد از جنریت اولیه، پاسخ بهتر رو به روش CoT تولید میکنه. حالا این پاسخها میتونه بصورت موازی باشه و چه متوالی و همچنین میتونه با روش بعدی ترکیب بشه. خالق این روش گوگل و دیپمایند نبوده و اینها صرفا برای مساله مدنظر (یعنی بررسی افزایش دقت با افزایش بودجه محاسباتی زمان Inference) ازش استفاده کردند.
تو روش دوم، مدل پاسخهای متعددی رو چه بصورت موازی و چه سری جنریت میکنه و یک مدل دیگهای (Reward Model) میاد بعنوان Verifier عمل میکنه و Score میده به پاسخها و بهترین پاسخ رو به کاربر نمایش میده. جذابیت این روش اینه که میشه تمام پاسخها رو به فرمت CoT از مدل گرفت و این بار Verifier بهجای دادن Score روی کل پاسخ بیاد روی هر قسمت از پاسخها Score بده. به این شکل میشه جوابها رو در هم ترکیب کرد و با اجرای الگوریتمهای Tree Search بهترین پاسخ رو تولید کرد. مثلا اگر از مدل، سه تا پاسخ به صورت CoT یا همون Chain of thought گرفتیم، بیایم مقدمه اول از پاسخ اول رو با مقدمه دوم از پاسخ دوم ترکیب کنیم و از قسمت نتیجه پاسخ سه استفاده کنیم و درنهایت پاسخ نهایی رو تولید کنیم. این روش تا 4 برابر میزان Inference time رو نسبت به زمانی که Verifier روی کل پاسخ (و نه بخشیاش) رای بده کاهش داده.
در نهایت این مقاله به یک نتیجهگیری مهم رسیده و اون اینکه برای تسکهای ساده تا کمی دشوار (و نه خیلی دشوار) اگر یک مدل از چنین روشی استفاده کنه، به فرض بودجه محاسباتی ثابت، دقت خروجی این مدل برابری میکنه با دقت یک مدل با 14برابر! وزن بیشتر در حالتی که فقط یک پاسخ جنریت میکنه. این یعنی میشه با همون مدل قبلی GPT4 تا 14 برابر هوشمندی بیشتر دریافت کرد. این همون نتایج شگفتانگیزیه که OpenAI خیلی زودتر از بقیه متوجه شد و الان ما اون چیزی که روی کاغذهای دیپمایند میخونیم رو توی ChatGPT حسش میکنیم. در این مقاله به این موضوع هم اشاره شده که برای تسکهای خیلی دشوار بهصرفهتر اینه که بیشترین حجم بودجه پردازشی رو بدیم به Pre-training ولی برای بقیه تسکها فرض اینه که حجم زیادی از بودجه محاسباتی برای Inference time خواهد بود.
@AI_360
تا الان روال این بوده که بودجه محاسباتی و پردازشی LLM ها، عمدتا صرف مرحله Pre-train یا همون ساخت LLM ها میشه و بودجه عجیبی برای Inference در نظر گرفته نمیشه. چرا که به ازای هر پرامپتی که سمت LLM میاد، یک بار یک جنریشن رخ میده و پاسخ تحویل کاربر داده میشه. این روال فعلی تمام LLM ها چه Open و چه Close source هست. هرچند که خود جنریت کردن رو اگر بعنوان تسک پیشبینی توکن بعدی ببینیم، استراتژیهای زیادی براش وجود داره و اتفاقا استفاده از استراتژیهای متفاوت منجر به نتایج متفاوت میشه. مثال معروفش Temperature است که بهتره برای تسکهایی که خلاقیت نیاز داره (مثل نوشتن شعر)، بالا باشه. ولی با این وجود در هرحال عرف تا الان این بوده که برای یک پرامپت، یک پاسخ جنریت میشده ولو با استراتژیهای مختلف.
حالا بطور خلاصه اتفاق بزرگی که در o1 رخ داده، تغییر همین رواله. یعنی به ازای یک پرامپت لزوما یک پاسخ دیگه جنریت نمیشه. بلکه پاسخهای بسیاری چه بصورت موازی و چه متوالی تولید میشه و براساس یک سری مکانیزمهای انتخاب و خودبهبودی درنهایت جواب نهایی تولید و به کاربر نمایش داده میشه. پاسخهای موازی یعنی گرفتن پاسخ از LLM با کانفیگهای جنریشن متفاوت و پاسخهای متوالی یعنی دادن جنریت قبلیِ مدل به مدل و خواستن جنریت بهتر. با اینکه در نهایت به کاربر یک پاسخ نمایش داده میشه ولی میزان توکن تولیدی توسط LLM با میزان توکن نمایش داده شده برابر نیست و این همون چیزیه که OpenAI به جهات مارکتینگی اسمش رو گذاشت Thinking.
سوالی که اینجا بوجود میاد اینه که این مکانیزمهای انتخاب چی ها هستن؟ تقریبا یک ماه پیش Deep-Mind مقالهای منتشر کرد که در اون برای اولین بار صحبت از قانون مقیاس Inference time شد و با آزمایشات مختلف مکانیزمهای انتخاب رو بررسی کرد (قبلا در اینجا درمورد قانون مقیاس LLM ها نوشتم). مقاله بر محور این سوال میره جلو که اگر ما یک بودجه محاسباتی ثابت (ولی نه ناچیز بلکه زیاد) برای Inference داشته باشیم، مدل چقدر میتونه دقت بیشتر روی پرامپتهای چالشی بده؟ در ادامه مقاله دو روش برای خود-بهبودی مدل حین اینفرنس پیاده میکنه که بطور مختصر اشاره میکنم.
تو روش اول میایم distribution مدل رو برای پاسخ بهتر تغییر میدیم. مدل رو قبل از اینکه بره روی پروداکشن یک دور با یک سری دیتا و با یک سری متدهای الهامگرفته از یادگیری تقویتی مثل STaR یا ReST فاینتیون میکنیم. به محض اینکه روی پروداکشن پرامپتی بیاد که شبیه به اون پرامپتهایی باشه که در فاینتیون دیده، فورا بعد از جنریت اولیه، پاسخ بهتر رو به روش CoT تولید میکنه. حالا این پاسخها میتونه بصورت موازی باشه و چه متوالی و همچنین میتونه با روش بعدی ترکیب بشه. خالق این روش گوگل و دیپمایند نبوده و اینها صرفا برای مساله مدنظر (یعنی بررسی افزایش دقت با افزایش بودجه محاسباتی زمان Inference) ازش استفاده کردند.
تو روش دوم، مدل پاسخهای متعددی رو چه بصورت موازی و چه سری جنریت میکنه و یک مدل دیگهای (Reward Model) میاد بعنوان Verifier عمل میکنه و Score میده به پاسخها و بهترین پاسخ رو به کاربر نمایش میده. جذابیت این روش اینه که میشه تمام پاسخها رو به فرمت CoT از مدل گرفت و این بار Verifier بهجای دادن Score روی کل پاسخ بیاد روی هر قسمت از پاسخها Score بده. به این شکل میشه جوابها رو در هم ترکیب کرد و با اجرای الگوریتمهای Tree Search بهترین پاسخ رو تولید کرد. مثلا اگر از مدل، سه تا پاسخ به صورت CoT یا همون Chain of thought گرفتیم، بیایم مقدمه اول از پاسخ اول رو با مقدمه دوم از پاسخ دوم ترکیب کنیم و از قسمت نتیجه پاسخ سه استفاده کنیم و درنهایت پاسخ نهایی رو تولید کنیم. این روش تا 4 برابر میزان Inference time رو نسبت به زمانی که Verifier روی کل پاسخ (و نه بخشیاش) رای بده کاهش داده.
در نهایت این مقاله به یک نتیجهگیری مهم رسیده و اون اینکه برای تسکهای ساده تا کمی دشوار (و نه خیلی دشوار) اگر یک مدل از چنین روشی استفاده کنه، به فرض بودجه محاسباتی ثابت، دقت خروجی این مدل برابری میکنه با دقت یک مدل با 14برابر! وزن بیشتر در حالتی که فقط یک پاسخ جنریت میکنه. این یعنی میشه با همون مدل قبلی GPT4 تا 14 برابر هوشمندی بیشتر دریافت کرد. این همون نتایج شگفتانگیزیه که OpenAI خیلی زودتر از بقیه متوجه شد و الان ما اون چیزی که روی کاغذهای دیپمایند میخونیم رو توی ChatGPT حسش میکنیم. در این مقاله به این موضوع هم اشاره شده که برای تسکهای خیلی دشوار بهصرفهتر اینه که بیشترین حجم بودجه پردازشی رو بدیم به Pre-training ولی برای بقیه تسکها فرض اینه که حجم زیادی از بودجه محاسباتی برای Inference time خواهد بود.
@AI_360
Forwarded from کانال وب پژوهی
❇️ به پیشنهاد گروهی از مخاطبین کنفرانس وب پژوهی، پنل ویژه ای با عنوان
«هوش مصنوعی قابل اعتماد و وب»
Trustworthy AI and Web
تعریف شده است. از پژوهشگرانی که در این حوزه فعالیت می کنند دعوت می شود مقالات خود را به یازدهمین کنفرانس بینالمللی وب پژوهی ارسال نمایند.
همچنین از اساتید و اعضای هیات علمی که در این حوزه فعالیت دارند جهت مشارکت در این پنل دعوت بعمل می آید.
❇️ مقالات پذیرفته شده انگلیسی مانند سال های قبل جهت نمایه سازی به IEEE Xplore ارسال می شود.
مقالات فارسی در پایگاه های SID و ISC نمایه می شوند.
🌎وبگاه کنفرانس:
iranwebcomf.ir
🔹تلگرام
@webresearch
ایمیل:
iranwebconf@gmail.com
دبیرخانه مجله و کنفرانس بینالمللی وب پژوهی
«هوش مصنوعی قابل اعتماد و وب»
Trustworthy AI and Web
تعریف شده است. از پژوهشگرانی که در این حوزه فعالیت می کنند دعوت می شود مقالات خود را به یازدهمین کنفرانس بینالمللی وب پژوهی ارسال نمایند.
همچنین از اساتید و اعضای هیات علمی که در این حوزه فعالیت دارند جهت مشارکت در این پنل دعوت بعمل می آید.
❇️ مقالات پذیرفته شده انگلیسی مانند سال های قبل جهت نمایه سازی به IEEE Xplore ارسال می شود.
مقالات فارسی در پایگاه های SID و ISC نمایه می شوند.
🌎وبگاه کنفرانس:
iranwebcomf.ir
🔹تلگرام
@webresearch
ایمیل:
iranwebconf@gmail.com
دبیرخانه مجله و کنفرانس بینالمللی وب پژوهی
در خصوص LLM Agents :
📗 عاملهای مبتنی بر LLMها یکی از تحولات بزرگ در هوش مصنوعی محسوب میشوند که قابلیت تصمیمگیری خودکار و حل مسائل پیچیده را دارا هستند. این تکنولوژی مورد توجه صنایع قرار گرفته و همچنین سال 2024 به عنوان عصر عاملهای AI نامیده شده است.
این مدلها توانایی استدلال، برنامهریزی، استفاده از ابزار و اجرای مستقل وظایف پیچیده را کسب میکنند.
📗 منظور از عاملهای هوش مصنوعی سیستمهایی است که میتوانند بدون راهنمایی مداوم انسان، تصمیم بگیرند و با شرایط متغیر سازگار شوند. عاملها با دستورات یا مشاوره انسانی کار را شروع کرده و پس از شفاف شدن وظیفه، مستقل عمل میکنند. استفاده از عاملها برای مسائل باز و غیرقابل پیشبینی مفید است؛ اما پیچیدگی و هزینه بیشتری دارد.
Agentic Systems:
📗 در حال حاضر میتوان با استفاده از یکسری فریمورک، یک تیم از مدلهای زبانی بزرگ (LLMها) داشت. برای هر کدام از این LLMها یک نقش تعریف میکنیم (به کمک نوشته)، نوع ارتباطشان رو تعیین کرده، دسترسی به توابع، ابزار، Web و مستندات بهشون میدهیم و نوع خروجی رو با reasoning تعیین میکنیم.
مثال: یک تیم از Agentهای زبانی که مسئول توسعه و نگهداری از یک سیستم Trading هستند: یک LLM را مدیر اجرایی در نظر میگيريم، یک LLM متخصص گرفتن اخبار مهم و موثر بازار و سهام، یک LLM دیگر متخصص پردازش احساسات این اخبار، یکی متخصص فراخوانی مدلهای پیشبینی کننده، با توجه به جو بازار، یکی متخصص آپدیت مدلها و استراتژیها با توجه به توابع از پیش تعیین شده و ... . همچنین تعیین میکنیم که خروجیها و نوع ارتباطات باید به چه شکل باشه. شبیه یک شرکت کامل.
➖➖➖➖➖
🆔 : @ml_nlp_cv
📗 عاملهای مبتنی بر LLMها یکی از تحولات بزرگ در هوش مصنوعی محسوب میشوند که قابلیت تصمیمگیری خودکار و حل مسائل پیچیده را دارا هستند. این تکنولوژی مورد توجه صنایع قرار گرفته و همچنین سال 2024 به عنوان عصر عاملهای AI نامیده شده است.
این مدلها توانایی استدلال، برنامهریزی، استفاده از ابزار و اجرای مستقل وظایف پیچیده را کسب میکنند.
📗 منظور از عاملهای هوش مصنوعی سیستمهایی است که میتوانند بدون راهنمایی مداوم انسان، تصمیم بگیرند و با شرایط متغیر سازگار شوند. عاملها با دستورات یا مشاوره انسانی کار را شروع کرده و پس از شفاف شدن وظیفه، مستقل عمل میکنند. استفاده از عاملها برای مسائل باز و غیرقابل پیشبینی مفید است؛ اما پیچیدگی و هزینه بیشتری دارد.
Agentic Systems:
📗 در حال حاضر میتوان با استفاده از یکسری فریمورک، یک تیم از مدلهای زبانی بزرگ (LLMها) داشت. برای هر کدام از این LLMها یک نقش تعریف میکنیم (به کمک نوشته)، نوع ارتباطشان رو تعیین کرده، دسترسی به توابع، ابزار، Web و مستندات بهشون میدهیم و نوع خروجی رو با reasoning تعیین میکنیم.
مثال: یک تیم از Agentهای زبانی که مسئول توسعه و نگهداری از یک سیستم Trading هستند: یک LLM را مدیر اجرایی در نظر میگيريم، یک LLM متخصص گرفتن اخبار مهم و موثر بازار و سهام، یک LLM دیگر متخصص پردازش احساسات این اخبار، یکی متخصص فراخوانی مدلهای پیشبینی کننده، با توجه به جو بازار، یکی متخصص آپدیت مدلها و استراتژیها با توجه به توابع از پیش تعیین شده و ... . همچنین تعیین میکنیم که خروجیها و نوع ارتباطات باید به چه شکل باشه. شبیه یک شرکت کامل.
➖➖➖➖➖
🆔 : @ml_nlp_cv
Forwarded from Ai Events️ (حمید محمودآبادی)
پروژه 500 میلیارد دلاری هوش مصنوعی
پروژه استارگیت OpenAI با هدف ایجاد یک زیرساخت بزرگ هوش مصنوعی، با دسترسی انحصاری OpenAI، طراحی شده است. این طرح مستلزم بیش از 500 میلیارد دلار بودجه در طول چهار ساله که با 100 میلیارد دلار شروع میشه (یکی از بزرگترین سرمایهگذاریهای زیرساختی در تاریخ آمریکا) که حتی از پروژه منهتن و برنامه آپولو (در صورت تعدیل تورم) پیشی میگیره!!!
انتظار میره که Stargate بیش از 100000 شغل ایجاد کنه، با تمرکز روی برنامههای پزشکی مثل تحقیق در مورد داروهای سرطان، تشخیص زودهنگام بیماری و...
شرکای کلیدی این پروژه عبارتند از Softbank، Nvidia، Oracle، MGX (امارات متحده عربی)، مایکروسافت و Arm.
قرار است ساخت ده مرکز داده در تگزاس، با برنامه ریزی برای بیست مرکز داده در سراسر آمریکا، که همه به هم مرتبط هستند، آغاز شود.
فقط برای اینکه متوجه بشید این پروژه چقدر بزرگه:
پروژه منهتن (دهه 1940): 30 میلیارد دلار به پول امروز
برنامه آپولو (دهه 1960 تا 70): 257 میلیارد دلار به پول امروز
پروژه StarGate: حدود 500 میلیارد دلار در مدت تنها چهار سال
@Ai_Events
پروژه استارگیت OpenAI با هدف ایجاد یک زیرساخت بزرگ هوش مصنوعی، با دسترسی انحصاری OpenAI، طراحی شده است. این طرح مستلزم بیش از 500 میلیارد دلار بودجه در طول چهار ساله که با 100 میلیارد دلار شروع میشه (یکی از بزرگترین سرمایهگذاریهای زیرساختی در تاریخ آمریکا) که حتی از پروژه منهتن و برنامه آپولو (در صورت تعدیل تورم) پیشی میگیره!!!
انتظار میره که Stargate بیش از 100000 شغل ایجاد کنه، با تمرکز روی برنامههای پزشکی مثل تحقیق در مورد داروهای سرطان، تشخیص زودهنگام بیماری و...
شرکای کلیدی این پروژه عبارتند از Softbank، Nvidia، Oracle، MGX (امارات متحده عربی)، مایکروسافت و Arm.
قرار است ساخت ده مرکز داده در تگزاس، با برنامه ریزی برای بیست مرکز داده در سراسر آمریکا، که همه به هم مرتبط هستند، آغاز شود.
فقط برای اینکه متوجه بشید این پروژه چقدر بزرگه:
پروژه منهتن (دهه 1940): 30 میلیارد دلار به پول امروز
برنامه آپولو (دهه 1960 تا 70): 257 میلیارد دلار به پول امروز
پروژه StarGate: حدود 500 میلیارد دلار در مدت تنها چهار سال
@Ai_Events
Forwarded from Machine Learning | یادگیری ماشین
This media is not supported in your browser
VIEW IN TELEGRAM
👨🏻💻 یکی از جذابترین تکنیکهای یادگیری ماشین، فیزیک-آگاه / (PINN) یا همون شبکههای عصبی مبتنی بر فیزیکه.
➖➖➖➖➖➖➖➖➖➖➖➖➖➖
Please open Telegram to view this post
VIEW IN TELEGRAM
تحقیق جدید Google در مورد شبکههای عصبی، یعنی این همه مدت داشتیم اشتباه فکر میکردیم؟
تازگیا یه مقاله خیلی خوب از گوگل منتشر شده که توجه زیادی رو به خودش جلب کرده، و جالبتر اینکه ۳ نفر از ۴ نویسندهش ایرانی هستن: علی بهروز، میثم رضویان و وهاب میررکنی. این تحقیق با عنوان "The Illusion of Deep Learning Architecture" نکته مهم و قابلتأملی رو مطرح میکنه، مخصوصاً برای کسایی که روی continual learning کار میکنن و ارزش دنبال کردن داره.
ایده اصلی اینه که بهجای اینکه مثل همیشه هی layer بیشتر اضافه کنیم، شاید بهتر باشه به neural networkها «سطحهای یادگیری» بیشتری بدیم. امروز ساخت مدلهای قویتر بیشتر بر پایه افزایش عمق و اندازه است: layerهای بیشتر، parameterهای بیشتر و pre-training data بیشتر؛ رویکردی که از CNNها تا Transformerها و LLMها پیشرفت رو جلو برده. اما این مسیر یه سقف داره که کمتر دربارهش صحبت شده: مدلهای فعلی گرفتار چیزی هستن که نویسندهها بهش computational anterograde amnesia میگن. یعنی بعد از pre-training، دانش مدل عملاً یخ میزنه و نمیتونه یادگیری مداوم داشته باشه یا مهارتهایی خارج از context window خودش کسب کنه.
اینجاست که ایده Nested Learning (NL) مطرح میشه؛ رویکردی که ML model رو مجموعهای از مسائل multi-level optimization در نظر میگیره، با چند سطح یادگیری که هر کدوم «context flow» و سرعت آپدیت مخصوص خودشونو دارن. از نگاه این تحقیق، optimizerها و architectureها از نظر بنیادی تفاوتی ندارن؛ هر دو نوعی حافظه هستن که کانتکست خودشونو فشرده میکنن. مثلاً Adam و SGD حافظههایی هستن که gradient رو فشرده میکنن، Transformerها حافظههایی هستن که tokenها رو فشرده میکنن، و خود pre-training هم نوعی in-context learningه—فقط با این تفاوت که کانتکستش کل دیتاست train هست.
اهمیت NL اینه که یه محور طراحی جدید وارد بازی میکنه. بهجای اینکه شبکهها رو فقط عمیقتر یا پهنتر کنیم، میتونیم مدلهایی بسازیم که چند سطح nested optimization دارن و هر سطح با یه update frequency متفاوت عمل میکنه. این ساختار خیلی شبیه سازوکار مغزه که توش gamma waveها اطلاعات حسی رو پردازش میکنن و theta waveها مسئول تثبیت حافظه هستن. بر اساس همین ایده، محققها Hope رو معرفی میکنن؛ یه architecture که self-modifying memory رو با continuum memory system ترکیب میکنه و بهجای تقسیم سنتی حافظه به کوتاهمدت/بلندمدت، یه طیف پیوسته از سرعتهای آپدیت ارائه میده.
نتایج هم واقعاً چشمگیرن: Hope تو تسکهای needle-in-a-haystack تا کانتکست 16K به ۱۰۰٪ accuracy میرسه، در حالی که Transformerها حدود ۷۹.۸٪ میزنن.
روی BABILong، Hope تا کانتکست ۱۰M همچنان عملکرد خودش رو حفظ میکنه، در حالی که GPT-4 حدود ۱۲۸K دچار افت جدی میشه.
تو continual learning هم Hope از in-context learning، EWC و روشهای external-learner تو class-incremental classification بهتر ظاهر شده. حتی تو language modeling با ۱.۳B پارامتر، روی WikiText به ۱۴.۳۹ perplexity میرسه؛ در حالی که Transformer++ حدود ۱۷.۹۲ داره.
در نهایت NL بهجای اینکه بپرسه «چطور شبکهها رو عمیقتر کنیم»، سؤال مهمتری مطرح میکنه: «چطور به شبکهها سطحهای بیشتری برای یادگیری بدیم؟» شاید مسیر رسیدن به continual learning از مدلهای عظیمتر رد نشه، بلکه از مدلهایی عبور کنه که همزمان تو چند timescale مختلف یاد میگیرن.
لینک مقاله
تازگیا یه مقاله خیلی خوب از گوگل منتشر شده که توجه زیادی رو به خودش جلب کرده، و جالبتر اینکه ۳ نفر از ۴ نویسندهش ایرانی هستن: علی بهروز، میثم رضویان و وهاب میررکنی. این تحقیق با عنوان "The Illusion of Deep Learning Architecture" نکته مهم و قابلتأملی رو مطرح میکنه، مخصوصاً برای کسایی که روی continual learning کار میکنن و ارزش دنبال کردن داره.
ایده اصلی اینه که بهجای اینکه مثل همیشه هی layer بیشتر اضافه کنیم، شاید بهتر باشه به neural networkها «سطحهای یادگیری» بیشتری بدیم. امروز ساخت مدلهای قویتر بیشتر بر پایه افزایش عمق و اندازه است: layerهای بیشتر، parameterهای بیشتر و pre-training data بیشتر؛ رویکردی که از CNNها تا Transformerها و LLMها پیشرفت رو جلو برده. اما این مسیر یه سقف داره که کمتر دربارهش صحبت شده: مدلهای فعلی گرفتار چیزی هستن که نویسندهها بهش computational anterograde amnesia میگن. یعنی بعد از pre-training، دانش مدل عملاً یخ میزنه و نمیتونه یادگیری مداوم داشته باشه یا مهارتهایی خارج از context window خودش کسب کنه.
اینجاست که ایده Nested Learning (NL) مطرح میشه؛ رویکردی که ML model رو مجموعهای از مسائل multi-level optimization در نظر میگیره، با چند سطح یادگیری که هر کدوم «context flow» و سرعت آپدیت مخصوص خودشونو دارن. از نگاه این تحقیق، optimizerها و architectureها از نظر بنیادی تفاوتی ندارن؛ هر دو نوعی حافظه هستن که کانتکست خودشونو فشرده میکنن. مثلاً Adam و SGD حافظههایی هستن که gradient رو فشرده میکنن، Transformerها حافظههایی هستن که tokenها رو فشرده میکنن، و خود pre-training هم نوعی in-context learningه—فقط با این تفاوت که کانتکستش کل دیتاست train هست.
اهمیت NL اینه که یه محور طراحی جدید وارد بازی میکنه. بهجای اینکه شبکهها رو فقط عمیقتر یا پهنتر کنیم، میتونیم مدلهایی بسازیم که چند سطح nested optimization دارن و هر سطح با یه update frequency متفاوت عمل میکنه. این ساختار خیلی شبیه سازوکار مغزه که توش gamma waveها اطلاعات حسی رو پردازش میکنن و theta waveها مسئول تثبیت حافظه هستن. بر اساس همین ایده، محققها Hope رو معرفی میکنن؛ یه architecture که self-modifying memory رو با continuum memory system ترکیب میکنه و بهجای تقسیم سنتی حافظه به کوتاهمدت/بلندمدت، یه طیف پیوسته از سرعتهای آپدیت ارائه میده.
نتایج هم واقعاً چشمگیرن: Hope تو تسکهای needle-in-a-haystack تا کانتکست 16K به ۱۰۰٪ accuracy میرسه، در حالی که Transformerها حدود ۷۹.۸٪ میزنن.
روی BABILong، Hope تا کانتکست ۱۰M همچنان عملکرد خودش رو حفظ میکنه، در حالی که GPT-4 حدود ۱۲۸K دچار افت جدی میشه.
تو continual learning هم Hope از in-context learning، EWC و روشهای external-learner تو class-incremental classification بهتر ظاهر شده. حتی تو language modeling با ۱.۳B پارامتر، روی WikiText به ۱۴.۳۹ perplexity میرسه؛ در حالی که Transformer++ حدود ۱۷.۹۲ داره.
در نهایت NL بهجای اینکه بپرسه «چطور شبکهها رو عمیقتر کنیم»، سؤال مهمتری مطرح میکنه: «چطور به شبکهها سطحهای بیشتری برای یادگیری بدیم؟» شاید مسیر رسیدن به continual learning از مدلهای عظیمتر رد نشه، بلکه از مدلهایی عبور کنه که همزمان تو چند timescale مختلف یاد میگیرن.
لینک مقاله
Forwarded from آکادمی ربوتک
دکتر Fie Fie Li ، استاد معروف دانشگاه استنفورد، در مورد زبان (منظور متن و کلمات نه زبان انگلیسی) صحبت جالبی رو مطرح میکنه.
ایشون میگه زبان یه سیگنال مصنوعی تولید شده است. زبان فهم ما از جهان هست. اینجور نیست که ما بریم بیرون و کلمات توی محیط نوشته شده باشه. در واقع کلمات و جملات فهم ما از جهان هست نه خود جهان. و ما باید فراتر از متون و کلمات استفاده کنیم برای یادگیری.
@robotech_academy
ایشون میگه زبان یه سیگنال مصنوعی تولید شده است. زبان فهم ما از جهان هست. اینجور نیست که ما بریم بیرون و کلمات توی محیط نوشته شده باشه. در واقع کلمات و جملات فهم ما از جهان هست نه خود جهان. و ما باید فراتر از متون و کلمات استفاده کنیم برای یادگیری.
@robotech_academy
Forwarded from منابع هوش مصنوعی - جستجوی یک شیرازی
CS224R Deep Reinforcement Learning | Spring 2025 , Stanford university (Slides, Videos)
https://cs224r.stanford.edu/
https://www.youtube.com/playlist?list=PLoROMvodv4rPwxE0ONYRa_itZFdaKCylL
https://www.youtube.com/watch?v=EvHRQhMX7_w&list=PLoROMvodv4rPwxE0ONYRa_itZFdaKCylL&index=1
#course
#youtube
https://cs224r.stanford.edu/
https://www.youtube.com/playlist?list=PLoROMvodv4rPwxE0ONYRa_itZFdaKCylL
https://www.youtube.com/watch?v=EvHRQhMX7_w&list=PLoROMvodv4rPwxE0ONYRa_itZFdaKCylL&index=1
#course
#youtube
YouTube
Stanford CS224R Deep Reinforcement Learning | Spring 2025 | Lecture 1: Class Intro
View course details: https://online.stanford.edu/courses/xcs224r-deep-reinforcement-learning
April 2, 2025
This lecture covers:
• Class introduction
• Markov Decisions Processes
• Why study deep reinforcement learning?
• Intro to modeling behavior and reinforcement…
April 2, 2025
This lecture covers:
• Class introduction
• Markov Decisions Processes
• Why study deep reinforcement learning?
• Intro to modeling behavior and reinforcement…
این مقاله (برنده جایزه بهترین مقاله NeurIPS 2025)، نشان میدهد که شبکههای عصبی عمیق (تا ۱۰۲۴ لایه) را میتوان به طور پایدار برای یادگیری تقویتی رباتیک (reinforcement learning) آموزش داد. این کار با استفاده از اتصالات باقیمانده (residual connections)، نرمالسازی لایه (layer normalization) و فعالسازی Swish انجام شده و بر مشکل ناپایداری قبلی ناشی از پاداشهای پراکنده غلبه کرده است.
به طور شگفتانگیزی، جهشهای عملکردی در عمقهای خاصی رخ میدهد؛ برای مثال، یک humanoid شبیهسازیشده در ۱۶ لایه راه رفتن عمودی را یاد میگیرد و در ۲۵۶ لایه پرش از دیوار را فرا میگیرد. این منجر به ظهور رفتارهای رسیدن به هدف بدون مقیاسبندی تدریجی میشود.
این پژوهش بر پایه تکنیکهای یادگیری تقویتی خودنظارتی (self-supervised RL) ساخته شده و موفقیت وظایف دستکاری (manipulation tasks) را در تنظیمات بدون نظارت ۲ تا ۵۰ برابر افزایش میدهد. کد منبع آن نیز برای تکرار در تحقیقات رباتیک در دسترس است:
https://arxiv.org/pdf/2503.14858
@ml_nlp_cv
به طور شگفتانگیزی، جهشهای عملکردی در عمقهای خاصی رخ میدهد؛ برای مثال، یک humanoid شبیهسازیشده در ۱۶ لایه راه رفتن عمودی را یاد میگیرد و در ۲۵۶ لایه پرش از دیوار را فرا میگیرد. این منجر به ظهور رفتارهای رسیدن به هدف بدون مقیاسبندی تدریجی میشود.
این پژوهش بر پایه تکنیکهای یادگیری تقویتی خودنظارتی (self-supervised RL) ساخته شده و موفقیت وظایف دستکاری (manipulation tasks) را در تنظیمات بدون نظارت ۲ تا ۵۰ برابر افزایش میدهد. کد منبع آن نیز برای تکرار در تحقیقات رباتیک در دسترس است:
https://arxiv.org/pdf/2503.14858
@ml_nlp_cv