نویسندگان نشان میدهند که دقت بهتنهایی معیار کافی برای ارزیابی کیفیت مدل پاداش نیست و واریانس پاداش نیز نقش مهمی در بهینهسازی مؤثر دارد.
در RLHF، مدلهای زبانی (پالیسیها) با استفاده از مدلهای پاداش آموزشدیده از بازخورد انسانی بهینهسازی میشوند. معمولاً کیفیت این مدلهای پاداش با دقت آنها در پیشبینی ترجیحات انسانی سنجیده میشود. با این حال، مشاهده شده است که مدلهای پاداش با دقت بالاتر لزوماً منجر به بهبود عملکرد مدلهای زبانی نمیشوند.
▪️ What Makes a Reward Model a Good Teacher? An Optimization Perspective
#مقاله #ایده_جذاب #یادگیری_تقویتی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
در RLHF، مدلهای زبانی (پالیسیها) با استفاده از مدلهای پاداش آموزشدیده از بازخورد انسانی بهینهسازی میشوند. معمولاً کیفیت این مدلهای پاداش با دقت آنها در پیشبینی ترجیحات انسانی سنجیده میشود. با این حال، مشاهده شده است که مدلهای پاداش با دقت بالاتر لزوماً منجر به بهبود عملکرد مدلهای زبانی نمیشوند.
▪️ What Makes a Reward Model a Good Teacher? An Optimization Perspective
#مقاله #ایده_جذاب #یادگیری_تقویتی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍7
DeepMind AI Expert pinned «سلام دوستان اگه دنبال فیلترشکن خوب میگردین این لینک فیلترشکن رو که برای برنامهنویسان، گیمرها، دانشجویان، فعالین حوزه رمز ارز، فریلنسرها هست رو معرفی میکنم اینجا شما هم به فیلترشکنی قابل پشتیبان دسترسی دارین و هم کیفیت بسیار خوبی رو میتونین بگیرین و به هرچیزی…»
Forwarded from DeepMind AI Expert (Farzad 🦅)
این یک تبلیغ نیست
سلام دوستان اگه دنبال فیلترشکن خوب میگردین این لینک فیلترشکن رو که برای برنامهنویسان، گیمرها، دانشجویان، فعالین حوزه رمز ارز، فریلنسرها هست رو معرفی میکنم اینجا شما هم به فیلترشکنی قابل پشتیبان دسترسی دارین و هم کیفیت بسیار خوبی رو میتونین بگیرین و به هرچیزی که فیلتر هست دسترسی دارین
✅ خرید فیلترشکن
پ.ن: خدماتشون من به شدت راضیم دوستانتون رو دعوت کنید و حجم هدیه بگیرید
سلام دوستان اگه دنبال فیلترشکن خوب میگردین این لینک فیلترشکن رو که برای برنامهنویسان، گیمرها، دانشجویان، فعالین حوزه رمز ارز، فریلنسرها هست رو معرفی میکنم اینجا شما هم به فیلترشکنی قابل پشتیبان دسترسی دارین و هم کیفیت بسیار خوبی رو میتونین بگیرین و به هرچیزی که فیلتر هست دسترسی دارین
✅ خرید فیلترشکن
پ.ن: خدماتشون من به شدت راضیم دوستانتون رو دعوت کنید و حجم هدیه بگیرید
👎37👍6
سلام دوستان کسی دسترسی به این مقاله داره برا من بفرسته ممنون میشم
https://doi.org/10.1038/s41586-025-08661-4
https://doi.org/10.1038/s41586-025-08661-4
Nature
Optimizing generative AI by backpropagating language model feedback
Nature - Generative artificial intelligence (AI) systems can be optimized using TextGrad, a framework that performs optimization by backpropagating large-language-model-generated feedback; TextGrad...
هم اکنون مدل متن باز شده DeepSeek-V3 منتشر شد این بار این مدل بسیار بزرگتر از قبل با 685 پارامتری هستش
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
huggingface.co
deepseek-ai/DeepSeek-V3-0324 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍6🔥3
DeepMind AI Expert
هم اکنون مدل متن باز شده DeepSeek-V3 منتشر شد این بار این مدل بسیار بزرگتر از قبل با 685 پارامتری هستش https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
دکتر گری مارکوس نوشته براش OpenAI همش حرف میزنه و دیپ سیک عمل میکنه 😂
👍16
This media is not supported in your browser
VIEW IN TELEGRAM
در این #مقاله به معرفی روشی نوین برای ایجاد آواتارهای سهبعدی تمامبدن و واقعگرایانه میپردازد که در دستگاههای واقعیت افزوده (AR) با کارایی بالا و realtime اجرا میشوند.
ایجاد آواتارهای سهبعدی واقعگرایانه برای کاربردهای واقعیت افزوده، مانند پخش زنده تجارت الکترونیک و ارتباطات هولوگرافیک، چالشی مهم است. روشهای موجوددرایجاد آواتارهای سهبعدی با استفاده از پخش گوسی سهبعدی (3DGS) در کنترل دقیق حالات چهره وحرکات بدن دروظایف صحبتکردن تمامبدن مشکل دارند. علاوه براین، این روشها جزئیات کافی را ارائه نمیدهندو نمیتواننددردستگاههای موبایل بهصورت زمان واقعی اجرا شوند. TaoAvatar یک آواتارسهبعدی تمامبدن و واقعگرایانه است که بر اساس 3DGS ساخته شده و توسط سیگنالهای مختلف هدایت میشود. این روش با ایجاد یک قالب پارامتریک شخصیشده از انسان با لباس که گوسیها را برای نمایش ظاهر به آن متصل میکند، آغاز میشود.
▪️ TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting
پ.ن: حداقل اینو داخلی سازی کنید
#ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
ایجاد آواتارهای سهبعدی واقعگرایانه برای کاربردهای واقعیت افزوده، مانند پخش زنده تجارت الکترونیک و ارتباطات هولوگرافیک، چالشی مهم است. روشهای موجوددرایجاد آواتارهای سهبعدی با استفاده از پخش گوسی سهبعدی (3DGS) در کنترل دقیق حالات چهره وحرکات بدن دروظایف صحبتکردن تمامبدن مشکل دارند. علاوه براین، این روشها جزئیات کافی را ارائه نمیدهندو نمیتواننددردستگاههای موبایل بهصورت زمان واقعی اجرا شوند. TaoAvatar یک آواتارسهبعدی تمامبدن و واقعگرایانه است که بر اساس 3DGS ساخته شده و توسط سیگنالهای مختلف هدایت میشود. این روش با ایجاد یک قالب پارامتریک شخصیشده از انسان با لباس که گوسیها را برای نمایش ظاهر به آن متصل میکند، آغاز میشود.
▪️ TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting
پ.ن: حداقل اینو داخلی سازی کنید
#ایده_جذاب
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍6❤2
This media is not supported in your browser
VIEW IN TELEGRAM
در این #مقاله به بررسی استفاده از #یادگیری_تقویتی (RL) برای کنترل خودروهای #خودران با هدف کاهش ترافیک و بهبود جریان آن میپردازد.امواج توقف وحرکت درترافیک معمولا ناشی ازنوسانات کوچک دررفتاررانندگی هستندکه با گذرزمان تشدیدمیشوندومنجربه کاهش کارایی و افزایش مصرف سوخت میگردند. روشهای سنتی مانند کنترل ورودی رمپ و محدودیتهای سرعت متغیر برای مدیریت این امواج به زیرساختهای پرهزینه و هماهنگی مرکزی نیاز دارند.در این پژوهش، از یادگیری تقویتی برای آموزش خودروهای خودران استفاده شده است تا با تنظیمات دینامیکی رفتار رانندگی، امواج توقف وحرکت راکاهش دهند. برای آموزش این کنترلرها، ازشبیهسازیهای سریع و دادهمحور استفاده شده است که بادادههای واقعی از بزرگراه I-24 درتنسی تغذیه شدهاند. این شبیهسازیها به خودروهای خودران امکان میدهند تاباتعامل درمحیطهای شبیهسازیشده، استراتژیهایی را برای بهبود کارایی انرژی و حفظ ایمنی در کنار رانندگان انسانی بیاموزند.
▪️ Scaling Up Reinforcement Learning for Traffic Smoothing: A 100-AV Highway Deployment
#ایده_جذاب #ماشین_خودران
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
▪️ Scaling Up Reinforcement Learning for Traffic Smoothing: A 100-AV Highway Deployment
#ایده_جذاب #ماشین_خودران
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍7🔥1
Forwarded from Daily Laily
امروز دنبال یه تخصص میگشتم و متوجه شدم که چقدر ایران خالی از متخصص شده ...
ما حتی منتورهای خوب تو یه سری حوزه هم کم داریم
کسایی که یه سری جایگاه ها رو هم گرفتن صرفا بخاطر آشناهاشون بوده یا اینکه چون واقعا کسی نبوده که مناسب اون جایگاه باشه و به خاطر مهاجرت افراد یک جایی خالی شده
ما حتی منتورهای خوب تو یه سری حوزه هم کم داریم
کسایی که یه سری جایگاه ها رو هم گرفتن صرفا بخاطر آشناهاشون بوده یا اینکه چون واقعا کسی نبوده که مناسب اون جایگاه باشه و به خاطر مهاجرت افراد یک جایی خالی شده
👍47👌6👎4🕊3
محققان یک مدل هوش مصنوعی را به نام ECgMLP توسعه دادند که میتواند سرطان آندومتر را با دقت ۹۹/۲۶ درصد تشخیص دهد.
▪️ ECgMLP: A novel gated MLP model for enhanced endometrial cancer diagnosis
#مقاله #ایده_جذاب #زیست_شناسی #علوم_پزشکی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
▪️ ECgMLP: A novel gated MLP model for enhanced endometrial cancer diagnosis
#مقاله #ایده_جذاب #زیست_شناسی #علوم_پزشکی
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍18❤7🔥4
یک استارتآپ نوآور، HomeX متشکل از فارغالتحصیلان و دانشجویان، در حال توسعه یک محصول جذاب و تحولآفریناند و بدین منظور در جستجوی یک متخصص خبره هوش مصنوعی برای پیوستن به عنوان Co-Founder هستند.
اگر شما یک متخصص خبره هوش مصنوعی هستید و به دنبال یک فرصت جذاب هستید، لطفاً از طریق ایمیل ai.cofunder@gmail.com با این تیم گفتوگو کنید و رزومه خود را ارسال فرمایید.
اگر شما یک متخصص خبره هوش مصنوعی هستید و به دنبال یک فرصت جذاب هستید، لطفاً از طریق ایمیل ai.cofunder@gmail.com با این تیم گفتوگو کنید و رزومه خود را ارسال فرمایید.
👎29👍4
Fine-tune Orpheus-TTS for free with our notebook!
Orpheus delivers human-like speech with emotional cues (sighs, laughs) that outperform OpenAI. Customize voices + dialogue 2x faster using 70% less VRAM via Unsloth.
https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Orpheus_(3B)-TTS.ipynb
Orpheus delivers human-like speech with emotional cues (sighs, laughs) that outperform OpenAI. Customize voices + dialogue 2x faster using 70% less VRAM via Unsloth.
https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Orpheus_(3B)-TTS.ipynb
Google
Orpheus_(3B)-TTS.ipynb
Run, share, and edit Python notebooks
👍4❤1