🚀 معرفی Gemma 4 12B؛ مدل چندوجهی جدید گوگل
مدل Gemma 4 12B از ورودیهای متنی، صوتی و تصاویر استخراجشده از ویدئو پشتیبانی میکند.
🔹 حداکثر طول ویدئو: ۳۰ ثانیه
🔹 حداکثر طول فایل صوتی: ۶۰ ثانیه
🔹 دارای قابلیت استدلال (Reasoning)
🔹 پنجره متنی (Context Window) برابر با ۲۵۶ هزار توکن
🔹 منتشرشده تحت مجوز Apache 2.0
✨ نکته جالب این نسخه در اغلب مدلهای چندوجهی، برای پردازش تصاویر و صدا به یک «انکودر» (Encoder) جداگانه نیاز است. اما در Gemma 4 12B این قابلیت با استفاده از پروجکشنهای خطی ساده (Linear Projections) پیادهسازی شده است؛ روشی که به پارامترها و توان محاسباتی کمتری نیاز دارد.
📄 متأسفانه هنوز گزارش فنی (Technical Report) این مدل منتشر نشده است؛ بنابراین جزئیات نحوه آموزش این معماری جدید مشخص نیست. انتظار میرود همانند مدل بزرگتر Gemma 4 124B در آینده اطلاعات بیشتری درباره آن منتشر شود.
#هوش_مصنوعی #Gemma #GoogleAI #LLM #Multimodal #AINews
مدل Gemma 4 12B از ورودیهای متنی، صوتی و تصاویر استخراجشده از ویدئو پشتیبانی میکند.
🔹 حداکثر طول ویدئو: ۳۰ ثانیه
🔹 حداکثر طول فایل صوتی: ۶۰ ثانیه
🔹 دارای قابلیت استدلال (Reasoning)
🔹 پنجره متنی (Context Window) برابر با ۲۵۶ هزار توکن
🔹 منتشرشده تحت مجوز Apache 2.0
✨ نکته جالب این نسخه در اغلب مدلهای چندوجهی، برای پردازش تصاویر و صدا به یک «انکودر» (Encoder) جداگانه نیاز است. اما در Gemma 4 12B این قابلیت با استفاده از پروجکشنهای خطی ساده (Linear Projections) پیادهسازی شده است؛ روشی که به پارامترها و توان محاسباتی کمتری نیاز دارد.
📄 متأسفانه هنوز گزارش فنی (Technical Report) این مدل منتشر نشده است؛ بنابراین جزئیات نحوه آموزش این معماری جدید مشخص نیست. انتظار میرود همانند مدل بزرگتر Gemma 4 124B در آینده اطلاعات بیشتری درباره آن منتشر شود.
#هوش_مصنوعی #Gemma #GoogleAI #LLM #Multimodal #AINews