ابزارها و کاربردهای هوش مصنوعی

🚀 معرفی Gemma 4 12B؛ مدل چندوجهی جدید گوگل

مدل Gemma 4 12B از ورودی‌های متنی، صوتی و تصاویر استخراج‌شده از ویدئو پشتیبانی می‌کند.

🔹 حداکثر طول ویدئو: ۳۰ ثانیه
🔹 حداکثر طول فایل صوتی: ۶۰ ثانیه
🔹 دارای قابلیت استدلال (Reasoning)
🔹 پنجره متنی (Context Window) برابر با ۲۵۶ هزار توکن
🔹 منتشرشده تحت مجوز Apache 2.0

✨ نکته جالب این نسخه در اغلب مدل‌های چندوجهی، برای پردازش تصاویر و صدا به یک «انکودر» (Encoder) جداگانه نیاز است. اما در Gemma 4 12B این قابلیت با استفاده از پروجکشن‌های خطی ساده (Linear Projections) پیاده‌سازی شده است؛ روشی که به پارامترها و توان محاسباتی کمتری نیاز دارد.

📄 متأسفانه هنوز گزارش فنی (Technical Report) این مدل منتشر نشده است؛ بنابراین جزئیات نحوه آموزش این معماری جدید مشخص نیست. انتظار می‌رود همانند مدل بزرگ‌تر Gemma 4 124B در آینده اطلاعات بیشتری درباره آن منتشر شود.

#هوش_مصنوعی #Gemma #GoogleAI #LLM #Multimodal #AINews

404 viewsedited 14:25

About

Blog

Apps

Platform