اخبار هوش مصنوعی
3.05K subscribers
961 photos
657 videos
1.02K files
1.55K links
آخرین اخبار و منابع فناوری ؛ هوش مصنوعی و یادگیری ماشین

@GPT360
Download Telegram
مدل‌ زبانی بزرگ فاین تیوین شده برای زبان فارسی

این مقاله در مورد #LLM فارسی به نام #PersianLLaMA هستش. این مدل روی مجموعه ای از متن‌ها و دیتاست‌های فارسی آموزش داده شده و با دو نسخه با 7 و 13 میلیارد پارامتر ارائه شده است که بر روی متون رسمی و محاوره ای فارسی با دو رویکرد متفاوت آموزش داده شده.
PersianLLaMA: Towards Building First Persian Large Language Model

لینک‌ مقاله

@silicon_brain | از هوش مصنوعی عقب نمانید
کامبک گوگل به دنیای LLM

گوگل دیپ‌مایند (#deep_m8nd) مدل Gemma-2 با دو بیلیون پارامتر رو عرضه کرده. یکی از بزرگترین دستاوردهای این کار، عملکرد بهتر مدل در پلتفرم ارزیابی Chatbot Arena نسبت به مدل GPT-3.5 هست!

مدل GPT-3.5 بیش از 175 بیلیون پارامتر و Gemma-2 تنها با دو بیلیون پارامتر داره! تصویر هم مربوط به LMSYS Chatbot Arena هست که عملکرد مدل Gemma-2 رو نسبت به سایر مدل‌ها نشون میده.

علاوه بر Gemma-2 2B دو نسخه دیگه بنام GemmaShield و GemmaScope هم عرضه شده که اینها هم کاربردهای بسیار جالبی دارن.

شاید ندونید LMSYS Chatbot Arena چی هست؟
یک پلتفرم آنلاین و آزاد هست برای ارزیابی #LLM ها و VLM-هاست. ارزیابی‌های جالبی هم داره؛ مثلا، یک حالت Battle داره. شما یک سوال میپرسید و دو مدل A و B نامشخص بهش جواب میدن. شما جواب‌ها رو میخونید و بعد می‌تونید انتخاب کنید که کدوم جواب بهتر هست. بعد از اینکه جواب دادید، بهتون میگه این دو مدل که بهت جواب دادن اسمشون چی بوده.

وبلاگ Gemma-2

#gemma #lmsys #chatbot_arena
@silicon_brain | از هوش مصنوعی عقب نمانید
1
این مقاله الف تا یای مدل‌های زبانی رو توی خودش جا داده. از جمع آوری و آماده‌سازی داده گرفته تا آموزش مدل و فاین‌تیون کردن و دیپلوی کردن روی پروداکشن و بهبود پرفورمنس. پیشنهاد می‌کنم یه نگاه چشمی هم شده بهش بندازید.

🖇 لینک مقاله

#LLM
#Generative_AI
#paper

🆔 @lifeAsAService
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Qwen-Image-Edit — ابزار جدید و هوشمند برای ویرایش تصاویر از Qwen

حالا دیگه فقط تولید تصویر نیست — می‌تونی مستقیماً با دستور، عکس رو ویرایش کنی: تغییر اشیاء، استایل، پس‌زمینه یا حتی متن روی تصویر!

قابلیت‌ها:

تغییر معنا و جزئیات — مثلاً می‌تونی شیء رو بچرخونی، رنگ یا سبک رو عوض کنی بدون اینکه بقیه بخش‌ها خراب بشن.

🔤 ویرایش متن روی تصویر — اضافه کردن، حذف یا تغییر نوشته‌ها به انگلیسی و چینی، با حفظ فونت و استایل.

🏆 نتایج برتر در تست‌ها — این مدل در بین ابزارهای متن‌باز عملکرد سطح بالا نشون داده.


چطور کار می‌کنه؟
ترکیب مدل درک تصویر (VL) و کدگذار VAE باعث میشه هم معنا و هم جزئیات عکس بعد از ویرایش حفظ بشه.

🟢 چطور امتحان کنیم؟
کافیه وارد Qwen Chat بشی و حالت Image Editing رو انتخاب کنی.



#qwen #ml #llm #ai
🚀 تیم Qwen از بزرگ‌ترین مدل خودش رونمایی کرد: Qwen3-Max-Preview (Instruct) با بیش از ۱ تریلیون پارامتر.
📊 طبق بنچمارک‌ها، این مدل از پرچم‌دار قبلی یعنی Qwen3-235B-A22B-2507 قوی‌تره.
🗣️ تست‌های داخلی و اولین بازخوردها نشون می‌ده که مدل توی دیالوگ، اجرای وظایف عامل‌محور، پیروی از دستورها و گستره‌ی دانش پیشرفت چشمگیری داشته.
🔮 تیم Qwen قول داده به‌زودی خبرهای جذاب‌تری منتشر کنه.
🟢 Qwen Chat: https://chat.qwen.ai
🟢 Alibaba Cloud API: https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-max-preview

#هوش_مصنوعی #Qwen3 #LLM #AlibabaCloud #QwenChat
1
⚡️ Ling-flash-2.0 در دسترس عموم قرار گرفت! ⚡️

🔹 مدل با ۱۰۰ میلیارد پارامتر، اما تنها ≈۶.۱B فعال — فوق‌العاده بهینه در مصرف منابع
🔹 آموزش‌دیده با بیش از ۲۰ تریلیون توکن + مراحل RL و فاین‌تیونینگ
🔹 بهترین عملکرد در بین مدل‌های تا ۴۰B، به‌خصوص در استدلال پیچیده، تولید کد و تسک‌های فرانت‌اند
🔹 معماری MoE با فعال‌سازی 1/32 پارامترها، به همراه تکنیک‌های پیشرفته مسیریابی و تعادل توجه
🔹 سرعت: تولید ۲۰۰+ توکن در ثانیه روی H20 (۳ برابر سریع‌تر از مدل‌های متراکم 36B)
🔹 پشتیبانی از کانتکست تا ۱۲۸K توکن (با YaRN)





#moe #llm #ml #ai #opensource
🎉 مدل Qwen3-VL حالا در llama.cpp هم قابل استفاده است!

این یعنی می‌توانید مدل را مستقیماً روی سیستم خودتان اجرا کنید — با پشتیبانی از CPU، CUDA، Metal، Vulkan و سایر بک‌اندها. 🚀

📦 وزن‌های GGUF برای همه نسخه‌ها — از ۲B تا ۲۳۵B — در دسترس‌اند.
قابل اجرا به‌صورت آفلاین و بدون نیاز به سرویس‌های ابری یا اتصال خارجی.

🔗 لینک‌ها:


🔗 Hugging Face (مجموعه کامل مدل‌ها):
👉 https://huggingface.co/collections/Qwen/qwen3-vl
🔗 ModelScope (مدل‌ها و نسخه‌های مختلف):
👉 https://modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b
🔗 افزوده شدن Qwen3-VL به llama.cpp در GitHub (کد و جزئیات اجرا):
👉 https://github.com/ggerganov/llama.cpp/pull/16780



#Qwen3 #LLM
👍2
🚀 معرفی Gemma 4 12B؛ مدل چندوجهی جدید گوگل

مدل Gemma 4 12B از ورودی‌های متنی، صوتی و تصاویر استخراج‌شده از ویدئو پشتیبانی می‌کند.

🔹 حداکثر طول ویدئو: ۳۰ ثانیه
🔹 حداکثر طول فایل صوتی: ۶۰ ثانیه
🔹 دارای قابلیت استدلال (Reasoning)
🔹 پنجره متنی (Context Window) برابر با ۲۵۶ هزار توکن
🔹 منتشرشده تحت مجوز Apache 2.0

نکته جالب این نسخه در اغلب مدل‌های چندوجهی، برای پردازش تصاویر و صدا به یک «انکودر» (Encoder) جداگانه نیاز است. اما در Gemma 4 12B این قابلیت با استفاده از پروجکشن‌های خطی ساده (Linear Projections) پیاده‌سازی شده است؛ روشی که به پارامترها و توان محاسباتی کمتری نیاز دارد.

📄 متأسفانه هنوز گزارش فنی (Technical Report) این مدل منتشر نشده است؛ بنابراین جزئیات نحوه آموزش این معماری جدید مشخص نیست. انتظار می‌رود همانند مدل بزرگ‌تر Gemma 4 124B در آینده اطلاعات بیشتری درباره آن منتشر شود.

#هوش_مصنوعی #Gemma #GoogleAI #LLM #Multimodal #AINews
🚀 انتشار GLM 5.2 با پنجره متنی یک میلیون توکنی

نسخه جدید GLM 5.2 منتشر شد و مهم‌ترین ویژگی آن، افزایش طول کانتکست به ۱ میلیون توکن است.

🧠 برای دستیابی به این پنجره متنی بسیار بزرگ، تغییراتی در معماری مدل اعمال شده است. این قابلیت به مدل اجازه می‌دهد اسناد بسیار طولانی، کدهای حجیم و مکالمات گسترده را به‌صورت یکجا پردازش کند.

📌 نکات مهم این نسخه:

طول کانتکست: ۱٬۰۰۰٬۰۰۰ توکن

مدل چند روزی بود که در سرویس اشتراکی در دسترس قرار داشت.

اکنون به‌صورت رسمی، پست فنی، وزن‌های مدل و دسترسی API نیز منتشر شده‌اند.

قیمت استفاده از API تغییری نکرده است.


💰 هزینه استفاده همچنان برابر است با:

۱٫۴ دلار برای هر یک میلیون توکن ورودی

۴٫۴ دلار برای هر یک میلیون توکن خروجی


🔓 همچنین وزن‌های مدل با مجوز MIT منتشر شده‌اند که امکان استفاده و توسعه آزادتر را برای پژوهشگران و توسعه‌دهندگان فراهم می‌کند.

با افزایش طول کانتکست به یک میلیون توکن، GLM 5.2 وارد رقابت مستقیم با مدل‌هایی شده که بر پردازش اسناد و حافظه طولانی‌مدت تمرکز دارند.

#هوش_مصنوعی #GLM #LLM #AI #OpenSource #MachineLearning #TechNews
🚀 انتشار Kimi K2.7 Code؛ سریع‌تر و بهینه‌تر برای برنامه‌نویسی

نسخه جدید Kimi K2.7 Code منتشر شد و طبق اعلام توسعه‌دهندگان، عملکرد آن در برنامه‌نویسی نسبت به نسخه قبلی بهبود یافته است.

💻 مهم‌ترین تغییرات این نسخه:

🔹 عملکرد بهتر در وظایف کدنویسی نسبت به K2.6
🔹 مصرف حدود ۳۰٪ توکن کمتر برای دستیابی به همان نتایج یا حتی نتایج بهتر
🔹 حفظ همان مجوز انتشار نسخه‌های قبلی

⚙️ این مدل همچنان دارای حدود یک تریلیون پارامتر است؛ موضوعی که میزبانی و اجرای آن روی سخت‌افزار شخصی را بسیار دشوار می‌کند و استفاده از زیرساخت‌های قدرتمند را ضروری می‌سازد.

📈 بهبود کیفیت کدنویسی همراه با کاهش مصرف توکن، می‌تواند هزینه استفاده از مدل را کاهش داده و بهره‌وری توسعه‌دهندگان را افزایش دهد.

🌐 انتشار این مدل بار دیگر نشان می‌دهد که مدل‌های متن‌باز و آزاد در حوزه هوش مصنوعی با سرعت زیادی در حال نزدیک شدن به مدل‌های تجاری و بسته هستند.

#هوش_مصنوعی #Kimi #Coding #LLM #OpenSource #Programing #AI #TechNews