اخبار هوش مصنوعی

Forwarded from Silicon Brain | جامعه هوش مصنوعی

مدل‌ زبانی بزرگ فاین تیوین شده برای زبان فارسی

این مقاله در مورد #LLM فارسی به نام #PersianLLaMA هستش. این مدل روی مجموعه ای از متن‌ها و دیتاست‌های فارسی آموزش داده شده و با دو نسخه با 7 و 13 میلیارد پارامتر ارائه شده است که بر روی متون رسمی و محاوره ای فارسی با دو رویکرد متفاوت آموزش داده شده.
PersianLLaMA: Towards Building First Persian Large Language Model

لینک‌ مقاله

@silicon_brain | از هوش مصنوعی عقب نمانید

arXiv.org

PersianLLaMA: Towards Building First Persian Large Language Model

Despite the widespread use of the Persian language by millions globally, limited efforts have been made in natural language processing for this language. The use of large language models as...

432 views05:06

اخبار هوش مصنوعی

Forwarded from Silicon Brain | جامعه هوش مصنوعی

کامبک گوگل به دنیای LLM

گوگل دیپ‌مایند (#deep_m8nd) مدل Gemma-2 با دو بیلیون پارامتر رو عرضه کرده. یکی از بزرگترین دستاوردهای این کار، عملکرد بهتر مدل در پلتفرم ارزیابی Chatbot Arena نسبت به مدل GPT-3.5 هست!

مدل GPT-3.5 بیش از 175 بیلیون پارامتر و Gemma-2 تنها با دو بیلیون پارامتر داره! تصویر هم مربوط به LMSYS Chatbot Arena هست که عملکرد مدل Gemma-2 رو نسبت به سایر مدل‌ها نشون میده.

علاوه بر Gemma-2 2B دو نسخه دیگه بنام GemmaShield و GemmaScope هم عرضه شده که اینها هم کاربردهای بسیار جالبی دارن.

شاید ندونید LMSYS Chatbot Arena چی هست؟
یک پلتفرم آنلاین و آزاد هست برای ارزیابی #LLM ها و VLM-هاست. ارزیابی‌های جالبی هم داره؛ مثلا، یک حالت Battle داره. شما یک سوال میپرسید و دو مدل A و B نامشخص بهش جواب میدن. شما جواب‌ها رو میخونید و بعد می‌تونید انتخاب کنید که کدوم جواب بهتر هست. بعد از اینکه جواب دادید، بهتون میگه این دو مدل که بهت جواب دادن اسمشون چی بوده.

وبلاگ Gemma-2

#gemma #lmsys #chatbot_arena
@silicon_brain | از هوش مصنوعی عقب نمانید

❤1

366 views05:49

اخبار هوش مصنوعی

Forwarded from هوش مصنوعی |یادگیری ماشین| علم داده

وقتی ChatGPT o1 با ۶ پرامپت در 1 ساعت چیزی که حدود یک سال طول کشید تا دکترای خود را بگذرانید انجام می دهد :
https://youtu.be/M9YOO7N5jF8?feature=shared

لینک مقاله پژوهشی: https://iopscience.iop.org/article/10.3847/1538-4357/ac7a38/meta

#هوش_مصنوعی #یادگیری_ماشین

#AI #LLM #ML

🆔 @Ai_Tv

YouTube

ChatGPT o1 preview + mini Wrote My PhD Code in 1 Hour*—What Took Me ~1 Year

After about 6 prompts, ChatGPT o1’s preview and mini create a running version of the code described from the methods section of my research paper. I do want to emphasize that while the skeletal code does emulate what my code does, it did use its own synthetic…

408 views16:28

اخبار هوش مصنوعی

Forwarded from codepedia (M admin)

این مخزن GitHub مجموعه ی بی نظیری از دیتاست پرامپت های LLM است

https://github.com/verazuo/jailbreak_llms

#AI #LLM #ML

🆔 @code_pedia

GitHub

GitHub - verazuo/jailbreak_llms: [CCS'24] A dataset consists of 15,140 ChatGPT prompts from Reddit, Discord, websites, and open…

[CCS'24] A dataset consists of 15,140 ChatGPT prompts from Reddit, Discord, websites, and open-source datasets (including 1,405 jailbreak prompts). - verazuo/jailbreak_llms

267 views11:01

اخبار هوش مصنوعی

Forwarded from زندگی به عنوان سرویس

این مقاله الف تا یای مدل‌های زبانی رو توی خودش جا داده. از جمع آوری و آماده‌سازی داده گرفته تا آموزش مدل و فاین‌تیون کردن و دیپلوی کردن روی پروداکشن و بهبود پرفورمنس. پیشنهاد می‌کنم یه نگاه چشمی هم شده بهش بندازید.

🖇 لینک مقاله

#LLM
#Generative_AI
#paper

🆔 @lifeAsAService

👍1

340 views14:25

اخبار هوش مصنوعی

1:25

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 Qwen-Image-Edit — ابزار جدید و هوشمند برای ویرایش تصاویر از Qwen

حالا دیگه فقط تولید تصویر نیست — می‌تونی مستقیماً با دستور، عکس رو ویرایش کنی: تغییر اشیاء، استایل، پس‌زمینه یا حتی متن روی تصویر!

قابلیت‌ها:

✨ تغییر معنا و جزئیات — مثلاً می‌تونی شیء رو بچرخونی، رنگ یا سبک رو عوض کنی بدون اینکه بقیه بخش‌ها خراب بشن.

🔤 ویرایش متن روی تصویر — اضافه کردن، حذف یا تغییر نوشته‌ها به انگلیسی و چینی، با حفظ فونت و استایل.

🏆 نتایج برتر در تست‌ها — این مدل در بین ابزارهای متن‌باز عملکرد سطح بالا نشون داده.

چطور کار می‌کنه؟
ترکیب مدل درک تصویر (VL) و کدگذار VAE باعث میشه هم معنا و هم جزئیات عکس بعد از ویرایش حفظ بشه.

🟢 چطور امتحان کنیم؟
کافیه وارد Qwen Chat بشی و حالت Image Editing رو انتخاب کنی.

#qwen #ml #llm #ai

363 viewsedited 20:03

اخبار هوش مصنوعی

🚀 تیم Qwen از بزرگ‌ترین مدل خودش رونمایی کرد: Qwen3-Max-Preview (Instruct) با بیش از ۱ تریلیون پارامتر.
📊 طبق بنچمارک‌ها، این مدل از پرچم‌دار قبلی یعنی Qwen3-235B-A22B-2507 قوی‌تره.
🗣️ تست‌های داخلی و اولین بازخوردها نشون می‌ده که مدل توی دیالوگ، اجرای وظایف عامل‌محور، پیروی از دستورها و گستره‌ی دانش پیشرفت چشمگیری داشته.
🔮 تیم Qwen قول داده به‌زودی خبرهای جذاب‌تری منتشر کنه.
🟢 Qwen Chat: https://chat.qwen.ai
🟢 Alibaba Cloud API: https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-max-preview

#هوش_مصنوعی #Qwen3 #LLM #AlibabaCloud #QwenChat

❤1

386 viewsedited 16:03

اخبار هوش مصنوعی

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ Ling-flash-2.0 در دسترس عموم قرار گرفت! ⚡️

🔹 مدل با ۱۰۰ میلیارد پارامتر، اما تنها ≈۶.۱B فعال — فوق‌العاده بهینه در مصرف منابع
🔹 آموزش‌دیده با بیش از ۲۰ تریلیون توکن + مراحل RL و فاین‌تیونینگ
🔹 بهترین عملکرد در بین مدل‌های تا ۴۰B، به‌خصوص در استدلال پیچیده، تولید کد و تسک‌های فرانت‌اند
🔹 معماری MoE با فعال‌سازی 1/32 پارامترها، به همراه تکنیک‌های پیشرفته مسیریابی و تعادل توجه
🔹 سرعت: تولید ۲۰۰+ توکن در ثانیه روی H20 (۳ برابر سریع‌تر از مدل‌های متراکم 36B)
🔹 پشتیبانی از کانتکست تا ۱۲۸K توکن (با YaRN)

#moe #llm #ml #ai #opensource

406 views16:11

اخبار هوش مصنوعی

🎉 مدل Qwen3-VL حالا در llama.cpp هم قابل استفاده است!

این یعنی می‌توانید مدل را مستقیماً روی سیستم خودتان اجرا کنید — با پشتیبانی از CPU، CUDA، Metal، Vulkan و سایر بک‌اندها. 🚀

📦 وزن‌های GGUF برای همه نسخه‌ها — از ۲B تا ۲۳۵B — در دسترس‌اند.
قابل اجرا به‌صورت آفلاین و بدون نیاز به سرویس‌های ابری یا اتصال خارجی.

🔗 لینک‌ها:

🔗 Hugging Face (مجموعه کامل مدل‌ها):
👉 https://huggingface.co/collections/Qwen/qwen3-vl
🔗 ModelScope (مدل‌ها و نسخه‌های مختلف):
👉 https://modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b
🔗 افزوده شدن Qwen3-VL به llama.cpp در GitHub (کد و جزئیات اجرا):
👉 https://github.com/ggerganov/llama.cpp/pull/16780

#Qwen3 #LLM

👍2

324 viewsedited 15:13

اخبار هوش مصنوعی

🚀 معرفی Gemma 4 12B؛ مدل چندوجهی جدید گوگل

مدل Gemma 4 12B از ورودی‌های متنی، صوتی و تصاویر استخراج‌شده از ویدئو پشتیبانی می‌کند.

🔹 حداکثر طول ویدئو: ۳۰ ثانیه
🔹 حداکثر طول فایل صوتی: ۶۰ ثانیه
🔹 دارای قابلیت استدلال (Reasoning)
🔹 پنجره متنی (Context Window) برابر با ۲۵۶ هزار توکن
🔹 منتشرشده تحت مجوز Apache 2.0

✨ نکته جالب این نسخه در اغلب مدل‌های چندوجهی، برای پردازش تصاویر و صدا به یک «انکودر» (Encoder) جداگانه نیاز است. اما در Gemma 4 12B این قابلیت با استفاده از پروجکشن‌های خطی ساده (Linear Projections) پیاده‌سازی شده است؛ روشی که به پارامترها و توان محاسباتی کمتری نیاز دارد.

📄 متأسفانه هنوز گزارش فنی (Technical Report) این مدل منتشر نشده است؛ بنابراین جزئیات نحوه آموزش این معماری جدید مشخص نیست. انتظار می‌رود همانند مدل بزرگ‌تر Gemma 4 124B در آینده اطلاعات بیشتری درباره آن منتشر شود.

#هوش_مصنوعی #Gemma #GoogleAI #LLM #Multimodal #AINews

379 viewsedited 14:25

اخبار هوش مصنوعی

🚀 انتشار GLM 5.2 با پنجره متنی یک میلیون توکنی

نسخه جدید GLM 5.2 منتشر شد و مهم‌ترین ویژگی آن، افزایش طول کانتکست به ۱ میلیون توکن است.

🧠 برای دستیابی به این پنجره متنی بسیار بزرگ، تغییراتی در معماری مدل اعمال شده است. این قابلیت به مدل اجازه می‌دهد اسناد بسیار طولانی، کدهای حجیم و مکالمات گسترده را به‌صورت یکجا پردازش کند.

📌 نکات مهم این نسخه:

طول کانتکست: ۱٬۰۰۰٬۰۰۰ توکن

مدل چند روزی بود که در سرویس اشتراکی در دسترس قرار داشت.

اکنون به‌صورت رسمی، پست فنی، وزن‌های مدل و دسترسی API نیز منتشر شده‌اند.

قیمت استفاده از API تغییری نکرده است.

💰 هزینه استفاده همچنان برابر است با:

۱٫۴ دلار برای هر یک میلیون توکن ورودی

۴٫۴ دلار برای هر یک میلیون توکن خروجی

🔓 همچنین وزن‌های مدل با مجوز MIT منتشر شده‌اند که امکان استفاده و توسعه آزادتر را برای پژوهشگران و توسعه‌دهندگان فراهم می‌کند.

⚡ با افزایش طول کانتکست به یک میلیون توکن، GLM 5.2 وارد رقابت مستقیم با مدل‌هایی شده که بر پردازش اسناد و حافظه طولانی‌مدت تمرکز دارند.

#هوش_مصنوعی #GLM #LLM #AI #OpenSource #MachineLearning #TechNews

158 viewsedited 10:34

اخبار هوش مصنوعی

🚀 انتشار Kimi K2.7 Code؛ سریع‌تر و بهینه‌تر برای برنامه‌نویسی

نسخه جدید Kimi K2.7 Code منتشر شد و طبق اعلام توسعه‌دهندگان، عملکرد آن در برنامه‌نویسی نسبت به نسخه قبلی بهبود یافته است.

💻 مهم‌ترین تغییرات این نسخه:

🔹 عملکرد بهتر در وظایف کدنویسی نسبت به K2.6
🔹 مصرف حدود ۳۰٪ توکن کمتر برای دستیابی به همان نتایج یا حتی نتایج بهتر
🔹 حفظ همان مجوز انتشار نسخه‌های قبلی

⚙️ این مدل همچنان دارای حدود یک تریلیون پارامتر است؛ موضوعی که میزبانی و اجرای آن روی سخت‌افزار شخصی را بسیار دشوار می‌کند و استفاده از زیرساخت‌های قدرتمند را ضروری می‌سازد.

📈 بهبود کیفیت کدنویسی همراه با کاهش مصرف توکن، می‌تواند هزینه استفاده از مدل را کاهش داده و بهره‌وری توسعه‌دهندگان را افزایش دهد.

🌐 انتشار این مدل بار دیگر نشان می‌دهد که مدل‌های متن‌باز و آزاد در حوزه هوش مصنوعی با سرعت زیادی در حال نزدیک شدن به مدل‌های تجاری و بسته هستند.

#هوش_مصنوعی #Kimi #Coding #LLM #OpenSource #Programing #AI #TechNews

173 viewsedited 10:38

About

Blog

Apps

Platform