Tensorflow(@CVision)
15.3K subscribers
1.29K photos
310 videos
81 files
2.53K links
اخبار حوزه یادگیری عمیق و هوش مصنوعی
مقالات و یافته های جدید یادگیری عمیق
بینایی ماشین و پردازش تصویر

TensorFlow, Keras, Deep Learning, Computer Vision

سایت:
http://class.vision

👨‍💻👩‍💻پشتیبان دوره ها:
@classvision_support

لینک گروه:
@tf2keras
Download Telegram
▪️ اشنایی با مقالات و منابع هوش مصنوعی و علوم پزشکی

@AI_DeepMind
3❤‍🔥1🔥1
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from DLeX: AI Python (NaviD DariYa)
مقایسه کوتاه Google A2A با MCP :

👉 @ai_python ✍️

https://youtube.com/shorts/Dxn1ku9nkRc?si=QOI1fBFdAmdS0ZrK
Please open Telegram to view this post
VIEW IN TELEGRAM
4❤‍🔥1🔥1
Media is too big
VIEW IN TELEGRAM
🌟 آموزش مدل‌های زبانی-تصویری (VLM) منتشر شد🎉


مدل‌های زبانی-تصویری (VLM) نسل جدیدی از مدل‌های مولد هستن که علاوه بر متن، تصویر رو هم می‌فهمن. یعنی می‌تونن عکس رو توصیف کنن، به سوال درباره‌ی محتواش جواب بدن و حتی بین متن و تصویر ارتباط برقرار کنن.

📚 در این دوره یاد می‌گیرید:

- ساختار و معماری مدل‌های VLM

- کاربردهای جذاب مثل پرسش‌وپاسخ تصویری و مولتی‌مودال

- نحوه‌ی آموزش و به‌کارگیری این مدل‌ها در پروژه‌های واقعی

🎁 تخفیف ویژه 70٪ با کد زیر:

COUPON-c4cd3

🔥 برای اطلاع از  کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆

🎓ما رو تو اینستاگرام هم دنبال کنید...

https://www.instagram.com/class.vision

🔗 مشاهده دوره:
https://mktb.me/e3gx/
5❤‍🔥1👍1🔥1
دنیایی از منابع برنامه‌نویسی توی این کانال بصورت دسته‌بندی شده با هشتگ بصورت روزانه قرار داده میشه.

@pythony
7❤‍🔥1🔥1
Forwarded from آموزش LLM و VLM
امروز نسخه سبکتر Qwen3-VL رو منتشر شد!

امروز، ۴ اکتبر ۲۰۲۵، تیم Qwen دو مدل جدید از خانواده Qwen3-VL رو منتشر کرد:
مدل Qwen3-VL-30B-A3B-Instruct
و Qwen3-VL-30B-A3B-Thinking
به‌همراه نسخه‌ی FP8 برای هر دو مدل که حجم و مصرف حافظه رو به‌طور قابل‌توجهی پایین میاره.

تا قبل از این، Qwen3-VL فقط مدل‌های خیلی سنگین داشت و عملاً نسخه‌ای سبک یا بهینه برای استفاده عمومی نداشت. حالا با این نسخه FP8 و تنظیمات جدید، بالاخره میشه مدل‌های Qwen3-VL رو راحت‌تر روی GPUهای معمولی هم بالا آورد.

🔹 نسخه Instruct بیشتر برای کارهای گفت‌وگومحور و دستورمحور طراحی شده.
🔹 نسخه Thinking روی استدلال پیچیده و فهم عمیق‌تر تصویر و ویدیو تمرکز داره.

هر دو مدل از فهم متن و تصویر پشتیبانی می‌کنن، OCR قوی دارن (تا ۳۲ زبان)، و حتی می‌تونن از روی تصویر کد HTML یا JS بسازن!
پشتیبانی از context طولانی (تا ۱ میلیون توکن) هم داره — چیزی که برای پروژه‌های چندرسانه‌ای واقعاً غنیمته.

📦 https://github.com/QwenLM/Qwen3-VL
👍121❤‍🔥1🔥1
بابا منظورم به زبان فارسی بوده. وقتی کد میفرستم چرا از ادبیات آزمون باید طرح کنه😐😩
👀13🤯32❤‍🔥11🤔1
دیاگرام بکشید، هوش مصنوعی کدش رو بزنه:

AgentKit

thenewstack.io/openai-launches-a-no-code-agent-builder

محصول جدید OpenAI، یعنی AgentKit، یک ابزار سازنده ایجنت بدون کد است که به توسعه‌دهندگان و شرکت‌ها امکان ساخت و استقرار سریع سیستم‌های چند ایجنتی را می‌دهد.
همچنین، Apps in ChatGPT به کاربران اجازه می‌دهد تا برنامه‌های شخص ثالث، مانند Zillow، را مستقیماً از طریق رابط چت‌جی‌پی‌تی فراخوانی و با آنها تعامل داشته باشند.
8❤‍🔥2👍21
انقلاب سامسونگ در هوش مصنوعی: مدل ۷ میلیونی که غول‌ها را شکست داد

فرانسیس شوله اینجا،  این رو بازنشر کرده بود:

https://fixupx.com/jacksonatkinsx/status/1975556245617512460?s=12


وقتی این مقاله را خواندم مغزم هنگ کرد.

یک مدل خیلی کوچک با تنها ۷ میلیون پارامتر همین الان در آزمون‌های استدلال روی هر دو مجموعه ARG-AGI 1 و ARC-AGI 2، از DeepSeek-R1، Gemini 2.5 pro و o3-mini جلو زد.

اسمش Tiny Recursive Model (TRM) از سامسونگ است.

چطور مدلی که ۱۰٬۰۰۰ برابر کوچکتر است می‌تواند باهوش‌تر باشد؟

نحوه کارش این‌طور است:

نوشتن یک پاسخ اولیه: برخلاف یک مدل زبان بزرگ (LLM) که کلمه‌به‌کلمه تولید می‌کند، TRM ابتدا یک «پیش‌نویس» سریع و کامل از راه‌حل تولید می‌کند. این را می‌توان اولین حدس خام آن دانست.

خلق یک «اسکراچ‌پد (scratchpad)»: سپس فضایی جداگانه برای افکار درونی‌اش می‌سازد — یک «اسکراچ‌پد» استدلال نهفته. اینجا است که جادوی واقعی رخ می‌دهد.

خودانتقادی شدید: مدل وارد یک حلقهٔ درونی شدید می‌شود. پیش‌نویسش را با مسئلهٔ اصلی مقایسه می‌کند و بارها و بارها (۶ بار پشت‌سرِ هم) استدلالش را در اسکرچ‌پد تصحیح می‌کند و از خودش می‌پرسد «آیا منطق من درست است؟ خطاها کجا هستند؟»

بازنویسی پاسخ: پس از این «تفکر» متمرکز، از منطق بهبود یافتهٔ موجود در اسکرچ‌پد استفاده می‌کند تا یک پیش‌نویس کاملاً جدید و بسیار بهتر از پاسخ نهایی بسازد.

تکرار تا رسیدن به اطمینان: کل فرایند — پیش‌نویس، تفکر، اصلاح — تا ۱۶ بار تکرار می‌شود. هر چرخه مدل را به حلِ مسئله‌ای صحیح‌تر و منطقی‌تر نزدیک‌تر می‌کند.

چرا این مهم است:

رهبران کسب‌وکار: این همان چیزی است که برتری الگوریتمی (algorithmic advantage) به نظر می‌رسد. در حالی که رقبا برای مقیاس‌بندی خام هزینه‌های عظیمی در فرایند inference می‌پردازند، یک مدل هوشمندتر و کارآمدتر می‌تواند عملکرد بهتر را با کسری از هزینه ارائه دهد.

پژوهشگران: این تأیید مهمی برای ایده‌های نوروسیمبولیک (neuro-symbolic) است. توانایی مدل در «تفکر» بازگشتی (recursively) پیش از «عمل»، نشان می‌دهد که معماری، نه صرفاً مقیاس، می‌تواند محرک اصلی قابلیت استدلال باشد.

عملی‌کنندگان: استدلال در سطح SOTA (state-of-the-art) دیگر پشت خوشه‌های GPU میلیارد دلاری قفل‌شده نیست. این مقاله یک نقشه‌راه بسیار کارآمد و کم‌پارامتر برای ساخت سامانه‌های استدلالی (reasoners) تخصصی فراهم می‌کند که می‌توانند در هر جا اجرا شوند.

این فقط کوچک‌سازیِ مقیاس نیست؛ این یک روش کاملاً متفاوت و هدفمندتر برای حل مسائل است.



@cvision
@llm_huggingface
🤯2718👍4👌3❤‍🔥2
Forwarded from آموزش LLM و VLM
Media is too big
VIEW IN TELEGRAM
🌟 مدل‌های زبانی-تصویری (VLM)| مدرس: علیرضا اخوان‌پور

مدل‌های زبانی-تصویری (VLM) نسل جدیدی از مدل‌های مولد هستن که علاوه بر متن، تصویر رو هم می‌فهمن. یعنی می‌تونن عکس رو توصیف کنن، به سوال درباره‌ی محتواش جواب بدن و حتی بین متن و تصویر ارتباط برقرار کنن.

📚 در این دوره یاد می‌گیرید:

- ساختار و معماری مدل‌های VLM

- کاربردهای جذاب مثل پرسش‌وپاسخ تصویری و مولتی‌مودال

- نحوه‌ی آموزش و به‌کارگیری این مدل‌ها در پروژه‌های واقعی

🔗 مشاهده دوره:
https://mktb.me/e3gx/

کد تخفیف 70 درصدی دوره جدید VLM


COUPON-c4cd3


——————————————

🎁همچنین به عنوان پیش نیاز با 70 درصد تخفیف ویژه به مدت محدود دوره محبوب و پرفروش LLM را نیز میتوانید با کد زیر تهیه کنید.


COUPON-c2e42


https://mktb.me/04dr/

حتما موقع استفاده تیک دسترسی کامل را بردارید، اگر قبلا در سبد خرید بوده حذف کرده و مجدد با برداشتن این تیک به سبد خرد خود اضافه کنید.

~~~
کانال تلگرامی دوره
@llm_huggingface
7❤‍🔥1👍1
امروزه LLMها دیگر فقط متن نمی‌فهمند؛ آن‌ها می‌توانند داده‌های چندرسانه‌ای مثل صدا، تصویر و متن را پردازش کنند و عملکردی فراتر از مدل‌های تخصصی ارائه دهند. ولی هنوز مشکل بزرگشان این است که نمی‌توانند سری‌های زمانی (Time Series) را به‌خوبی تحلیل کنند.

حالا OpenTSLM این محدودیت را رفع می‌کند: این مدل زبان بزرگ، سری‌های زمانی پزشکی چندمتغیره را به‌عنوان ورودی می‌پذیرد و می‌تواند روی آن‌ها استدلال کند، توضیح بدهد و نتایج را به زبانخوشح طبیعی ارائه کند، برای مثال در تشخیص فعالیت انسانی، تحلیل خواب، پاسخ به سؤالات ECG و تولید توضیحات سری‌های زمانی.

خلاصه: OpenTSLM، LLM مخصوص سری‌های زمانی پزشکی است که همزمان چند سری را پردازش و نتایج قابل فهم برای انسان تولید می‌کند. قاعدتا توقع میره روی داده های بورس و کریپتو و ... هم بشه فاین تیون کرد

این مدل توسط تیمی بین‌رشته‌ای از دانشگاه استنفورد، ETH زوریخ، گوگل ریسرچ توسعه داده شده است.

https://github.com/StanfordBDHG/OpenTSLM
25👍6🤯3❤‍🔥2
Forwarded from آموزش LLM و VLM
دوره MCP هاگینگ فیس منتشر شد

https://huggingface.co/learn/mcp-course/
11
یکی از دوستان برای پروژه ای نیاز به جمع آوری اطلاعاتی دارد، ممنون میشم کمک کنید:

درود و مهر

برای یک پروژه‌ی پژوهشی در زمینه‌ی «تشخیص همدلی در گفتگوهای فارسی» به کمکتون نیاز دارم.

لطفاً چند دقیقه وقت بذارید و به ۲۰ موقعیت کوتاهی که در این پرسشنامه هست، یک پاسخ «واقعی و طبیعی» بدید. (انگار که واقعاً اون جمله رو از یک دوست شنیدید و می‌خواید جوابش رو تایپ کنید).

پاسخ‌ها کاملاً ناشناس جمع‌آوری می‌شن.

هدف ما جمع‌آوری پاسخ‌های «انسانی» و «واقعی» هست، پس لطفاً رسمی یا کتابی جواب ندید.

ممنون از وقتی که می‌ذارید. 🙏

https://forms.gle/iUAfLpPmHNYz9Tfj6
6❤‍🔥1
Forwarded from آموزش LLM و VLM
تیم DeepSeek دوباره ترکوند! این‌بار با مدل متن‌باز DeepSeek-OCR که نه‌تنها OCR فوق‌دقیقیه، بلکه با فناوری جدیدش به نام Context Optical Compression می‌تونه ورودی‌ها رو تا ۱۰ برابر فشرده‌تر به مدل‌های زبانی بده — بدون افت دقت! 🔥

کاربردها:

استخراج متن از عکس، اسکرین‌شات و PDF

تبدیل PDF به Markdown یا HTML با حفظ جداول و ساختار

خلاصه‌سازی و تحلیل اسناد طولانی

استخراج داده از فاکتورها و فرم‌ها

پرسش‌وپاسخ درباره محتوای تصویر یا سند


🏆 دستاوردهای کلیدی:

فشرده‌سازی هوشمند زمینه (Context Compression)

دقت بالاتر از Donut و TrOCR

پشتیبانی از رزولوشن پویا برای اسناد بزرگ



🔗 deepseek.ai/blog/deepseek-ocr-context-compression


🔗https://huggingface.co/deepseek-ai/DeepSeek-OCR


#AI #OCR #DeepSeek #LLM #OpenSource
21❤‍🔥2👍1
پرسشنامه پروژه یکی از همراهان کانال،
اگر صلاح دونستید کمک‌کنید

سلام 👋
ما یه تیم دانشجویی هستیم که روی «تجربه و رفتار خرید کاربران» کار می‌کنیم.
پر کردن این پرسشنامه کمتر از سه دقیقه زمان می‌بره ⏱️
پاسخ‌هاتون به ما کمک می‌کنه تا نتایج تحقیق دقیق‌تر و مفیدتر باشه 🌱

ممنون از وقتی که می‌ذارید 💛 🙏🏼

https://survey.porsline.ir/s/N8qRLxby