Tensorflow(@CVision)
15.3K subscribers
1.29K photos
310 videos
81 files
2.53K links
اخبار حوزه یادگیری عمیق و هوش مصنوعی
مقالات و یافته های جدید یادگیری عمیق
بینایی ماشین و پردازش تصویر

TensorFlow, Keras, Deep Learning, Computer Vision

سایت:
http://class.vision

👨‍💻👩‍💻پشتیبان دوره ها:
@classvision_support

لینک گروه:
@tf2keras
Download Telegram
اگر شما در توسعه وب یا فرانت‌اند یا فول‌استک کار می‌کنید، این می‌تواند خبری خوب باشد که می‌توانید بدون خروج از حوزه JavaScript، وارد دنیای ML شوید؛
چون JavaScript دارد نقش بزرگ‌تری در حوزه یادگیری ماشین پیدا می‌کند، مخصوصاً برای محیط‌های کلاینت وب...

زبان Python هنوز در میدان یادگیری ماشین سلطه دارد، ولی به این دلیل نیست که به‌صورت ذاتی بهترین است، بلکه به خاطر این است که محیطِ کتابخانه‌ها (مثل NumPy، Pandas) و پشتیبانی شرکت‌ها بسیار خوب بوده، اما JavaScript به منظور باز کردنِ فرصت‌هایی جدید و اجرای مدل‌ها در مرورگر، دارد، وارد عرصهٔ یادگیری ماشین می‌شود.

اجرای مدل‌ها در سمت کاربر، می‌تواند مزایایی از لحاظ حریم خصوصی، تأخیر کمتر، نیاز کمتر به اتصال شبکه فراهم کند؛ مثلا، داده‌های حساس، دیگر لازم نیست، حتماً به سرور فرستاده شوند.

thenewstack.io/the-rise-of-javascript-in-machine-learning
👍6🤔32
🚀 Supercharge your OCR Pipelines with Open Models

📚 تیم Hugging Face توی آخرین بلاگش یه مرور عالی روی مدل‌های open-source OCR منتشر کرده.
از مدل‌های معروف مثل PaddleOCR گرفته تا مدل‌های جدیدتر مثل OlmOCR و Chandra،
همه بررسی شدن و نشون داده شده چطور می‌شه با fine-tune یا ترکیب Vision-Language Model‌ها
به دقت بالاتر و performance بهتر رسید.

💡 اگر روی taskهایی مثل document understanding، table extraction یا visual QA کار می‌کنین،
این پست پر از insightهای کاربردی برای انتخاب و deploy مدل‌های مناسب هست.

📎 لینک مطلب:
👉 huggingface.co/blog/ocr-open-models
👍125🔥5
Forwarded from آموزش LLM و VLM
This media is not supported in your browser
VIEW IN TELEGRAM
مدل‌های VLM (Vision-Language Model) فقط تصویر و زبان رو ترکیب می‌کنن و هدفشون درک یا توضیح صحنه‌هاست.
اما VLA (Vision-Language-Action)ها یه قدم جلوترن — اون‌ها علاوه بر دیدن و فهمیدن، اقدام هم می‌کنن؛ یعنی می‌تونن در محیط واقعی تصمیم بگیرن و عمل کنن.

🔹 تازه‌ترین نمونه این دسته، مدل GigaBrain-0 هست:
مدلی پایه‌ای برای ربات‌های هوشمند که با استفاده از داده‌های ساخته‌شده توسط world model (مثل ویدیوهای مصنوعی، انتقال از انسان یا شبیه‌ساز به واقعیت) یاد می‌گیره.
به لطف این روش، دیگه لازم نیست حجم زیادی داده واقعی از ربات‌ها جمع‌آوری بشه.

📈 نتیجه:

تعمیم بهتر بین وظایف مختلف

عملکرد قوی‌تر در کارهای پیچیده و بلندمدت

تصمیم‌گیری پایدارتر

نسخه سبک‌ترش، GigaBrain-0-Small هم برای سخت‌افزارهایی مثل NVIDIA Jetson AGX Orin بهینه شده.

💡 خلاصه: GigaBrain-0 گام بزرگیه به سمت ربات‌هایی که مثل انسان می‌بینن، می‌فهمن و عمل می‌کنن.

https://huggingface.co/open-gigaai

#vla #vlm
11❤‍🔥2
Forwarded from آموزش LLM و VLM
اینم یکی از همراهان عزیز کانال تو نظرات پست قبلی معرفی کرده

AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning

https://autovla.github.io/

#vla
10👍2
🎉 فقط ۳ روز دیگه (۴ نوامبر) تولد ۹ سالگی کاناله!
به همین مناسبت، تخفیف‌های ویژه روی همه دوره‌ها در راهه 😍
هم دوره‌های کلاس‌ویژن و هم مکتب‌خونه 🔥
منتظر باشید! 💫
32
This media is not supported in your browser
VIEW IN TELEGRAM
🎉🎂 تولد ۹ سالگی کانال Tensorflow مبارک! 🎂🎉
به مناسبت این اتفاق خاص، براتون یه تخفیف فوق‌العاده در نظر گرفتیم 👇

🔥 ۷۰٪ تخفیف روی همه دوره‌ها
💥 و ۱۰۰٪ تخفیف (رایگان!) برای دوره یادگیری ماشین

📚 دوره‌ها در مکتب‌خونه:

* 🤖 دوره یادگیری ماشین — کد تخفیف: happy9-ml
* 🧠 دوره دیپ‌لرنینگ — کد تخفیف: happy9-dl
* 🦙 دوره LLM — کد تخفیف: happy9-llm
* 👁 دوره OpenCV — کد تخفیف: happy9-opencv
* 📸 دوره Vision-Language Models (VLM) — کد تخفیف: happy9-vlm

🎓 همچنین تمامی دوره‌های کلاس‌ویژن (از مقدمات تا GNN!)
در دسترس شماست با ۷۰٪ تخفیف
🔗 https://class.vision/
کد تخفیف: haapy9

فقط تا 22 آبان! فرصت رو از دست نده و با این تخفیف ویژه شروع کن 🚀
28🔥32👍1
9 سال پیش در چنین روزی کانال تنسرفلو ایجاد شد...
🔥7417👀3😱2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🎉🎂 تولد ۹ سالگی کانال Tensorflow مبارک! 🎂🎉
به مناسبت این اتفاق خاص، براتون یه تخفیف فوق‌العاده در نظر گرفتیم 👇

🔥 ۷۰٪ تخفیف روی همه دوره‌ها
💥 و ۱۰۰٪ تخفیف (رایگان!) برای دوره یادگیری ماشین

📚 دوره‌ها در مکتب‌خونه:

* 🤖 دوره یادگیری ماشین — کد تخفیف: happy9-ml
* 🧠 دوره دیپ‌لرنینگ — کد تخفیف: happy9-dl
* 🦙 دوره LLM — کد تخفیف: happy9-llm
* 👁 دوره OpenCV — کد تخفیف: happy9-opencv
* 📸 دوره Vision-Language Models (VLM) — کد تخفیف: happy9-vlm

🎓 همچنین تمامی دوره‌های کلاس‌ویژن (از مقدمات تا GNN!)
در دسترس شماست با ۷۰٪ تخفیف
🔗 https://class.vision/
کد تخفیف: haapy9

فقط تا 22 آبان! فرصت رو از دست نده و با این تخفیف ویژه شروع کن 🚀
10❤‍🔥1👏1😱1
🧠 Gemini 2.5 Computer Use
هوش مصنوعی پشت موس و کیبورد!

گوگل دیپ‌مایند مدل جدیدی از خانواده Gemini معرفی کرده که می‌تونه مستقیماً با رابط‌های کاربری کار کنه، یعنی خودش کلیک کنه، تایپ کنه، اسکرول کنه و از طریق مرورگر یا موبایل، کاربر رو در محیط واقعی نرم‌افزار شبیه‌سازی کنه.

این مدل با ابزار جدید computer_use در Gemini API عرضه شده و با دریافت اسکرین‌شات و دستور کاربر، اقدام بعدی رو پیش‌بینی می‌کنه. فعلاً تمرکز روی کنترل مرورگر و اپ‌های موبایل هست، اما به‌زودی دامنه‌اش گسترده‌تر می‌شه.

💡 در بنچ‌مارک‌های Web و Android، Gemini 2.5 عملکرد بهتری از مدل‌های قبلی نشون داده و از نظر ایمنی هم سیستم تأیید اقدامات حساس رو داره.
🔧 فعلاً در مرحله‌ی پیش‌نمایش (Preview) از طریق Google AI Studio و Vertex AI در دسترسه.

📎 جزئیات بیشتر در وبلاگ رسمی گوگل:
🔗 blog.google 🔗

🌀 @cvision 🌀
🔥12😱41
ایشون ‏یه آزمایش انجام داده برای اینکه ببینه بین مدل‌های هوش مصنوعی معروف کی از همه بهتر ادبیات فارسی رو می‌فهمه.
‏یه دیتاست از ۵۰۰ تا تست کنکور قرابت معنایی ساخته و از ۳۰ تا مدل مختلف امتحان گرفته. نتایجش جالب شده!

توییت:
https://x.com/itsarmanj/status/1987644551842955572

کد:
https://github.com/ArmanJR/Persian-Poetry-Semantic-Similarity-Benchmark
25👍8🔥7👏1
Forwarded from آموزش LLM و VLM
🔥 یه انقلاب عجیب تو دنیای وب شروع شده!
تا حالا فکر کردید هوش مصنوعی رو بدون هیچ سرور و هیچ فریم‌ورکی، تنها تو مرورگر اجرا کنید؟ 😱

🎯 قابلیت‌ PromptAPI‌ و مدل‌های SLM (LLMهای کوچک) دارن رسماً راه رو برای یه نسل جدید از اپلیکیشن‌های هوشمند باز می‌کنن!

🧠 مرورگرهای جدید مثل Chrome و Edge الآن به صورت نیتیو از مدل‌های زبانی پشتیبانی می‌کنن! یعنی فقط با ۵ خط کد جاوااسکریپت ساده می‌تونی یه چت‌بات، مترجم، خلاصه‌ساز، تحلیل‌گر متن یا هر ابزار هوشمند دیگه بسازی — اونم بدون فرستادن حتی یک بایت به سرور! 😳

چرا باید همین الآن یادش بگیری؟ 👇

⚡️ هیچ دیتایی به هیچ سروری نمی‌ره — همه‌چی لوکال روی دستگاه خود کاربر
🔐 پرایوسی در اوج — حتی آفلاین هم کار می‌کنه!
💡 هیچ لایبرری لازم نیست؛ خود JS و مرورگر این قابلیت رو دارن
🌍 استاندارد شده توسط W3C و قرار آینده Web Development رو تغییر بده
🛠 ساخت اپ‌های هوش مصنوعی فقط با HTML + JS
🤖 خروجی‌هات رو می‌تونی قالب‌دار و قابل کنترل تحویل بگیری

💥 اگه وب دولوپری و اینو بلد نیستی، جدی به فکر یه آپدیت بزرگ باش!
😎 اگه وب کار نیستی هم نیستی هم عاشقش میشی چون به معنی واقعی کلمه فقط با یک فایل index.html می‌تونی یه مدل زبان داشته باشی 🤯

📚 خبر خوب!

همین هفته یه مینی‌دوره‌ی ۳ ساعته در مورد همین موضوع منتشر میشه!
📘 حتی اگه جاوااسکریپت بلد نیستی، یه فصل 0 (مقدمه JS) برای مبتدی‌ها داریم
🔁 اگه بلدی — مستقیم می‌ری سراغ ساخت و تجربه‌اش!

📍 برای شروع فقط لازمه:

یه مرورگر آپدیت‌شده (Chrome یا Edge)

یه سیستم نسبتا خوب (حتی اگر کارت گرافیک نداری با CPU خوب)

یه فایل index.html

پنج خط کد ساده برای فراخوانی مدل زبانی 🤯

🧪 چی می‌تونی بسازی؟

چت‌بات تو بلاگ بدون بک‌اند

درک تصویر و OCR و تحلیل تصویر فقط تو مرورگر

مترجم، خلاصه‌ساز، 🎭 تحلیل‌گر احساس

اپ‌های آفلاین با هوش مصنوعی

ابزارهای آموزشی تعاملی


اگر می‌خوای جزو اولین کسایی باشی که این قابلیت رو یاد می‌گیرن، منتظر انتشار دوره باش...
10🔥8
Forwarded from آموزش LLM و VLM
This media is not supported in your browser
VIEW IN TELEGRAM
این یکی از خفن‌ترین دموهای Hugging Face توی این روزهاست: «کنترل دوربین» که با LoRA روی مدل Qwen Image Edit آموزش داده شده 🤯

👀 چی کار می‌کنه؟
کافیه یه تصویر آپلود کنی، بعد می‌تونی با چند تا کلیک، زاویه دوربین رو عوض کنی و یه صحنه کاملاً جدید بسازی!
از چرخوندن دوربین به چپ و راست گرفته تا جلو رفتن، زوم کردن، یا حتی تغییر زاویه نگاه از دید پرنده تا دید کرم‌ (bird’s-eye / worm’s-eye) – همه‌ش با یه کلیک!

🎯 این یعنی چی؟
یه ویژگی بی‌نظیر اضافه شده: کنترل کامل زاویه دوربین توی مدل‌های ویرایش تصویر.
یه چیزی که حتی Google Nano Banana هنوز نداره!

🔧 تکنیک LoRA چیه؟
همون طور که تو فصل 4 کورس LLM دیدیم LoRA یا Low-Rank Adaptation یه تکنیکیه که فقط بخش کوچیکی از پارامترهای مدل رو آموزش میده، بدون اینکه کل مدل از صفر آموزش داده بشه.
اینجا هم LoRA روی مدل Qwen Image Edit بدون نیاز به آموزش دوباره کل مدل استفاده کردن

⚡️ نکته باحال:
این پروژه از نسخه‌ای بهینه به نام Rapid-AIO استفاده می‌کنه که سرعت پردازش رو خیلی بالا برده — خروجی رو فقط تو چهار مرحله می‌گیری!

پست مرتبط در توئیتر | دمو در هاگینگ فیس
🤯74👍3👀2
اگه تا حالا خبرشو ندیدید، متا یه مدل جدید تشخیص گفتار (ASR) منتشر کرده که واقعاً ترکونده! 🤯
مدل Meta OmniLingual ASR با پشتیبانی از بیش از ۱۶۰۰ زبان، حتی زبان‌های خیلی کمیاب، یه چیز خاصه!

تو تست های زبان فارسی هم قابل قبوله،
می‌تونید باهاش کلی پروژه خفن بسازید: از زیرنویس‌های چندزبانه گرفته تا ...

🔗 پروژه : github.com/facebookresearch/omnilingual-asr

🎧 دیتاست هم منتشر کردند...
#Meta #OmniLingualASR #SpeechRecognition #AI
🔥87👍1
Forwarded from آموزش LLM و VLM
This media is not supported in your browser
VIEW IN TELEGRAM
🎓 مینی دوره: ساخت هوش مصنوعی شخصی در مرورگر

https://mktb.me/5kkw/

تو این مینی دوره یاد می‌گیری چطور یک Local LLM و حتی VLM رو مستقیم تو مرورگر اجرا و شخصی‌سازی کنی—بدون نیاز به سرور، پردازش ابری، فریم‌ورک یا لایبری اضافی!

💡 آنچه یاد می‌گیرید:

- اصول پایه‌ای جاوااسکریپت برای کار با مدل‌های AI در مرورگر
- کار با Prompt API برای مدیریت و کنترل پاسخ‌های مدل
- شخصی‌سازی خروجی با Initial Prompts و JSON Schema
- پیاده‌سازی VLM برای تحلیل تصاویر و OCR

📌 سرفصل‌ها:

راه اندازی Local LLM در مرورگر

شروع کار با Prompt API

نکات تکمیلی Prompt API

استفاده از Prompt Streaming یا پاسخ‌دهی هم‌زمان Local LLM

متوقف کردن پاسخ‌دهی Local LLM با Aborting

پاک کردن حافظه Local LLM

اختصاصی‌سازی خروجی با Initial Prompts

اختصاصی‌سازی خروجی با JSON Schema

پیاده‌سازی VLM یا تحلیل تصاویر در Google Chrome

سایر APIها و راهنمای ادامه مسیر

🚀 آماده‌ای مهارتت در ساخت هوش مصنوعی شخصی رو یک پله بالاتر ببری؟

https://mktb.me/5kkw/


کد تخفیف 60 درصدی ویژه انتشار مینی دوره:

COUPON-35715


سایت دوره:
https://jsai.ir/
13👍3🔥3🤔1
Forwarded from آموزش LLM و VLM
Media is too big
VIEW IN TELEGRAM
🎓 مینی دوره: ساخت هوش مصنوعی شخصی در مرورگر

https://mktb.me/5kkw/

تو این مینی دوره یاد می‌گیری چطور یک Local LLM و حتی VLM رو مستقیم تو مرورگر اجرا و شخصی‌سازی کنی—بدون نیاز به سرور، پردازش ابری، فریم‌ورک یا لایبری اضافی!

💡 آنچه یاد می‌گیرید:

- اصول پایه‌ای جاوااسکریپت برای کار با مدل‌های AI در مرورگر
- کار با Prompt API برای مدیریت و کنترل پاسخ‌های مدل
- شخصی‌سازی خروجی با Initial Prompts و JSON Schema
- پیاده‌سازی VLM برای تحلیل تصاویر و OCR

📌 سرفصل‌ها:

راه اندازی Local LLM در مرورگر

شروع کار با Prompt API

نکات تکمیلی Prompt API

استفاده از Prompt Streaming یا پاسخ‌دهی هم‌زمان Local LLM

متوقف کردن پاسخ‌دهی  Local LLM با Aborting

پاک کردن حافظه Local LLM

اختصاصی‌سازی خروجی با Initial Prompts

اختصاصی‌سازی خروجی با JSON Schema

پیاده‌سازی VLM یا تحلیل تصاویر در Google Chrome

سایر APIها و راهنمای ادامه مسیر

🚀 آماده‌ای مهارتت در ساخت هوش مصنوعی شخصی رو یک پله بالاتر ببری؟

https://mktb.me/5kkw/


کد تخفیف 60 درصدی ویژه انتشار مینی دوره:


COUPON-35715


سایت دوره:
https://jsai.ir/
9👍1
دنیایی از منابع برنامه‌نویسی توی این کانال بصورت دسته‌بندی شده با هشتگ بصورت روزانه قرار داده میشه.

@pythony
👍6🔥1
Forwarded from آموزش LLM و VLM
یه نفر رفته system prompt‌های پشت‌پردهٔ کلی ابزار و چت‌بات معروف رو از طریق یه leak بزرگ پیدا کرده و همشو منتشر کرده!
الان یک ریپو تو گیت‌هاب هست که عملاً تبدیل شده به آرشیوی از مغزِ واقعی ابزارهای هوش مصنوعی — از Cursor و Devin گرفته تا Claude، Replit، Perplexity و ده‌ها ابزار دیگه.
اگه می‌خواید ببینید این ابزارها پشت صحنه چه قوانین، چه نقش‌ها و چه پرامپت‌هایی دارن، این ریپو واقعاً مثل گنج می‌مونه.
حتی می‌تونید برای طراحی agent یا پرامپت‌هاتون ازش ایده بگیرید.


https://github.com/x1xhlol/system-prompts-and-models-of-ai-tools
👏14🔥61
Forwarded from آموزش LLM و VLM
تشخیص اشیا با Qwen3-VL به روش open vocabulary!

پرامپت: «person between albert and marie»
(فرد بین آلبرت و ماری)

مدل باید نام‌های «albert» و «marie» را در این عکس به آلبرت اینشتین و ماری کوری نگاشت کند، چهره‌ها و جایگاه آن‌ها را تشخیص دهد و مفهوم «بین» را درست تفسیر کند تا فرد صحیح را پیدا کند.

کتابخانه Supervision از گروه roboflow کار با مدل‌های چندوجهی (VLMها) را به این منظور ساده‌تر می‌کند. شما متن را پردازش می‌کنید، آن را به یک فرمت آشنا مثل باکس‌های تشخیص تبدیل می‌کنید و نتیجه را به‌صورت بصری نمایش می‌دهید.

TARGET = "person between albert and marie"

image = Image.open(IMAGE).convert("RGB")
response = qwen_detect(image, TARGET)

detections = sv.Detections.from_vlm(
vlm=sv.VLM.QWEN_3_VL,
result=response,
resolution_wh=image.size
)



کتابخانه Supervision از مدل‌های دیگر مثل Qwen-VL، Google Gemini و DeepSeek-VL و ... پشتیبانی می‌کند.

نوت بوک:

https://github.com/Alireza-Akhavan/LLM/blob/main/open_vocabulary_object_detection_with_qwen3_vl.ipynb

همین امروز یادگیری VLM را شروع کنید.
11👍7🔥2