هوش مصنوعی و علم داده به فارسی

‏🎯 مدل یکپارچه برای وظایف مختلف مکان‌یابی

‏مدل "Locate Anything" انویدیا، یک چارچوب یکپارچه مبتنی بر مدل‌های بینایی-زبان (vision-language models) است که طیف وسیعی از وظایف مکان‌یابی را پوشش می‌دهد. این وظایف شامل درک اسناد (document understanding)، مکان‌یابی عناصر رابط کاربری گرافیکی (GUI grounding)، تشخیص متراکم (dense detection) و تشخیص نوری کاراکتر (OCR) می‌شود.

‏🔗 Locate Anything Repo
‏📄 Diverse localization tasks under a unified vision-language model

📊 Data➕Science 🇮🇷 — هوش مصنوعی و علم داده به فارسی
📩 ارتباط با ما

#مقاله #ComputerVision

330 views07:04

هوش مصنوعی و علم داده به فارسی

‏🖼️ درک CNNها از تصویر

‏📌 شبکه‌های کانولوشن (CNN) تصاویر را از طریق تنسورهای ورودی، فیلترهای یادگیری‌شده، و نقشه‌های ویژگی (feature maps) پردازش می‌کنند؛ stride و padding برای تنظیم اندازه خروجی و حفظ اطلاعات مرزی استفاده می‌شوند. کانال‌ها (channels) عمق اطلاعات را نشان می‌دهند، در حالی که pooling به‌صورت فضایی ابعاد را کاهش و مقاومت در برابر تغییر مقیاس را افزایش می‌دهد. مفهوم receptive field (محدوده درک) به‌صورت ذهنی توضیح می‌دهد که هر نورون به چه میزان از پیکسل‌های ورودی واکنش نشان می‌دهد.

‏

📊 Data➕Science 🇮🇷 — هوش مصنوعی و علم داده به فارسی
📩 ارتباط با ما

#آموزش #ComputerVision

❤1

385 views19:36

About

Blog

Apps

Platform