شرکت Ultralytics مدل بنیادین YOLO-World که یک OVD یا Open-Vocabulary Detector است، را معرفی کرد.
این مدل، مبتنی بر YOLOv8 است و نیاز به کلاسهای ازپیش تعریفشده برای تشخیص ندارد، بلکه میتواند بهصورت Zero-shot این کلاسها را درقالب یک پرامپت متنی، هنگام inference دریافت کرده و در تصویر پیدا کند. مثلا در ورودی به آن میگویید: “حیوان جوندهی کوچک به رنگ سفید که نامش موش است را پیدا کن”
این پرامپت توسط مدل OpenAI CLIP به بردار تعبیه تبدیل شده و به کمک مدل YOLOv8 در تصویر پیدا میشود.
این مدل در مقایسه با مدلهای بنیادین دیگر مثل SAM فیسبوک و Grounding DINO بسیار سادهتر است و بنابراین میتوان به راحتی از آن برای اپلیکیشنهای real-time استفاده کرد.
استفاده از این مدل بهسادگی استفاده از Ultralytics YOLOv8 است.
https://docs.ultralytics.com/models/yolo-world/
مقاله:
https://arxiv.org/abs/2401.17270
نوتبوک:
https://supervision.roboflow.com/develop/notebooks/zero-shot-object-detection-with-yolo-world/
این مدل، مبتنی بر YOLOv8 است و نیاز به کلاسهای ازپیش تعریفشده برای تشخیص ندارد، بلکه میتواند بهصورت Zero-shot این کلاسها را درقالب یک پرامپت متنی، هنگام inference دریافت کرده و در تصویر پیدا کند. مثلا در ورودی به آن میگویید: “حیوان جوندهی کوچک به رنگ سفید که نامش موش است را پیدا کن”
این پرامپت توسط مدل OpenAI CLIP به بردار تعبیه تبدیل شده و به کمک مدل YOLOv8 در تصویر پیدا میشود.
این مدل در مقایسه با مدلهای بنیادین دیگر مثل SAM فیسبوک و Grounding DINO بسیار سادهتر است و بنابراین میتوان به راحتی از آن برای اپلیکیشنهای real-time استفاده کرد.
استفاده از این مدل بهسادگی استفاده از Ultralytics YOLOv8 است.
https://docs.ultralytics.com/models/yolo-world/
مقاله:
https://arxiv.org/abs/2401.17270
نوتبوک:
https://supervision.roboflow.com/develop/notebooks/zero-shot-object-detection-with-yolo-world/
👍12😍1
Forwarded from Tensorflow(@CVision) ((◕‿◕))
مدل متن به ویدیو OpenAI معرفی شد!
این مدل که اسمش Sora هست میتونه ویدیوهایی به طول یک دقیقه تولید کنه!
http://openai.com/sora
https://x.com/sama/status/1758193609927721350?s=46
https://x.com/model_mechanic/status/1758196079663988823?s=46
https://x.com/gdb/status/1758193811489243408?s=46
https://x.com/mkbhd/status/1758200479224410420?s=46
https://x.com/sama/status/1758218820542763012?s=46
این مدل که اسمش Sora هست میتونه ویدیوهایی به طول یک دقیقه تولید کنه!
http://openai.com/sora
https://x.com/sama/status/1758193609927721350?s=46
https://x.com/model_mechanic/status/1758196079663988823?s=46
https://x.com/gdb/status/1758193811489243408?s=46
https://x.com/mkbhd/status/1758200479224410420?s=46
https://x.com/sama/status/1758218820542763012?s=46
OpenAI Help Center
What to know about the Sora discontinuation | OpenAI Help Center
👍5🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
این ویدئو با ارائهی پرامپت زیر به مدل OpenAI Sora خلق شده است.
Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.
Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.
👍13🔥7❤3
This media is not supported in your browser
VIEW IN TELEGRAM
همچنان که توی ذهنتون به ترکیب Apple Vision Pro با OpenAI Sora فکر میکنید، به شغلهایی که دیگر وجود نخواهند داشت هم فکر کنید…
کارگردان
بازیگر
طراح پویانمایی (انیمیشن)
طراح گرافیک
متخصص جلوههای ویژه
عکاس
تهیهکننده
گوینده
نویسنده
تدوینگر ویدئو
سینماگر
طراح استوریبورد
طراح صحنه
طراح لباس
مسئول انتخاب بازیگر
کپیرایتر تبلیغاتی
گویندهی خبر
مدرس ویدئویی
مربی
مدیر شبکههای اجتماعی
و …
کارگردان
بازیگر
طراح پویانمایی (انیمیشن)
طراح گرافیک
متخصص جلوههای ویژه
عکاس
تهیهکننده
گوینده
نویسنده
تدوینگر ویدئو
سینماگر
طراح استوریبورد
طراح صحنه
طراح لباس
مسئول انتخاب بازیگر
کپیرایتر تبلیغاتی
گویندهی خبر
مدرس ویدئویی
مربی
مدیر شبکههای اجتماعی
و …
👍38🔥5
Forwarded from Tensorflow(@CVision) ((◕‿◕))
مدل Gemma مدلی سبک از گوگل که بسیار شبیه مدلهای جدید جِمینای (Gemini) ساخته شده با این تفاوت که اوپن سورس هست و برای استفاده عمومی منتشر شده.
نسخههای این مدل ۲ و ۷ میلیارد پارامتری هست و توی تقریبا همه فریمورکهای معروف کدش رو منتشر کردند.
لینک بلاگ:
https://blog.google/technology/developers/gemma-open-models/?utm_source=tw&utm_medium=social&utm_campaign=gemini24&utm_content=&utm_term=
لینک کگل:
https://www.kaggle.com/models/google/gemma?utm_medium=social&utm_source=twitter&utm_campaign=models-gemmalaunch
نسخههای این مدل ۲ و ۷ میلیارد پارامتری هست و توی تقریبا همه فریمورکهای معروف کدش رو منتشر کردند.
لینک بلاگ:
https://blog.google/technology/developers/gemma-open-models/?utm_source=tw&utm_medium=social&utm_campaign=gemini24&utm_content=&utm_term=
لینک کگل:
https://www.kaggle.com/models/google/gemma?utm_medium=social&utm_source=twitter&utm_campaign=models-gemmalaunch
Google
Gemma: Introducing new state-of-the-art open models
Gemma is a family of lightweight, state-of-the art open models built from the same research and technology used to create the Gemini models.
🔥13👍1
گوگل نسخهی اوپن-سورس از خانوادهی مدلهای زبانی Gemini را تحت نام Gemma معرفی و منتشر کرد.
بلاگپست معرفی:
https://huggingface.co/blog/gemma
این مدل که رقیبی جدی برای Llama2 متا محسوب میشود، در دو نسخهی Base و Instruction-tuned و در دو سایز ۲ و ۷ میلیارد پارامتری منتشر شدهست.
مدل Base مدل پایهی Pretrained و همهمنظورهست و برای پردازش متون خام کاربرد دارد.
مدل Instruction-tuned یا it بهکمک RLHF برای تسکهای مبتنی بر دستورالعمل، فاینتیون شده و برای دنبالکردن دستورات و انجام تسکهای مرحلهبهمرحله مناسبترست.
مدل ۲ میلیون پارامتری، همچون Llama2 برروی ۲ تریلیون توکن آموزش دیده و بسیار سبک و مناسب اجرا روی edge device ها و موبایلهاست اما مدل ۷ میلیارد پارامتری، برروی ۶ تریلیون توکن آموزش دیده (۲۳ روز برروی ۱۶ پاد TPU) که دقتی به مراتب بالاتر از Llama2 ارائه میدهد.
طول متن در این مدلها ۸۰۰۰ توکن است.
طی یک همکاری بین گوگل و NVIDIA این مدلها به کمک NVIDIA TensorRT-LLM برای اجرا برروی GPUهای RTX بهینهسازی شدهند.
https://blogs.nvidia.com/blog/google-gemma-llm-rtx-ai-pc/
این مدل کاملا اوپن-سورس و استفاده از آن در اپلیکیشنهای تجاری بلامانعست. همهی نسخههای آن روی HuggingFace قابل دسترساند.
https://huggingface.co/models?other=gemma&sort=trending&search=google
تست کردن مدل در حالت چتبات بهصورت آنلاین:
huggingface.co/chat/
این مدل به روش LoRA برروی دیتاست شما، فاین-تیون میشود. لینک زیر نوتبوکی برای آموزش فاین-تیون کردن این مدل به کمک Keras و TensorFlow ارائه میدهد:
https://ai.google.dev/gemma/docs/lora_tuning
فاینتیون کردن به روش LoRA به کمک HuggingFace:
https://huggingface.co/blog/gemma-peft
نقاط ضعف:
- این مدل تنها برای زبان انگلیسی آمادهسازی شده
- مالتیمودال نیست و فقط ورودی/خروجی از نوع متن را پشتیبانی میکند.
- عملکرد مدل ۲ میلیارد پارامتری، نسبت به مدل ۲/۷ میلیارد پارامتری مایکروسافت (PHI-2) بهمراتب ضعیفترست.
بلاگپست معرفی:
https://huggingface.co/blog/gemma
این مدل که رقیبی جدی برای Llama2 متا محسوب میشود، در دو نسخهی Base و Instruction-tuned و در دو سایز ۲ و ۷ میلیارد پارامتری منتشر شدهست.
مدل Base مدل پایهی Pretrained و همهمنظورهست و برای پردازش متون خام کاربرد دارد.
مدل Instruction-tuned یا it بهکمک RLHF برای تسکهای مبتنی بر دستورالعمل، فاینتیون شده و برای دنبالکردن دستورات و انجام تسکهای مرحلهبهمرحله مناسبترست.
مدل ۲ میلیون پارامتری، همچون Llama2 برروی ۲ تریلیون توکن آموزش دیده و بسیار سبک و مناسب اجرا روی edge device ها و موبایلهاست اما مدل ۷ میلیارد پارامتری، برروی ۶ تریلیون توکن آموزش دیده (۲۳ روز برروی ۱۶ پاد TPU) که دقتی به مراتب بالاتر از Llama2 ارائه میدهد.
طول متن در این مدلها ۸۰۰۰ توکن است.
طی یک همکاری بین گوگل و NVIDIA این مدلها به کمک NVIDIA TensorRT-LLM برای اجرا برروی GPUهای RTX بهینهسازی شدهند.
https://blogs.nvidia.com/blog/google-gemma-llm-rtx-ai-pc/
این مدل کاملا اوپن-سورس و استفاده از آن در اپلیکیشنهای تجاری بلامانعست. همهی نسخههای آن روی HuggingFace قابل دسترساند.
https://huggingface.co/models?other=gemma&sort=trending&search=google
تست کردن مدل در حالت چتبات بهصورت آنلاین:
huggingface.co/chat/
این مدل به روش LoRA برروی دیتاست شما، فاین-تیون میشود. لینک زیر نوتبوکی برای آموزش فاین-تیون کردن این مدل به کمک Keras و TensorFlow ارائه میدهد:
https://ai.google.dev/gemma/docs/lora_tuning
فاینتیون کردن به روش LoRA به کمک HuggingFace:
https://huggingface.co/blog/gemma-peft
نقاط ضعف:
- این مدل تنها برای زبان انگلیسی آمادهسازی شده
- مالتیمودال نیست و فقط ورودی/خروجی از نوع متن را پشتیبانی میکند.
- عملکرد مدل ۲ میلیارد پارامتری، نسبت به مدل ۲/۷ میلیارد پارامتری مایکروسافت (PHI-2) بهمراتب ضعیفترست.
huggingface.co
Welcome Gemma - Google’s new open LLM
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥3👍1
ورژن ۹ مدل YOLO در چهار سایز ۷/۲ میلیون، ۲۰/۱ میلیون و ۲۵/۵ میلیون و ۵۸/۱ میلیون پارامتر منتشر شد!!!
مقاله:
https://arxiv.org/abs/2402.13616
کد:
https://github.com/WongKinYiu/yolov9
نوتبوک برای فاینتیون کردن مدل:
https://colab.research.google.com/github/roboflow-ai/notebooks/blob/main/notebooks/train-yolov9-object-detection-on-custom-dataset.ipynb
https://blog.roboflow.com/train-yolov9-model/
مقاله:
https://arxiv.org/abs/2402.13616
کد:
https://github.com/WongKinYiu/yolov9
نوتبوک برای فاینتیون کردن مدل:
https://colab.research.google.com/github/roboflow-ai/notebooks/blob/main/notebooks/train-yolov9-object-detection-on-custom-dataset.ipynb
https://blog.roboflow.com/train-yolov9-model/
🔥10👍4❤1
School of AI
شرکت Ultralytics مدل بنیادین YOLO-World که یک OVD یا Open-Vocabulary Detector است، را معرفی کرد. این مدل، مبتنی بر YOLOv8 است و نیاز به کلاسهای ازپیش تعریفشده برای تشخیص ندارد، بلکه میتواند بهصورت Zero-shot این کلاسها را درقالب یک پرامپت متنی، هنگام…
برای آشنایی بیشتر با YOLO-Wold تماشای ویدئوی زیر پیشنهاد میشود.
https://www.youtube.com/watch?v=X7gKBGVz4vs
موارد بحثشده:
- معماری مدل
- پردازش تصاویر و ویدئوها در Google Colab
- مهندسی پرامپت و پالایش detection
- مزایا و معایب مدل
https://www.youtube.com/watch?v=X7gKBGVz4vs
موارد بحثشده:
- معماری مدل
- پردازش تصاویر و ویدئوها در Google Colab
- مهندسی پرامپت و پالایش detection
- مزایا و معایب مدل
YouTube
YOLO-World: Real-Time, Zero-Shot Object Detection Explained
In this video, you’ll learn how to use YOLO-World, a cutting-edge zero-shot object detection model. We'll cover its speed, compare it to other models, and run a live code demo for image AND video analysis.
Chapters:
- 00:00 Intro
- 00:42 YOLO-World vs.…
Chapters:
- 00:00 Intro
- 00:42 YOLO-World vs.…
👍7❤1🙏1
مدلهای زبانی بزرگ (LLM ها) معمولا برروی حجم زیادی از دادههای موجود در وب آموزش میبینند. این دادهها ممکن است جهتدار و بیکیفیت باشند. برای رفع این مشکل، معمولا پس از آموزش مدل زبانی، مدل آموزشدیدهشده در دسترس تعدادی انسان قرار گرفته و خروجی آن ارزیابی میشود. سپس با استفاده از بازخورد جمعآوریشده در این ارزیابی (Human Feedback) و بهکارگیری روشهای یادگیری تقویتی (Reinforcement Learning) یک مدل پاداش (Reward Model) برای
ارزیابی خروجی مدل آموزش داده میشود.
آموزش دادن مدل پاداش، به نوعی Finetune کردن مدل اصلی محسوب میشود. به این نوع Finetune کردن، روش RLHF گفته میشود.
برای فاینتیون کردن مدلهای زبانی به روش RLHF بهطور معمول از الگوریتم Proximal Policy Optimization یا PPO استفاده میشود که بسیار قدرتمندتر از الگوریتمهای پایهی یادگیری تقویتی مثل REINFORCE است.
حالا، آرش احمدیان، پژوهشگر آزمایشگاه Cohere به همراه همکارانش در مقالهی زیر نشان دادهاند که با توجه به توانایی بالای پالیسی اولیه و شرطگذاری پرامپتها، نیاز به استفاده از الگوریتم PPO برای فاینتیونکردن مدلهای زبانی نیست و الگوریتمهای سادهتر و سریعتر مثل REINFORCE در این زمینه کاراترند.
جالب اینکه گوگل (دیپمایند) هم در مدل زبانی جدید خود (Gemma) از الگوریتم REINFORCE بهجای PPO استفاده کردهست.
https://cohere.com/research/papers/back-to-basics-revisiting-reinforce-style-optimization-for-learning-from-human-feedback-in-llms-2024-02-23
پینوشت ۱: عدهای از پژوهشگران معتقدند فاینتیونکردن مدلهای زبانی از روی بازخورد انسانی باعث افت کیفیت مدلها به مرور زمان میشود.
پینوشت ۲: مدل زبانی کوچک شرکت مایکروسافت (Phi-2) به روش RLHF فاینتیون نشدهست. دلیل این کار، فراهم آوردن بستری برای تحقیق در رابطه با چالشهای مرتبط با ایمنی این مدلها از جمله سوگیریهای اجتماعی، محتوای سمی، پایشپذیری و … است.
ارزیابی خروجی مدل آموزش داده میشود.
آموزش دادن مدل پاداش، به نوعی Finetune کردن مدل اصلی محسوب میشود. به این نوع Finetune کردن، روش RLHF گفته میشود.
برای فاینتیون کردن مدلهای زبانی به روش RLHF بهطور معمول از الگوریتم Proximal Policy Optimization یا PPO استفاده میشود که بسیار قدرتمندتر از الگوریتمهای پایهی یادگیری تقویتی مثل REINFORCE است.
حالا، آرش احمدیان، پژوهشگر آزمایشگاه Cohere به همراه همکارانش در مقالهی زیر نشان دادهاند که با توجه به توانایی بالای پالیسی اولیه و شرطگذاری پرامپتها، نیاز به استفاده از الگوریتم PPO برای فاینتیونکردن مدلهای زبانی نیست و الگوریتمهای سادهتر و سریعتر مثل REINFORCE در این زمینه کاراترند.
جالب اینکه گوگل (دیپمایند) هم در مدل زبانی جدید خود (Gemma) از الگوریتم REINFORCE بهجای PPO استفاده کردهست.
https://cohere.com/research/papers/back-to-basics-revisiting-reinforce-style-optimization-for-learning-from-human-feedback-in-llms-2024-02-23
پینوشت ۱: عدهای از پژوهشگران معتقدند فاینتیونکردن مدلهای زبانی از روی بازخورد انسانی باعث افت کیفیت مدلها به مرور زمان میشود.
پینوشت ۲: مدل زبانی کوچک شرکت مایکروسافت (Phi-2) به روش RLHF فاینتیون نشدهست. دلیل این کار، فراهم آوردن بستری برای تحقیق در رابطه با چالشهای مرتبط با ایمنی این مدلها از جمله سوگیریهای اجتماعی، محتوای سمی، پایشپذیری و … است.
👏22👍8❤1
School of AI
ورژن ۹ مدل YOLO در چهار سایز ۷/۲ میلیون، ۲۰/۱ میلیون و ۲۵/۵ میلیون و ۵۸/۱ میلیون پارامتر منتشر شد!!! مقاله: https://arxiv.org/abs/2402.13616 کد: https://github.com/WongKinYiu/yolov9 نوتبوک برای فاینتیون کردن مدل: https://colab.research.google.com/github/roboflow…
آموزش finetune کردن مدل جدید YOLOv9 برروی دیتاست شخصی و سفارشیشده
https://blog.roboflow.com/train-yolov9-model/
https://blog.roboflow.com/train-yolov9-model/
Roboflow Blog
How to Train YOLOv9 on a Custom Dataset
Learn how to train a YOLOv9 model on a custom dataset.
❤12
School of AI
گوگل نسخهی اوپن-سورس از خانوادهی مدلهای زبانی Gemini را تحت نام Gemma معرفی و منتشر کرد. بلاگپست معرفی: https://huggingface.co/blog/gemma این مدل که رقیبی جدی برای Llama2 متا محسوب میشود، در دو نسخهی Base و Instruction-tuned و در دو سایز ۲ و ۷ میلیارد…
آموزش finetune کردن مدل جدید Gemma برروی دیتاست شخصی و سفارشیشده
https://huggingface.co/blog/gemma-peft
https://huggingface.co/blog/gemma-peft
huggingface.co
Fine-Tuning Gemma Models in Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍8❤4
Forwarded from رویدادهای هوش مصنوعی
Media is too big
VIEW IN TELEGRAM
🎬فیلم جلسه سخنرانی آقای مهندس علیرضا اخوان پور- Graph Neural Networks
🧷مربوط به رویداد : https://xn--r1a.website/eventai/820
🔖اسلایدها:
https://xn--r1a.website/eventai/828
📓منبع:
https://xn--r1a.website/CS_Sharif_University_2023
#gnn #gcn #graph #deeplearning #AI
#گراف #شبکه_عصبی_گراف
〰️〰️〰️〰️〰️
این کانال با هدف آگاه سازی از رویدادهای مرتبط با هوش مصنوعی نظیر همایش، کنفرانس، ورکشاپ و کلاس تشکیل شده است.
@eventai
🧷مربوط به رویداد : https://xn--r1a.website/eventai/820
🔖اسلایدها:
https://xn--r1a.website/eventai/828
📓منبع:
https://xn--r1a.website/CS_Sharif_University_2023
#gnn #gcn #graph #deeplearning #AI
#گراف #شبکه_عصبی_گراف
〰️〰️〰️〰️〰️
این کانال با هدف آگاه سازی از رویدادهای مرتبط با هوش مصنوعی نظیر همایش، کنفرانس، ورکشاپ و کلاس تشکیل شده است.
@eventai
👍12
همونطور که احتمالا بیشتر علاقهمندان به هوش مصنوعی و یادگیری ماشین درجریاناند، در سالهای اخیر، بهویژه پس از معرفی Transformerها، یک تغییر نگرش و پارادایمشیفت در این حوزه اتفاق افتاده و اون هم حرکت به سمت مدلهای بنیادین (Foundation Models) ساختهشده توسط آزمایشگاههای بزرگ، بهعنوان بلوکهای سازندهی سامانههای هوشمندست.
مدلهای بنیادین، شبکههای عصبی ژرف و بزرگیاند که برروی حجم وسیعی از دادههای گوناگون آموزش دیدهاند و برای انجام تسکهای گوناگون (نه فقط یک تسک) بهسادگی و بهصورت few-shot و حتی zero-shot فاینتیون شده و آموزش میبینند.
به عنوان مثال، مدلهای زبانی بزرگ همچون GPTها (اوپناِیآی) یا Llama (متا) یا Gemma (گوگل) یا Phi (مایکروسافت)، که با مشاهدهی حجم وسیعی از دادههای متنی در زمینههای مختلف و استخراج رابطهی آماری بین واژهها، الگوهای زبانی را یادگرفته و برای تسکهای مختلف از جمله پرسشوپاسخ، خلاصهسازی، استنتاج و … مورد استفاده قرار میگیرند. و یا مدلهای بنیادین مرتبط با بینایی ماشین مانند CLIP (اوپناِیآی) یا GLIP (مایکروسافت) یا SAM (متا) یا YOLO-World که با آموزش برروی حجم وسیعی از تصاویر، مفاهیم بصری موجود در تصاویر را یاد گرفته و بهصورت zero-shot برای تسکهای مختلف قابل استفادهاند.
بااینکه، مدلهای بنیادین در زمینههای پردازش زبان طبیعی و بینایی ماشین پیشرفتهای قابل توجهی داشتهاند، اما در زمینهی پیشبینی سریهای زمانی که یکی از مهمترین کاربردهای هوش مصنوعی بهویژه در کسبوکارهاست، هنوز جای کار بسیار است.
در زیر، لینک چند نمونه از مدلهای بنیادین که اخیرا برای پیشبینی سریهای زمانی معرفی شدهاند را مشاهده میکنید:
https://arxiv.org/pdf/2402.02592.pdf
https://arxiv.org/pdf/2310.08278.pdf
https://arxiv.org/pdf/2402.03885.pdf
https://arxiv.org/pdf/2310.10688.pdf
مدلهای بنیادین، شبکههای عصبی ژرف و بزرگیاند که برروی حجم وسیعی از دادههای گوناگون آموزش دیدهاند و برای انجام تسکهای گوناگون (نه فقط یک تسک) بهسادگی و بهصورت few-shot و حتی zero-shot فاینتیون شده و آموزش میبینند.
به عنوان مثال، مدلهای زبانی بزرگ همچون GPTها (اوپناِیآی) یا Llama (متا) یا Gemma (گوگل) یا Phi (مایکروسافت)، که با مشاهدهی حجم وسیعی از دادههای متنی در زمینههای مختلف و استخراج رابطهی آماری بین واژهها، الگوهای زبانی را یادگرفته و برای تسکهای مختلف از جمله پرسشوپاسخ، خلاصهسازی، استنتاج و … مورد استفاده قرار میگیرند. و یا مدلهای بنیادین مرتبط با بینایی ماشین مانند CLIP (اوپناِیآی) یا GLIP (مایکروسافت) یا SAM (متا) یا YOLO-World که با آموزش برروی حجم وسیعی از تصاویر، مفاهیم بصری موجود در تصاویر را یاد گرفته و بهصورت zero-shot برای تسکهای مختلف قابل استفادهاند.
بااینکه، مدلهای بنیادین در زمینههای پردازش زبان طبیعی و بینایی ماشین پیشرفتهای قابل توجهی داشتهاند، اما در زمینهی پیشبینی سریهای زمانی که یکی از مهمترین کاربردهای هوش مصنوعی بهویژه در کسبوکارهاست، هنوز جای کار بسیار است.
در زیر، لینک چند نمونه از مدلهای بنیادین که اخیرا برای پیشبینی سریهای زمانی معرفی شدهاند را مشاهده میکنید:
https://arxiv.org/pdf/2402.02592.pdf
https://arxiv.org/pdf/2310.08278.pdf
https://arxiv.org/pdf/2402.03885.pdf
https://arxiv.org/pdf/2310.10688.pdf
👍26❤8
This media is not supported in your browser
VIEW IN TELEGRAM
مدل بنیادین گوگل برای درک ویدئو منتشر شد!!!
مدل VideoPrism یک ViFM یا مدل بنیادین ویدئوست که برخلاف مدلهای قبلی مثل VideoCLIP برای دامنهی وسیعی از تسکها از جمله classification و localization و retrieval و captioning و question answering قابل استفادهست.
https://blog.research.google/2024/02/videoprism-foundational-visual-encoder.html
مدل VideoPrism یک ViFM یا مدل بنیادین ویدئوست که برخلاف مدلهای قبلی مثل VideoCLIP برای دامنهی وسیعی از تسکها از جمله classification و localization و retrieval و captioning و question answering قابل استفادهست.
https://blog.research.google/2024/02/videoprism-foundational-visual-encoder.html
🔥7👍4😍3
This media is not supported in your browser
VIEW IN TELEGRAM
نسخهی جدید از مدل زبانی شرکت فرانسوی Mistral به نام Mistral Large که در روزهای اخیر معرفی شده توانسته (بهویژه در تسکهای استدلال-محور) از سایر رقبا بهتر عمل کنه.
امروز شرکت مایکروسافت (که اتفاقا سهامدار اصلی OpenAI هم است) اعلام کرد طی قراردی همکاریای جدید، این مدل روی Microsoft Azure AI Studio و Microsoft Azure Machine Learning Studio در دسترس است.
https://azure.microsoft.com/en-us/blog/microsoft-and-mistral-ai-announce-new-partnership-to-accelerate-ai-innovation-and-introduce-mistral-large-first-on-azure/
امروز شرکت مایکروسافت (که اتفاقا سهامدار اصلی OpenAI هم است) اعلام کرد طی قراردی همکاریای جدید، این مدل روی Microsoft Azure AI Studio و Microsoft Azure Machine Learning Studio در دسترس است.
https://azure.microsoft.com/en-us/blog/microsoft-and-mistral-ai-announce-new-partnership-to-accelerate-ai-innovation-and-introduce-mistral-large-first-on-azure/
👍14❤1
چگونه از Tensorboard در Google Colab استفاده کنیم؟!
همونطور که میدونید، Tensorboard ابزاریست که برای بهتصویرکشیدن متریکهایی مثل loss و accuracy در حین آموزش مدل در TensorFlow (و البته PyTorch) و چند مورد دیگه استفاده میشه.
برای این کار، هنگام آموزش مدل در تنسورفلو، یک callback به نام tf.keras.callbacks.TensorBoard را به متد train پاس میدیم و در پایتورچ، از torch.utils.tensorboard.SummaryWriter استفاده میکنیم. اطلاعات لازم در یک پوشه (مثلا /runs/. در پایتورچ) لاگ میشن. سپس سرویس TensorBoard که یک نرمافزار تحت وب جداست رو با اجرای دستور tensorboard در ترمینال اجرا کرده و از طریق مرورگر وب (http://localhost:6006) به آن متصل میشیم.
اما زمانی که از Google Colab استفاده میکنیم، مرورگر ما به ماشین مجازیای که کد روی اون در حال اجراست، دسترسی نداره و چون اون ماشین مجازی، IP معتبر و اختصاصی روی اینترنت نداره، در حالت عادی نمیتونیم به سرویس TensorBoard روی اون متصل شیم.
پس راهحل چیست؟
پاسخ: باز کردن یک تونل از یک آدرس معتبر اینترنتی به داخل ماشین مجازی و سرویس تنسوربورد
اگه یه دامنهی اختصاصی برای خودتون دارید میتونید روی سایت Cloudflare یه اکانت بسازید و اونجا از یک آدرس معتبر یه تونل به ماشینی که میخواید باز کنید.
ولی اگه دامین خودتون رو ندارید میتونید از Ngrok استفاده کنید.
برای استفاده از Ngrok داخل نوتبوک خود در گوگل کولب، اول دو دستور زیر رو اجرا کنید تا Ngrok دانلود و extract شه:
بعد سرویس تنسوربورد رو با دستور زیر روی پورت ۶۰۰۶ اجرا کنید:
بعد Ngrok رو اجرا کرده و سر تونل رو به پورت ۶۰۰۶ ماشین مجازی وصل کنید
تونل شما آمادهست. با اجرای دستور زیر آدرس عمومی دسترسی به تونل رو پیدا کنید و ازون طریق تنسوربورد رو باز کنید:
همونطور که میدونید، Tensorboard ابزاریست که برای بهتصویرکشیدن متریکهایی مثل loss و accuracy در حین آموزش مدل در TensorFlow (و البته PyTorch) و چند مورد دیگه استفاده میشه.
برای این کار، هنگام آموزش مدل در تنسورفلو، یک callback به نام tf.keras.callbacks.TensorBoard را به متد train پاس میدیم و در پایتورچ، از torch.utils.tensorboard.SummaryWriter استفاده میکنیم. اطلاعات لازم در یک پوشه (مثلا /runs/. در پایتورچ) لاگ میشن. سپس سرویس TensorBoard که یک نرمافزار تحت وب جداست رو با اجرای دستور tensorboard در ترمینال اجرا کرده و از طریق مرورگر وب (http://localhost:6006) به آن متصل میشیم.
اما زمانی که از Google Colab استفاده میکنیم، مرورگر ما به ماشین مجازیای که کد روی اون در حال اجراست، دسترسی نداره و چون اون ماشین مجازی، IP معتبر و اختصاصی روی اینترنت نداره، در حالت عادی نمیتونیم به سرویس TensorBoard روی اون متصل شیم.
پس راهحل چیست؟
پاسخ: باز کردن یک تونل از یک آدرس معتبر اینترنتی به داخل ماشین مجازی و سرویس تنسوربورد
اگه یه دامنهی اختصاصی برای خودتون دارید میتونید روی سایت Cloudflare یه اکانت بسازید و اونجا از یک آدرس معتبر یه تونل به ماشینی که میخواید باز کنید.
ولی اگه دامین خودتون رو ندارید میتونید از Ngrok استفاده کنید.
برای استفاده از Ngrok داخل نوتبوک خود در گوگل کولب، اول دو دستور زیر رو اجرا کنید تا Ngrok دانلود و extract شه:
!wget https://bin.equinox.io/c/4VmDzA7iaHb/ngrok-stable-linux-amd64.zip
!unzip -o ngrok-stable-linux-amd64.zip
بعد سرویس تنسوربورد رو با دستور زیر روی پورت ۶۰۰۶ اجرا کنید:
LOGDIR = '/tmp/log'
get_ipython().system_raw(
'tensorboard --logdir {} --host 0.0.0.0 --port 6006 &'
.format(LOG_DIR)
)
بعد Ngrok رو اجرا کرده و سر تونل رو به پورت ۶۰۰۶ ماشین مجازی وصل کنید
get_ipython().system_raw('./ngrok http 6006 &')
تونل شما آمادهست. با اجرای دستور زیر آدرس عمومی دسترسی به تونل رو پیدا کنید و ازون طریق تنسوربورد رو باز کنید:
!curl -s http://localhost:4040/api/tunnels | python3 -c \
"import sys, json; print(json.load(sys.stdin)['tunnels'][0]['public_url'])"
👍19❤6😍4🔥3
محاسبهی فاصله به کمک Ultralytics YOLOv8
https://docs.ultralytics.com/guides/distance-calculation/#advantages-of-distance-calculation
پینوشت: توی عکس چهجوری فاصله اون دو نفر ۴ متره؟! 😂
https://docs.ultralytics.com/guides/distance-calculation/#advantages-of-distance-calculation
پینوشت: توی عکس چهجوری فاصله اون دو نفر ۴ متره؟! 😂
👍14❤3🔥1
شرکت مایکروسافت یک شبکهی عصبی گرافی به نام ViSNet برای مدلسازی و بازنمایی ساختارهای هندسی سهبعدی مانند مولکولها ارائه دادهست که قادرست ارتباطات پیچیده بین ساختار مولکولی و فعالیت بیولوژیکی (structure-activity relationships) را درک کرده و رفتار و ویژگیهای مولکولها را پیشبینی کند.
https://www.microsoft.com/en-us/research/blog/visnet-a-general-molecular-geometry-modeling-framework-for-predicting-molecular-properties-and-simulating-molecular-dynamics/
لینک مقاله در Nature:
https://www.nature.com/articles/s41467-023-43720-2
https://www.microsoft.com/en-us/research/blog/visnet-a-general-molecular-geometry-modeling-framework-for-predicting-molecular-properties-and-simulating-molecular-dynamics/
لینک مقاله در Nature:
https://www.nature.com/articles/s41467-023-43720-2
❤15👍7
اکثر دوستان با سه فریمورک اصلی یادگیری عمیق یعنی TensorFlow و PyTorch و JAX آشنااند، اما voodoo یک فریمورک نسبتا جدیدست که به زبان Mojo (زبان برنامهنویسی جدید برای AI که مزایای C و Python را ترکیب کردهست) نوشته شدهست.
حال اینکه اخیرا آقای شوله، نویسندهی Keras اعلام کردهاند که در حال بررسی این فریمورک برای افزودن به لیست بکاندهای قابل پشتیبانی در Keras 3 هستند.
https://github.com/Benny-Nottonson/voodoo
حال اینکه اخیرا آقای شوله، نویسندهی Keras اعلام کردهاند که در حال بررسی این فریمورک برای افزودن به لیست بکاندهای قابل پشتیبانی در Keras 3 هستند.
https://github.com/Benny-Nottonson/voodoo
🔥22👍8
با گسترش استفاده از LLM ها در اپلیکیشنهای تحت وب، و باتوجه به ماهیت غیرقطعی عملکرد آنها، آسیبپذیریهای امنیتی جدیدی پدید آمدهاند؛ مانند:
- Prompt Injection
- Data Leakage
- Inadequate Sandboxing
- Unauthorized Code Execution
- Model DoS
- Information Disclosure
و …
بنابراین، نیاز به یک دیوارهی آتش مناسب برای قرار گرفتن در جلوی مدلها و بررسی درخواستها برای تشخیص سواستفاده بیشتر از پیش حس میشود.
۱۰ آسیبپذیری در اپلیکیشنهای مبتنی بر LLM ها بهگفتهی OWASP
https://owasp.org/www-project-top-10-for-large-language-model-applications/
شرکت Cloudflare که جزو بزرگترین شرکتهای ارائهدهندهی خدمات ابری، CDN و امنیت سایبری و … است، از محصول جدید خود که یک دیوارهی آتش (Firewall) برای قرار گرفتن در جلوی LLM هاست، رونمایی کرد. محصول Firewall for AI در واقع یک WAF است که علاوه بر قابلیتهای مرسوم مانند کنترل rate limit و جلوگیری از injection، قابلیت تحلیل پرامپتها برای تشخیص سوءنیت را نیز دارد.
https://blog.cloudflare.com/firewall-for-ai/
- Prompt Injection
- Data Leakage
- Inadequate Sandboxing
- Unauthorized Code Execution
- Model DoS
- Information Disclosure
و …
بنابراین، نیاز به یک دیوارهی آتش مناسب برای قرار گرفتن در جلوی مدلها و بررسی درخواستها برای تشخیص سواستفاده بیشتر از پیش حس میشود.
۱۰ آسیبپذیری در اپلیکیشنهای مبتنی بر LLM ها بهگفتهی OWASP
https://owasp.org/www-project-top-10-for-large-language-model-applications/
شرکت Cloudflare که جزو بزرگترین شرکتهای ارائهدهندهی خدمات ابری، CDN و امنیت سایبری و … است، از محصول جدید خود که یک دیوارهی آتش (Firewall) برای قرار گرفتن در جلوی LLM هاست، رونمایی کرد. محصول Firewall for AI در واقع یک WAF است که علاوه بر قابلیتهای مرسوم مانند کنترل rate limit و جلوگیری از injection، قابلیت تحلیل پرامپتها برای تشخیص سوءنیت را نیز دارد.
https://blog.cloudflare.com/firewall-for-ai/
👍11🔥2
کورس دیپلرنینگ دکتر سهیل فیضی - دانشگاه مریلند
https://youtube.com/playlist?list=PLHgjs9ncvHi80UCSlSvQe-TK_uOyDv_Jf&si=fl3n4tW-WJ3th8f2
آخرین لکچر در مورد تولید تصاویر توسط diffusion model ها است:
https://youtu.be/rLepfNziDPM?si=9vMQYCOAhzL5u4Cn
https://youtube.com/playlist?list=PLHgjs9ncvHi80UCSlSvQe-TK_uOyDv_Jf&si=fl3n4tW-WJ3th8f2
آخرین لکچر در مورد تولید تصاویر توسط diffusion model ها است:
https://youtu.be/rLepfNziDPM?si=9vMQYCOAhzL5u4Cn
👍10❤2