School of AI

شرکت Nvidia یک نرم‌افزار چت‌بات قابل نصب برروی Windows 11، موسوم به NVIDIA Chat with RTX ارائه کرده که از محتوای فایل‌های داخل رایانه، برای RAG استفاده می‌کند. به عبارت دیگر پاسخ پرسش‌های شما را با بررسی فایل‌هایی که به‌ش معرفی می‌کنید می‌دهد.
این چت‌بات برای اجرا نیاز به واحد گرافیکی GeForce RTX دارد.

https://youtu.be/gdsRJZT3IJw

YouTube

Create A Personalized AI Chatbot with Chat With RTX

Create a personalized chatbot with the Chat with RTX tech demo. Accelerated by TensorRT-LLM and Tensor Cores, you can quickly get tailored info from your files and content. Just connect your data to an LLM on RTX-Powered PCs for local, fast, generative AI.…

👍6❤2

8.69K viewsedited 15:59

School of AI

دیشب ساعت ۹ تصویر Yann LeCun دانشمند برجسته‌ی هوش مصنوعی بر روی برج خلیفه‌ی دوبی نقش بست.

لازم‌به‌ذکر است که ایشان در حال حاضر برای شرکت در نشست دولت جهانی (World Government Summit) در امارات متحده‌ی عربی حضور دارند.

❤41😍10👍4🙏4

7.03K views13:32

School of AI

شرکت Ultralytics مدل بنیادین YOLO-World که یک OVD یا Open-Vocabulary Detector است، را معرفی کرد.

این مدل، مبتنی بر YOLOv8 است و نیاز به کلاس‌های ازپیش تعریف‌شده برای تشخیص ندارد، بلکه می‌تواند به‌صورت Zero-shot این کلاس‌ها را درقالب یک پرامپت متنی، هنگام inference دریافت کرده و در تصویر پیدا کند. مثلا در ورودی به آن می‌گویید: “حیوان جونده‌ی کوچک به رنگ سفید که نامش موش است را پیدا کن”
این پرامپت توسط مدل OpenAI CLIP به بردار تعبیه تبدیل شده و به کمک مدل YOLOv8 در تصویر پیدا می‌شود.

این مدل در مقایسه با مدل‌های بنیادین دیگر مثل SAM فیس‌بوک و Grounding DINO بسیار ساده‌تر است و بنابراین می‌توان به راحتی از آن برای اپلیکیشن‌های real-time استفاده کرد.

استفاده از این مدل به‌سادگی استفاده از Ultralytics YOLOv8 است.

https://docs.ultralytics.com/models/yolo-world/

مقاله:
https://arxiv.org/abs/2401.17270

نوت‌بوک:
https://supervision.roboflow.com/develop/notebooks/zero-shot-object-detection-with-yolo-world/

👍12😍1

9.44K viewsedited 14:26

School of AI

Forwarded from Tensorflow(@CVision) ((◕‿◕))

مدل متن به ویدیو OpenAI معرفی شد!
این مدل که اسمش Sora هست میتونه ویدیو‌هایی به طول یک دقیقه تولید کنه!

http://openai.com/sora

https://x.com/sama/status/1758193609927721350?s=46

https://x.com/model_mechanic/status/1758196079663988823?s=46

https://x.com/gdb/status/1758193811489243408?s=46

https://x.com/mkbhd/status/1758200479224410420?s=46

https://x.com/sama/status/1758218820542763012?s=46

OpenAI Help Center

What to know about the Sora discontinuation | OpenAI Help Center

👍5🔥4

3.49K views23:55

School of AI

This media is not supported in your browser

VIEW IN TELEGRAM

این ویدئو با ارائه‌ی پرامپت زیر به مدل OpenAI Sora خلق شده‌ است.

Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.

👍13🔥7❤3

4.9K views14:21

School of AI

0:15

This media is not supported in your browser

VIEW IN TELEGRAM

هم‌چنان که توی ذهن‌تون به ترکیب Apple Vision Pro با OpenAI Sora فکر می‌کنید، به شغل‌هایی که دیگر وجود نخواهند داشت هم فکر کنید…

کارگردان
بازی‌گر
طراح پویانمایی (انیمیشن)
طراح گرافیک
متخصص جلوه‌های ویژه
عکاس
تهیه‌کننده
گوینده
نویسنده
تدوین‌گر ویدئو
سینماگر
طراح استوری‌بورد
طراح صحنه
طراح لباس
مسئول انتخاب بازی‌گر
کپی‌رایتر تبلیغاتی
گوینده‌ی خبر
مدرس ویدئویی
مربی
مدیر شبکه‌ها‌ی اجتماعی
‌و …

👍38🔥5

4.33K views23:58

School of AI

Forwarded from Tensorflow(@CVision) ((◕‿◕))

مدل Gemma مدلی سبک از گوگل که بسیار شبیه مدل‌های جدید جِمی‌نای (Gemini) ساخته شده با این تفاوت که‌ اوپن سورس هست و برای استفاده عمومی منتشر شده.
نسخه‌های این مدل ۲ و ۷ میلیارد پارامتری هست و توی تقریبا همه فریم‌ورک‌های معروف کدش رو منتشر کردند.

لینک بلاگ:

https://blog.google/technology/developers/gemma-open-models/?utm_source=tw&utm_medium=social&utm_campaign=gemini24&utm_content=&utm_term=

لینک کگل:
https://www.kaggle.com/models/google/gemma?utm_medium=social&utm_source=twitter&utm_campaign=models-gemmalaunch

Google

Gemma: Introducing new state-of-the-art open models

Gemma is a family of lightweight, state-of-the art open models built from the same research and technology used to create the Gemini models.

🔥13👍1

2.82K views13:35

School of AI

گوگل نسخه‌ی اوپن-سورس از خانواده‌ی مدل‌های زبانی Gemini را تحت نام Gemma معرفی و منتشر کرد.

بلاگ‌پست معرفی:
https://huggingface.co/blog/gemma

این مدل که رقیبی جدی برای Llama2 متا محسوب می‌شود، در دو نسخه‌ی Base و Instruction-tuned و در دو سایز ۲ و ۷ میلیارد پارامتری منتشر شده‌ست.

مدل Base مدل پایه‌ی Pretrained و همه‌منظوره‌ست و برای پردازش متون خام کاربرد دارد.
مدل Instruction-tuned یا it به‌کمک RLHF برای تسک‌های مبتنی بر دستورالعمل، فاین‌تیون شده و برای دنبال‌کردن دستورات و انجام تسک‌های مرحله‌به‌مرحله مناسب‌تر‌ست.

مدل ۲ میلیون پارامتری، همچون Llama2 برروی ۲ تریلیون توکن آموزش دیده و بسیار سبک و مناسب اجرا روی edge device ها و موبایل‌ها‌ست اما مدل ۷ میلیارد پارامتری، برروی ۶ تریلیون توکن آموزش دیده (۲۳ روز برروی ۱۶ پاد TPU) که دقتی به مراتب بالاتر از Llama2 ارائه می‌دهد.

طول متن در این مدل‌ها ۸۰۰۰ توکن است.

طی یک همکاری بین گوگل و NVIDIA این مدل‌ها به کمک NVIDIA TensorRT-LLM برای اجرا برروی GPUهای RTX بهینه‌سازی شده‌ند.
https://blogs.nvidia.com/blog/google-gemma-llm-rtx-ai-pc/

این مدل کاملا اوپن-سورس و استفاده از آن در اپلیکیشن‌های تجاری بلامانع‌ست. همه‌ی نسخه‌های آن روی HuggingFace قابل دسترس‌اند.
https://huggingface.co/models?other=gemma&sort=trending&search=google

تست کردن مدل در حالت چت‌بات به‌صورت آنلاین:
huggingface.co/chat/

این مدل به روش LoRA برروی دیتاست شما،‌ فاین-تیون می‌شود. لینک زیر نوت‌بوکی برای آموزش فاین‌-تیون کردن این مدل به کمک Keras و TensorFlow ارائه می‌دهد:
https://ai.google.dev/gemma/docs/lora_tuning

فاین‌تیون کردن به روش LoRA به کمک HuggingFace:
https://huggingface.co/blog/gemma-peft

نقاط ضعف:
- این مدل تنها برای زبان انگلیسی آماده‌سازی شده
- مالتی‌مودال نیست و فقط ورودی/خروجی از نوع متن را پشتیبانی می‌کند.
- عمل‌کرد مدل ۲ میلیارد پارامتری، نسبت به مدل ۲/۷ میلیارد پارامتری مایکروسافت (PHI-2) به‌مراتب ضعیف‌ترست.

huggingface.co

Welcome Gemma - Google’s new open LLM

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

🔥3👍1

4.36K viewsedited 18:02

School of AI

ورژن ۹ مدل YOLO در چهار سایز ۷/۲ میلیون، ۲۰/۱ میلیون و ۲۵/۵ میلیون و ۵۸/۱ میلیون پارامتر منتشر شد!!!

مقاله:
https://arxiv.org/abs/2402.13616

کد:
https://github.com/WongKinYiu/yolov9

نوت‌بوک برای فاین‌تیون کردن مدل:
https://colab.research.google.com/github/roboflow-ai/notebooks/blob/main/notebooks/train-yolov9-object-detection-on-custom-dataset.ipynb

https://blog.roboflow.com/train-yolov9-model/

🔥10👍4❤1

3.49K viewsedited 20:05

School of AI

برای آشنایی بیش‌تر با YOLO-Wold تماشای ویدئوی زیر پیش‌نهاد می‌شود.

https://www.youtube.com/watch?v=X7gKBGVz4vs

موارد بحث‌شده:
- معماری مدل
- پردازش تصاویر و ویدئو‌ها در Google Colab
- مهندسی پرامپت و پالایش detection
- مزایا و معایب مدل

YouTube

YOLO-World: Real-Time, Zero-Shot Object Detection Explained

In this video, you’ll learn how to use YOLO-World, a cutting-edge zero-shot object detection model. We'll cover its speed, compare it to other models, and run a live code demo for image AND video analysis.

Chapters:

- 00:00 Intro
- 00:42 YOLO-World vs.…

👍7❤1🙏1

3.73K views22:40

School of AI

مدل‌های زبانی بزرگ (LLM ها) معمولا برروی حجم زیادی از داده‌های موجود در وب آموزش می‌بینند. این داده‌ها ممکن است جهت‌دار و بی‌کیفیت باشند. برای رفع این مشکل، معمولا پس از آموزش مدل زبانی، مدل آموزش‌دیده‌شده در دسترس تعدادی انسان قرار گرفته و خروجی آن ارزیابی می‌شود. سپس با استفاده از بازخورد جمع‌آوری‌شده در این ارزیابی (Human Feedback) و به‌کارگیری روش‌های یادگیری تقویتی (Reinforcement Learning) یک مدل پاداش (Reward Model) برای
ارزیابی خروجی مدل آموزش داده می‌شود.

آموزش دادن مدل پاداش، به نوعی Finetune کردن مدل اصلی محسوب می‌شود. به این نوع Finetune کردن، روش RLHF گفته می‌شود.

برای فاین‌تیون کردن مدل‌های زبانی به روش RLHF به‌طور معمول از الگوریتم Proximal Policy Optimization یا PPO استفاده می‌شود که بسیار قدرت‌مند‌تر از الگوریتم‌های پایه‌ی یادگیری تقویتی مثل REINFORCE است.

حالا، آرش احمدیان، پژوهش‌گر آزمایشگاه Cohere به همراه همکارانش در مقاله‌ی زیر نشان داده‌اند که با توجه به توانایی بالای پالیسی اولیه و شرط‌گذاری پرامپت‌ها، نیاز به استفاده از الگوریتم PPO برای فاین‌تیون‌کردن مد‌ل‌های زبانی نیست و الگوریتم‌های ساده‌تر و سریع‌تر مثل REINFORCE در این زمینه کاراتر‌ند.

جالب این‌که گوگل (دیپ‌مایند) هم در مدل زبانی جدید خود (Gemma) از الگوریتم REINFORCE به‌جای PPO استفاده کرده‌ست.

https://cohere.com/research/papers/back-to-basics-revisiting-reinforce-style-optimization-for-learning-from-human-feedback-in-llms-2024-02-23

پی‌نوشت ۱: عده‌ای از پژوهش‌گران معتقدند فاین‌تیون‌کردن مدل‌های زبانی از روی بازخورد انسانی باعث افت کیفیت مدل‌ها به مرور زمان می‌شود.

پی‌نوشت ۲: مدل زبانی کوچک شرکت مایکروسافت (Phi-2) به روش RLHF فاین‌تیون نشده‌ست. دلیل این کار، فراهم آوردن بستری برای تحقیق در رابطه با چالش‌های مرتبط با ایمنی این مدل‌ها از جمله سوگیری‌های اجتماعی، محتوای سمی، پایش‌پذیری و … است.

👏22👍8❤1

4.11K viewsedited 18:48

School of AI

ورژن ۹ مدل YOLO در چهار سایز ۷/۲ میلیون، ۲۰/۱ میلیون و ۲۵/۵ میلیون و ۵۸/۱ میلیون پارامتر منتشر شد!!! مقاله: https://arxiv.org/abs/2402.13616 کد: https://github.com/WongKinYiu/yolov9 نوت‌بوک برای فاین‌تیون کردن مدل: https://colab.research.google.com/github/roboflow…

آموزش finetune کردن مدل جدید YOLOv9 برروی دیتاست شخصی و سفارشی‌شده

https://blog.roboflow.com/train-yolov9-model/

Roboflow Blog

How to Train YOLOv9 on a Custom Dataset

Learn how to train a YOLOv9 model on a custom dataset.

❤12

3.47K views12:08

School of AI

آموزش finetune کردن مدل جدید Gemma برروی دیتاست شخصی و سفارشی‌شده

https://huggingface.co/blog/gemma-peft

huggingface.co

Fine-Tuning Gemma Models in Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍8❤4

8.1K views12:10

School of AI

Forwarded from رویدادهای هوش مصنوعی

1:29:35

Media is too big

VIEW IN TELEGRAM

🎬فیلم جلسه سخنرانی آقای مهندس علیرضا اخوان پور- Graph Neural Networks

🧷مربوط به رویداد : https://xn--r1a.website/eventai/820

🔖اسلایدها:
https://xn--r1a.website/eventai/828

📓منبع:
https://xn--r1a.website/CS_Sharif_University_2023

#gnn #gcn #graph #deeplearning #AI
#گراف #شبکه_عصبی_گراف
〰️〰️〰️〰️〰️
این کانال با هدف آگاه سازی از رویدادهای مرتبط با هوش مصنوعی نظیر همایش، کنفرانس، ورک‌شاپ و کلاس تشکیل شده است.

@eventai

👍12

3.25K views18:12

School of AI

همون‌طور که احتمالا بیشتر علاقه‌مندان به هوش مصنوعی و یادگیری ماشین درجریان‌اند، در سال‌های اخیر، به‌ویژه پس از معرفی Transformerها، یک تغییر نگرش و پارادایم‌شیفت در این حوزه اتفاق افتاده و اون هم حرکت به سمت مدل‌های بنیادین (Foundation Models) ساخته‌شده توسط آزمایش‌گاه‌های بزرگ، به‌عنوان بلوک‌های سازنده‌ی سامانه‌های هوشمند‌ست.

مدل‌های بنیادین، شبکه‌های عصبی ژرف و بزرگی‌اند که برروی حجم وسیعی از داده‌های گوناگون آموزش دیده‌اند و برای انجام تسک‌های گوناگون (نه فقط یک تسک) به‌سادگی و به‌صورت few-shot و حتی zero-shot فاین‌تیون شده و آموزش می‌بینند.

به عنوان مثال، مدل‌های زبانی بزرگ همچون GPTها (اوپن‌اِی‌آی) یا Llama (متا) یا Gemma (گوگل) یا Phi (مایکروسافت)، که با مشاهده‌ی حجم وسیعی از داده‌های متنی در زمینه‌های مختلف و استخراج رابطه‌ی آماری بین واژه‌ها، الگوهای زبانی را یادگرفته و برای تسک‌های مختلف از جمله پرسش‌وپاسخ، خلاصه‌سازی، استنتاج و … مورد استفاده قرار می‌گیرند. و یا مدل‌های بنیادین مرتبط با بینایی ماشین مانند CLIP (اوپن‌اِی‌آی) یا GLIP (مایکروسافت) یا SAM (متا) یا YOLO-World که با آموزش برروی حجم وسیعی از تصاویر، مفاهیم بصری موجود در تصاویر را یاد گرفته و به‌صورت zero-shot برای تسک‌های مختلف قابل استفاده‌اند.

بااینکه، مدل‌های بنیادین در زمینه‌‌های پردازش زبان طبیعی و بینایی ماشین پیش‌رفت‌های قابل توجهی داشته‌اند، اما در زمینه‌ی پیش‌بینی سری‌های زمانی که یکی از مهم‌ترین کاربرد‌های هوش مصنوعی به‌ویژه در کسب‌وکارها‌ست، هنوز جای کار بسیار است.

در زیر، لینک چند نمونه از مدل‌های بنیادین که اخیرا برای پیش‌بینی سری‌های زمانی معرفی شده‌اند را مشاهده می‌کنید:

https://arxiv.org/pdf/2402.02592.pdf
https://arxiv.org/pdf/2310.08278.pdf
https://arxiv.org/pdf/2402.03885.pdf
https://arxiv.org/pdf/2310.10688.pdf

👍26❤8

4.61K viewsedited 17:11

School of AI

0:21

This media is not supported in your browser

VIEW IN TELEGRAM

مدل بنیادین گوگل برای درک ویدئو منتشر شد!!!

مدل VideoPrism یک ViFM یا مدل بنیادین ویدئو‌ست که برخلاف مدل‌های قبلی مثل VideoCLIP برای دامنه‌ی وسیعی از تسک‌ها از جمله classification و localization و retrieval و captioning و question answering قابل استفاده‌ست.

https://blog.research.google/2024/02/videoprism-foundational-visual-encoder.html

🔥7👍4😍3

10.7K views19:07

School of AI

1:00

This media is not supported in your browser

VIEW IN TELEGRAM

نسخه‌ی جدید از مدل زبانی شرکت فرانسوی Mistral به نام Mistral Large که در روزهای اخیر معرفی شده توانسته (به‌ویژه در تسک‌های استدلال-محور) از سایر رقبا بهتر عمل کنه.

امروز شرکت مایکروسافت (که اتفاقا سهام‌دار اصلی OpenAI هم است) اعلام کرد طی قراردی همکاری‌ای جدید‌، این مدل روی Microsoft Azure AI Studio و Microsoft Azure Machine Learning Studio در دسترس است.

https://azure.microsoft.com/en-us/blog/microsoft-and-mistral-ai-announce-new-partnership-to-accelerate-ai-innovation-and-introduce-mistral-large-first-on-azure/

👍14❤1

3.9K viewsedited 10:36

School of AI

چگونه از Tensorboard در Google Colab استفاده کنیم؟!

همون‌طور که می‌دونید، Tensorboard ابزاری‌ست که برای به‌تصویرکشیدن متریک‌هایی مثل loss و accuracy در حین آموزش مدل در TensorFlow (و البته PyTorch) و چند مورد دیگه استفاده می‌شه.

برای این کار، هنگام آموزش مدل در تنسورفلو، یک callback به نام tf.keras.callbacks.TensorBoard را به متد train پاس می‌دیم و در پایتورچ، از torch.utils.tensorboard.SummaryWriter استفاده می‌کنیم. اطلاعات لازم در یک پوشه (مثلا /runs/. در پایتورچ) لاگ می‌شن. سپس سرویس TensorBoard که یک نرم‌افزار تحت وب جدا‌ست رو با اجرای دستور tensorboard در ترمینال اجرا کرده و از طریق مرورگر وب (http://localhost:6006) به آن متصل می‌شیم.

اما زمانی که از Google Colab استفاده می‌کنیم، مرورگر ما به ماشین مجازی‌ای که کد روی اون در حال اجراست، دسترسی نداره و چون اون ماشین مجازی، IP معتبر و اختصاصی روی اینترنت نداره، در حالت عادی نمی‌تونیم به سرویس TensorBoard روی اون متصل شیم.

پس راه‌حل چیست؟
پاسخ: باز کردن یک تونل از یک آدرس معتبر اینترنتی به داخل ماشین مجازی و سرویس تنسوربورد

اگه یه دامنه‌ی اختصاصی برای خودتون دارید می‌تونید روی سایت Cloudflare یه اکانت بسازید و اونجا از یک آدرس معتبر یه تونل به ماشینی که می‌خواید باز کنید.
ولی اگه دامین خودتون رو ندارید می‌تونید از Ngrok استفاده کنید.

برای استفاده از Ngrok داخل نوت‌بوک خود در گوگل کولب، اول دو دستور زیر رو اجرا کنید تا Ngrok دانلود و extract شه:


!wget https://bin.equinox.io/c/4VmDzA7iaHb/ngrok-stable-linux-amd64.zip
!unzip -o ngrok-stable-linux-amd64.zip

بعد سرویس تنسوربورد رو با دستور زیر روی پورت ۶۰۰۶ اجرا کنید:


LOGDIR = '/tmp/log'
get_ipython().system_raw(
    'tensorboard --logdir {} --host 0.0.0.0 --port 6006 &'
    .format(LOG_DIR)
)

بعد Ngrok رو اجرا کرده و سر تونل رو به پورت ۶۰۰۶ ماشین مجازی وصل کنید


get_ipython().system_raw('./ngrok http 6006 &')

تونل شما آماده‌ست. با اجرای دستور زیر آدرس عمومی دسترسی به تونل رو پیدا کنید و ازون طریق تنسوربورد رو باز کنید:


!curl -s http://localhost:4040/api/tunnels | python3 -c \
    "import sys, json; print(json.load(sys.stdin)['tunnels'][0]['public_url'])"

👍19❤6😍4🔥3

4.39K viewsedited 00:18

School of AI

محاسبه‌ی فاصله به کمک Ultralytics YOLOv8

https://docs.ultralytics.com/guides/distance-calculation/#advantages-of-distance-calculation

پی‌نوشت: توی عکس چه‌جوری فاصله اون دو نفر ۴ متره؟! 😂

👍14❤3🔥1

4.5K viewsedited 19:30

School of AI

شرکت مایکروسافت یک شبکه‌ی عصبی گرافی به نام ViSNet برای مدل‌سازی و بازنمایی ساختارهای هندسی سه‌بعدی مانند مولکول‌ها ارائه داده‌ست که قادر‌ست ارتباطات پیچیده بین ساختار مولکولی و فعالیت بیولوژیکی (structure-activity relationships) را درک کرده و رفتار و ویژگی‌های مولکول‌‌ها را پیش‌بینی کند.

https://www.microsoft.com/en-us/research/blog/visnet-a-general-molecular-geometry-modeling-framework-for-predicting-molecular-properties-and-simulating-molecular-dynamics/

لینک مقاله در Nature:
https://www.nature.com/articles/s41467-023-43720-2

❤15👍7

11.8K viewsedited 21:40

School of AI

اکثر دوستان با سه فریم‌ورک اصلی یادگیری عمیق یعنی TensorFlow و PyTorch و JAX آشنااند، اما voodoo یک فریم‌ورک نسبتا جدید‌ست که به زبان Mojo (زبان برنامه‌نویسی جدید برای AI که مزایای C و Python را ترکیب کرده‌ست) نوشته شده‌ست.

حال اینکه اخیرا آقای شوله، نویسنده‌ی Keras اعلام کرده‌اند که در حال بررسی این فریم‌ورک برای افزودن به لیست بک‌اند‌های قابل پشتیبانی در Keras 3 هستند.

https://github.com/Benny-Nottonson/voodoo

🔥22👍8

9.72K views19:52

About

Blog

Apps

Platform