School of AI
10.4K subscribers
290 photos
94 videos
11 files
612 links
هدف ما در این اجتماع کوچک، آموزش و ترویج هوش مصنوعی و افزایش سطح آگاهی و تخصص نسبت به آن است.
باشد که دست در دست هم، آینده‌ی این صنعت را در میهن‌مان ایران بسازیم.

https://www.aparat.com/v/Pmrs8
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
پروژه‌ی ChatDev یک سامانه‌ی چندعاملی (Multi-agent) مبتنی بر LLM است که یک شرکت نرم‌افزاری کامل شامل مدیر ارشد اجرایی، مدیر ارشد محصول، مدیر ارشد فناوری، برنامه‌نویس، آزمون‌گر، طراح و … را شبیه‌سازی می‌کند.

ماموریت تعریف‌شده برای این شرکت مجازی، دگرگون‌سازی دنیای دیجیتال از طریق برنامه‌نویسی‌ست.

این مجموعه می‌تواند تسک‌هایی مثل “ساخت بازی پینگ‌پونگ” را گرفته و آن را با هم‌کاری تیمی انجام دهد.


گیت‌هاب:
https://github.com/OpenBMB/ChatDev

مقاله:
https://arxiv.org/pdf/2307.07924
👍14🔥5
خوب احتمالا بیش‌تر دوستان می‌دونن که در ساخت سامانه‌های نرم‌افزاری مبتنی بر LLM ها (منظورم Compound AI System هاست) از پایپلاین RAG برای بازیابی دانش به‌روزِ لازم و ارسال اون به LLM استفاده می‌شه.

در این صورت لازمه که دانش موردنظر رو ازقبل Embed کرده و در یک دیتابیس برداری مثل Picone یا دیتابیس گرافی مثل Neo4j ذخیره کنیم.

اما در سامانه‌های بی‌درنگ (Realtime) با جریان (Stream) داده‌ها روبه‌روییم و لازم‌ست آن‌ها را Embed کرده و در اولین فرصت ممکن برای بهره‌برداری توسط RAG آماده کنیم.

مرسوم‌ترین ابزار برای استریم‌کردن داده‌ها Apache Kafka است که اگر به‌صورت جدی و در مقیاس بزرگ باهاش کار کرده‌ باشید، بعیده موی مشکی داشته باشید و دراین‌صورت Redpanda دوست خوب شماست :)

مقاله‌ی زیر آموزش ساخت یک سامانه‌ی RAG به‌صورت Realtime و به‌کمک Redpanda و LangChain و MongoDB رو آموزش می‌ده.

https://medium.com/@jameskinley/streaming-text-embeddings-for-retrieval-augmented-generation-rag-95da9249a548
26👍6
This media is not supported in your browser
VIEW IN TELEGRAM
اگر در زمینه‌ی بینایی رایانه (Computer Vision) فعال باشید، حتما Roboflow رو می‌شناسید.

مهم‌ترین قابلیتی که Roboflow به متخصصان CV ارائه می‌ده، قابلیت Annotate کردن تصاویر و آماده‌سازی و میزبانی دیتاست‌ست.

این ابزار از مدل‌های بنیادین مثل GroundingDINO و SAM استفاده کرده و تا جای ممکن، عمل Annotation رو به‌صورت خودکار انجام می‌ده.

امروز SAM2 به روبوفلو اضافه شد که عمل‌كرد بی‌نظیر اون رو در تصویر می‌بینید.
👍41
دوستان عزیزی که محتوای کانال رو در رسانه‌های خودتون، به‌جای فروارد، کپی می‌کنید،

نوش جون‌تون،
اگه هدف‌تون رسوندن دانش و اخبار به مخاطبه،
دم‌تون هم گرم،
نیازی به cite و کردیت نیست.

اما دیگه حداقل زیرش کپی‌رایت خودتون رو نزنید 😄

لینک‌های وسط پُست هم خیلی مهم‌اند، پاکشون نکنید 😕

پی‌نوشت: اسم کانال رو شطرنجی نکردم که کردیت لازم به کانالی که تصویر ازش برداشت شده، حفظ شه 🤭
👏519👍7😍1
Forwarded from DeepMind AI Expert (Mehdi Dehghani)
ورکشاپ #Diffusion_Models در #NeurIPS_2023

این ورکشاپ حدود 8 ساعت هست، در قسمت Schedule میتونید بخش دلخواه از ورکشاپ را ببینید:
https://neurips.cc/virtual/2023/workshop/66539


لینک زیر لیست سایر ورکشاپ های NeurIPS 2023 هست:
https://neurips.cc/virtual/2023/events/workshop

#منابع #ورکشاپ #کنفرانس #دیفیوژن #NeurIPS

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍136🔥1
پژوهش جدید و جالب از تیم پروفسور Manning - دانشگاه استنفورد

Recurrent Neural Networks Learn to Store and Generate Sequences
using Non-Linear Representations

https://arxiv.org/pdf/2408.10920
👍19🔥4
یک مقاله‌ی خوب و کامل برای بازنگری روش‌های GraphRAG

https://arxiv.org/pdf/2408.08921
👍82
اگه در حال طراحی یک AI Agent برای … هستید،
دست نگه دارید!
طراحی Agent تون رو به Agent جدید بچه‌های دانشگاه UBC و آزمایشگاه‌های Vector و CIFAR بسپارید.

https://arxiv.org/pdf/2408.08435
🔥15👍71
پارادایم TAG یا Table-augmented Generation توسط پژوهش‌گران دانشگاه برکلی و استنفورد معرفی شده و برای تبدیل کوئری متنی به کد SQL روی دیتابیس استفاده می‌شود.

گیت‌هاب:
https://github.com/TAG-Research/TAG-Bench

مقاله:
https://arxiv.org/pdf/2408.14717v1
👍163
مایکروسافت ابزاری به‌نام AutoGen Studio را منتشر کرده که به پژوهش‌گران حوزه‌ی Multi Agent Systems اجازه می‌دهد بدون کدنویسی (فقط با drag-n-drop) یک سامانه‌ی چندعامله مبتنی بر GenAI را به‌عنوان پروتوتایپ و به‌سادگی چند کلیک پیاده‌سازی کنند.


pip install autogenstudio
autogenstudio ui -- port 8081


بلاگ‌پست معرفی:
https://www.microsoft.com/en-us/research/blog/introducing-autogen-studio-a-low-code-interface-for-building-multi-agent-workflows/

گیت‌هاب:
https://github.com/microsoft/autogen/tree/main/samples/apps/autogen-studio

مقاله:
https://arxiv.org/pdf/2408.15247
👍252🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
واترمارکینگ در مدل‌های GenAI

واترمارکینگ در GenAI به نشانه‌گذاری‌هایی درون محتوای تولیدشده (متن، تصویر، ویدئو، موسیقی و …) گفته می‌شود که از نگاه ما پنهان ولی در نگاه ماشین آشکار باشند.

مثلا گوگل در محصولات GenAI خود از ابزاری به‌نام SynthID استفاده کرده و محتوای تولید‌شده را واترمارک می‌کند.

بنابراین به‌عنوان‌نمونه شما در مواجهه با یک تصویر در بخش جست‌وجوی گوگل، می‌توانید با مراجعه به قسمت about this image واترمارک آن را بررسی کنید. یا با مراجعه به سایت‌هایی مثل ZeroGPT انسانی بودن یک متن را بررسی کنید.

روش عمل‌کرد واترمارک در LLM ها به‌این‌صورت‌ست که:
می‌دانیم، مدل زبانی، در هر لحظه، توکن بعدی را به‌صورت یک توزیع احتمال روی واژه‌نامه، پیش‌بینی می‌کند. ابزارهای واترمارکینگ، این توزیع احتمال را جوری‌که به دقت، صحت و خلاقیت متن آسیبی نرسد، تغییر می‌دهند. به‌این‌صورت، حتی در یک متن سه‌جمله‌ای نیز تعداد قابل توجهی واترمارک وجود دارد که از نگاه ما پنهان‌ست ولی ابزارهایی مانند SynthID یا ZeroGPT آن‌را آشکار می‌کنند.

https://deepmind.google/technologies/synthid/
👍231
گوگل نامِ TensorFlow Lite را به LiteRT تغییر داد.

درابتدا، TFLite نسخه‌ای سبک از مدل‌های تنسورفلو برای اجرا روی دستگاه‌های موبایل بود.

اما در ادامه تبدیل به یک runtime عمومی برای اجرای مدل‌های یادگیری ماشین نوشته‌شده توسط TensorFlow و Keras و Pytorch و JAX برروی دستگاه‌های Edge از جمله موبایل‌های اندرویدی و iOS و همین‌طور Embedded Devices شد.

نام جدید، بیان‌گر ویژن جدید این محصول‌ست.

https://developers.googleblog.com/en/tensorflow-lite-is-now-litert/?linkId=10850223
👍129🔥1
اگر علاقه‌مند به مدل‌های VLM هستید، به‌احتمال زیاد طی روزهای اخیر در مورد دو مدل جدید و قدرت‌مند Qwen2-VL و LLaVa-OneVision که مبتنی بر مدل زبانی Qwen2 اند شنیده‌اید.

مدل Qwen2-VL در دو نسخه‌ی ۲ و ۷ میلیاردی (و به‌زودی ۷۲ میلیاردی) توسط گروه Alibaba و تحت لیسانس Apache 2.0 به‌صورت اوپن-سورس منتشر شده و عمل‌کرد قابل‌توجهی در تسک‌هایی مثل OCR و Object Tagging و Keyword Generation و Image Classification و Object Detection از خود نشان داده‌ست.

مدل LLaVa-OneVision (نسل جدیدِ LLaVa-NeXT) در سه سایز ۵۰۰ میلیونی، ۷ میلیاردی و ۷۲ میلیاردی و تحت لیسانس CC BY NC 4.0 (قابل استفاده برای اهداف غیرِتجاری) منتشر شده و به‌خصوص در تسک‌های ویدئویی عمل‌کرد چشم‌گیری داشته‌ست. این مدل به‌کمک تکنیک anyres-9 قادرست تصاویر با هر رزولوشنی را با جزییات کافی پردازش کند.

قدرت فهم ویدئو در این دو مدل روی بنچ‌مارک Video-MME در این جدول بررسی شده‌ست.
👍152🔥2😍1
مجله‌ی مشهور TIME نام ایلان ماسک، موسس شرکت‌های Tesla و SpaceX و Neuralink و هم‌بنیان‌گذار OpenAI را از لیست ۱۰۰ چهره‌ی تاثیرگذار در دنیای AI حذف کرد 😂

با‌این‌حال اسکارلت جانسون، هنرپیشه‌ی فیلم‌های هالیوودی و صداپیشه‌ی فیلم Her هم‌چنان در این لیست قرار دارد. 🤔

بسیاری این تصمیم رو ناشی از سوگیری‌های سیاسی این مجله و مرتبط با حمایت‌های اخیر ماسک از Trump عنوان کرده‌اند.
👍439😍1
یک بلاگ‌پُست بسیار خوب در مورد طراحی مقیاس‌پذیر معماری سامانه‌های AI

https://huyenchip.com/2024/07/25/genai-platform.html
👍113
اگر تا الان سعی کرده باشید که یکی از VLM ها مثل PaliGemma یا Florence-2 یا Qwen2-VL رو روی داده‌های خودتون فاین‌تیون کنید، می‌دونید که به این سادگی‌ها هم نیست!

پکیج maestro اومده که این مشکل رو حل کنه و فاین‌تیون‌کردن مدل‌های چندوجهی رو ساده‌تر کنه.


گیت‌هاب:
https://github.com/roboflow/multimodal-maestro

نوت‌بوک:
https://colab.research.google.com/github/roboflow/multimodal-maestro/blob/develop/cookbooks/maestro_florence2_object_detection.ipynb
20👍13
This media is not supported in your browser
VIEW IN TELEGRAM
نجات کودک گم‌شده در مزرعه‌ی ذرت، به‌کمک پهباد و دوربین حرارتی.
👏5718👍10🔥1😍1
کد پیاده‌سازی‌شده‌ی تعدادی از مدل‌های self-supervised learning پرکاربرد که توسط بهروز جان آذرخلیلی منتشر شده‌ست.

https://github.com/behroozazarkhalili/SSL
👍1710🔥2
تراشه‌های رایانه‌ای نقش مهمی در پیش‌رفت هوش مصنوعی داشته‌اند، حال نوبت به هوش مصنوعی‌ست که دین خود را ادا کند.

چهارسال پیش، آزالیا میرحسینی در گوگل موفق شد به‌کمک یادگیری تقویتی عمیق، روشی برای طراحی چیدمان تراشه‌های کامپیوتری (chip floorplanning) ابداع کند.

در این روش، ابتدا، یک Grid خالی درنظر گرفته شده و در هر تکرار، یکی از مولفه‌ها (مدارها)،‌ روی آن قرار می‌گیرد. پاداش نهایی از روی کیفیت چیدمان تراشه‌ی نهایی مشخص می‌شود. یک شبکه‌ی عصبی گرافی مبتنی بر یال (Edge-based GNN) ارتباط بین مولفه‌ها را یادگرفته و آن را به بخش‌های دیگر تعمیم می‌دهد.

لازم به ذکرست، تمام تراشه‌های شتاب‌دهی هوش مصنوعی گوگل (TPU) و همین‌طور Google Axion توسط این روش طراحی شده‌اند.

امروز بعد از چهار سال، این مدل، AlphaChip نام گرفت و به‌زودی چک‌پوینت (وزن‌های) آن برای استفاده‌ی سایرین دردسترس قرار خواهد گرفت.


بلاگ‌پست:
https://deepmind.google/discover/blog/how-alphachip-transformed-computer-chip-design/
گیت‌هاب:
https://github.com/google-research/circuit_training/
35👍13