This media is not supported in your browser
VIEW IN TELEGRAM
پروژهی ChatDev یک سامانهی چندعاملی (Multi-agent) مبتنی بر LLM است که یک شرکت نرمافزاری کامل شامل مدیر ارشد اجرایی، مدیر ارشد محصول، مدیر ارشد فناوری، برنامهنویس، آزمونگر، طراح و … را شبیهسازی میکند.
ماموریت تعریفشده برای این شرکت مجازی، دگرگونسازی دنیای دیجیتال از طریق برنامهنویسیست.
این مجموعه میتواند تسکهایی مثل “ساخت بازی پینگپونگ” را گرفته و آن را با همکاری تیمی انجام دهد.
گیتهاب:
https://github.com/OpenBMB/ChatDev
مقاله:
https://arxiv.org/pdf/2307.07924
ماموریت تعریفشده برای این شرکت مجازی، دگرگونسازی دنیای دیجیتال از طریق برنامهنویسیست.
این مجموعه میتواند تسکهایی مثل “ساخت بازی پینگپونگ” را گرفته و آن را با همکاری تیمی انجام دهد.
گیتهاب:
https://github.com/OpenBMB/ChatDev
مقاله:
https://arxiv.org/pdf/2307.07924
👍14🔥5
خوب احتمالا بیشتر دوستان میدونن که در ساخت سامانههای نرمافزاری مبتنی بر LLM ها (منظورم Compound AI System هاست) از پایپلاین RAG برای بازیابی دانش بهروزِ لازم و ارسال اون به LLM استفاده میشه.
در این صورت لازمه که دانش موردنظر رو ازقبل Embed کرده و در یک دیتابیس برداری مثل Picone یا دیتابیس گرافی مثل Neo4j ذخیره کنیم.
اما در سامانههای بیدرنگ (Realtime) با جریان (Stream) دادهها روبهروییم و لازمست آنها را Embed کرده و در اولین فرصت ممکن برای بهرهبرداری توسط RAG آماده کنیم.
مرسومترین ابزار برای استریمکردن دادهها Apache Kafka است که اگر بهصورت جدی و در مقیاس بزرگ باهاش کار کرده باشید، بعیده موی مشکی داشته باشید و دراینصورت Redpanda دوست خوب شماست :)
مقالهی زیر آموزش ساخت یک سامانهی RAG بهصورت Realtime و بهکمک Redpanda و LangChain و MongoDB رو آموزش میده.
https://medium.com/@jameskinley/streaming-text-embeddings-for-retrieval-augmented-generation-rag-95da9249a548
در این صورت لازمه که دانش موردنظر رو ازقبل Embed کرده و در یک دیتابیس برداری مثل Picone یا دیتابیس گرافی مثل Neo4j ذخیره کنیم.
اما در سامانههای بیدرنگ (Realtime) با جریان (Stream) دادهها روبهروییم و لازمست آنها را Embed کرده و در اولین فرصت ممکن برای بهرهبرداری توسط RAG آماده کنیم.
مرسومترین ابزار برای استریمکردن دادهها Apache Kafka است که اگر بهصورت جدی و در مقیاس بزرگ باهاش کار کرده باشید، بعیده موی مشکی داشته باشید و دراینصورت Redpanda دوست خوب شماست :)
مقالهی زیر آموزش ساخت یک سامانهی RAG بهصورت Realtime و بهکمک Redpanda و LangChain و MongoDB رو آموزش میده.
https://medium.com/@jameskinley/streaming-text-embeddings-for-retrieval-augmented-generation-rag-95da9249a548
❤26👍6
This media is not supported in your browser
VIEW IN TELEGRAM
اگر در زمینهی بینایی رایانه (Computer Vision) فعال باشید، حتما Roboflow رو میشناسید.
مهمترین قابلیتی که Roboflow به متخصصان CV ارائه میده، قابلیت Annotate کردن تصاویر و آمادهسازی و میزبانی دیتاستست.
این ابزار از مدلهای بنیادین مثل GroundingDINO و SAM استفاده کرده و تا جای ممکن، عمل Annotation رو بهصورت خودکار انجام میده.
امروز SAM2 به روبوفلو اضافه شد که عملكرد بینظیر اون رو در تصویر میبینید.
مهمترین قابلیتی که Roboflow به متخصصان CV ارائه میده، قابلیت Annotate کردن تصاویر و آمادهسازی و میزبانی دیتاستست.
این ابزار از مدلهای بنیادین مثل GroundingDINO و SAM استفاده کرده و تا جای ممکن، عمل Annotation رو بهصورت خودکار انجام میده.
امروز SAM2 به روبوفلو اضافه شد که عملكرد بینظیر اون رو در تصویر میبینید.
👍41
دوستان عزیزی که محتوای کانال رو در رسانههای خودتون، بهجای فروارد، کپی میکنید،
نوش جونتون،
اگه هدفتون رسوندن دانش و اخبار به مخاطبه،
دمتون هم گرم،
نیازی به cite و کردیت نیست.
اما دیگه حداقل زیرش کپیرایت خودتون رو نزنید 😄
لینکهای وسط پُست هم خیلی مهماند، پاکشون نکنید 😕
پینوشت: اسم کانال رو شطرنجی نکردم که کردیت لازم به کانالی که تصویر ازش برداشت شده، حفظ شه 🤭
نوش جونتون،
اگه هدفتون رسوندن دانش و اخبار به مخاطبه،
دمتون هم گرم،
نیازی به cite و کردیت نیست.
اما دیگه حداقل زیرش کپیرایت خودتون رو نزنید 😄
لینکهای وسط پُست هم خیلی مهماند، پاکشون نکنید 😕
پینوشت: اسم کانال رو شطرنجی نکردم که کردیت لازم به کانالی که تصویر ازش برداشت شده، حفظ شه 🤭
👏51❤9👍7😍1
Forwarded from DeepMind AI Expert (Mehdi Dehghani)
ورکشاپ #Diffusion_Models در #NeurIPS_2023
این ورکشاپ حدود 8 ساعت هست، در قسمت Schedule میتونید بخش دلخواه از ورکشاپ را ببینید:
https://neurips.cc/virtual/2023/workshop/66539
لینک زیر لیست سایر ورکشاپ های NeurIPS 2023 هست:
https://neurips.cc/virtual/2023/events/workshop
#منابع #ورکشاپ #کنفرانس #دیفیوژن #NeurIPS
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
این ورکشاپ حدود 8 ساعت هست، در قسمت Schedule میتونید بخش دلخواه از ورکشاپ را ببینید:
https://neurips.cc/virtual/2023/workshop/66539
لینک زیر لیست سایر ورکشاپ های NeurIPS 2023 هست:
https://neurips.cc/virtual/2023/events/workshop
#منابع #ورکشاپ #کنفرانس #دیفیوژن #NeurIPS
🔸 مطالب بیشتر 👇👇
✅ @AI_DeepMind
🔸 @AI_Person
👍13❤6🔥1
پژوهش جدید و جالب از تیم پروفسور Manning - دانشگاه استنفورد
Recurrent Neural Networks Learn to Store and Generate Sequences
using Non-Linear Representations
https://arxiv.org/pdf/2408.10920
Recurrent Neural Networks Learn to Store and Generate Sequences
using Non-Linear Representations
https://arxiv.org/pdf/2408.10920
👍19🔥4
اگه در حال طراحی یک AI Agent برای … هستید،
دست نگه دارید!
طراحی Agent تون رو به Agent جدید بچههای دانشگاه UBC و آزمایشگاههای Vector و CIFAR بسپارید.
https://arxiv.org/pdf/2408.08435
دست نگه دارید!
طراحی Agent تون رو به Agent جدید بچههای دانشگاه UBC و آزمایشگاههای Vector و CIFAR بسپارید.
https://arxiv.org/pdf/2408.08435
🔥15👍7❤1
Forwarded from آموزش دانشکده کامپیوتر
Google Docs
فرم درخواست همکاری بهعنوان دستیار آموزشی درس برنامهسازی پیشرفته - حمیدرضا حسینخانی - نیمسال نخست ۱۴۰۳ - ۱۴۰۴ - دانشگاه صنعتی…
عنوان درس: برنامهسازی پیشرفته
مدرس: حمیدرضا حسینخانی
در این درس، مفاهیم برنامهسازی شیگرا بهکمک زبان برنامهنویسی جاوا تدریس میشود. همچنین ویژگیهای ذاتی زبان جاوا، امکانات برنامهسازی در جاوا، تفاوت رویکرد جاوا با زبانهای مشابه در موارد مختلف، برنامهسازی…
مدرس: حمیدرضا حسینخانی
در این درس، مفاهیم برنامهسازی شیگرا بهکمک زبان برنامهنویسی جاوا تدریس میشود. همچنین ویژگیهای ذاتی زبان جاوا، امکانات برنامهسازی در جاوا، تفاوت رویکرد جاوا با زبانهای مشابه در موارد مختلف، برنامهسازی…
👍4❤2🔥1😍1
پارادایم TAG یا Table-augmented Generation توسط پژوهشگران دانشگاه برکلی و استنفورد معرفی شده و برای تبدیل کوئری متنی به کد SQL روی دیتابیس استفاده میشود.
گیتهاب:
https://github.com/TAG-Research/TAG-Bench
مقاله:
https://arxiv.org/pdf/2408.14717v1
گیتهاب:
https://github.com/TAG-Research/TAG-Bench
مقاله:
https://arxiv.org/pdf/2408.14717v1
👍16❤3
مایکروسافت ابزاری بهنام AutoGen Studio را منتشر کرده که به پژوهشگران حوزهی Multi Agent Systems اجازه میدهد بدون کدنویسی (فقط با drag-n-drop) یک سامانهی چندعامله مبتنی بر GenAI را بهعنوان پروتوتایپ و بهسادگی چند کلیک پیادهسازی کنند.
بلاگپست معرفی:
https://www.microsoft.com/en-us/research/blog/introducing-autogen-studio-a-low-code-interface-for-building-multi-agent-workflows/
گیتهاب:
https://github.com/microsoft/autogen/tree/main/samples/apps/autogen-studio
مقاله:
https://arxiv.org/pdf/2408.15247
pip install autogenstudio
autogenstudio ui -- port 8081
بلاگپست معرفی:
https://www.microsoft.com/en-us/research/blog/introducing-autogen-studio-a-low-code-interface-for-building-multi-agent-workflows/
گیتهاب:
https://github.com/microsoft/autogen/tree/main/samples/apps/autogen-studio
مقاله:
https://arxiv.org/pdf/2408.15247
👍25❤2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
واترمارکینگ در مدلهای GenAI
واترمارکینگ در GenAI به نشانهگذاریهایی درون محتوای تولیدشده (متن، تصویر، ویدئو، موسیقی و …) گفته میشود که از نگاه ما پنهان ولی در نگاه ماشین آشکار باشند.
مثلا گوگل در محصولات GenAI خود از ابزاری بهنام SynthID استفاده کرده و محتوای تولیدشده را واترمارک میکند.
بنابراین بهعنواننمونه شما در مواجهه با یک تصویر در بخش جستوجوی گوگل، میتوانید با مراجعه به قسمت about this image واترمارک آن را بررسی کنید. یا با مراجعه به سایتهایی مثل ZeroGPT انسانی بودن یک متن را بررسی کنید.
روش عملکرد واترمارک در LLM ها بهاینصورتست که:
میدانیم، مدل زبانی، در هر لحظه، توکن بعدی را بهصورت یک توزیع احتمال روی واژهنامه، پیشبینی میکند. ابزارهای واترمارکینگ، این توزیع احتمال را جوریکه به دقت، صحت و خلاقیت متن آسیبی نرسد، تغییر میدهند. بهاینصورت، حتی در یک متن سهجملهای نیز تعداد قابل توجهی واترمارک وجود دارد که از نگاه ما پنهانست ولی ابزارهایی مانند SynthID یا ZeroGPT آنرا آشکار میکنند.
https://deepmind.google/technologies/synthid/
واترمارکینگ در GenAI به نشانهگذاریهایی درون محتوای تولیدشده (متن، تصویر، ویدئو، موسیقی و …) گفته میشود که از نگاه ما پنهان ولی در نگاه ماشین آشکار باشند.
مثلا گوگل در محصولات GenAI خود از ابزاری بهنام SynthID استفاده کرده و محتوای تولیدشده را واترمارک میکند.
بنابراین بهعنواننمونه شما در مواجهه با یک تصویر در بخش جستوجوی گوگل، میتوانید با مراجعه به قسمت about this image واترمارک آن را بررسی کنید. یا با مراجعه به سایتهایی مثل ZeroGPT انسانی بودن یک متن را بررسی کنید.
روش عملکرد واترمارک در LLM ها بهاینصورتست که:
میدانیم، مدل زبانی، در هر لحظه، توکن بعدی را بهصورت یک توزیع احتمال روی واژهنامه، پیشبینی میکند. ابزارهای واترمارکینگ، این توزیع احتمال را جوریکه به دقت، صحت و خلاقیت متن آسیبی نرسد، تغییر میدهند. بهاینصورت، حتی در یک متن سهجملهای نیز تعداد قابل توجهی واترمارک وجود دارد که از نگاه ما پنهانست ولی ابزارهایی مانند SynthID یا ZeroGPT آنرا آشکار میکنند.
https://deepmind.google/technologies/synthid/
👍23❤1
گوگل نامِ TensorFlow Lite را به LiteRT تغییر داد.
درابتدا، TFLite نسخهای سبک از مدلهای تنسورفلو برای اجرا روی دستگاههای موبایل بود.
اما در ادامه تبدیل به یک runtime عمومی برای اجرای مدلهای یادگیری ماشین نوشتهشده توسط TensorFlow و Keras و Pytorch و JAX برروی دستگاههای Edge از جمله موبایلهای اندرویدی و iOS و همینطور Embedded Devices شد.
نام جدید، بیانگر ویژن جدید این محصولست.
https://developers.googleblog.com/en/tensorflow-lite-is-now-litert/?linkId=10850223
درابتدا، TFLite نسخهای سبک از مدلهای تنسورفلو برای اجرا روی دستگاههای موبایل بود.
اما در ادامه تبدیل به یک runtime عمومی برای اجرای مدلهای یادگیری ماشین نوشتهشده توسط TensorFlow و Keras و Pytorch و JAX برروی دستگاههای Edge از جمله موبایلهای اندرویدی و iOS و همینطور Embedded Devices شد.
نام جدید، بیانگر ویژن جدید این محصولست.
https://developers.googleblog.com/en/tensorflow-lite-is-now-litert/?linkId=10850223
👍12❤9🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
AlphaProteo generates novel proteins for biology and health research
https://deepmind.google/discover/blog/alphaproteo-generates-novel-proteins-for-biology-and-health-research/
https://deepmind.google/discover/blog/alphaproteo-generates-novel-proteins-for-biology-and-health-research/
👍16
اگر علاقهمند به مدلهای VLM هستید، بهاحتمال زیاد طی روزهای اخیر در مورد دو مدل جدید و قدرتمند Qwen2-VL و LLaVa-OneVision که مبتنی بر مدل زبانی Qwen2 اند شنیدهاید.
مدل Qwen2-VL در دو نسخهی ۲ و ۷ میلیاردی (و بهزودی ۷۲ میلیاردی) توسط گروه Alibaba و تحت لیسانس Apache 2.0 بهصورت اوپن-سورس منتشر شده و عملکرد قابلتوجهی در تسکهایی مثل OCR و Object Tagging و Keyword Generation و Image Classification و Object Detection از خود نشان دادهست.
مدل LLaVa-OneVision (نسل جدیدِ LLaVa-NeXT) در سه سایز ۵۰۰ میلیونی، ۷ میلیاردی و ۷۲ میلیاردی و تحت لیسانس CC BY NC 4.0 (قابل استفاده برای اهداف غیرِتجاری) منتشر شده و بهخصوص در تسکهای ویدئویی عملکرد چشمگیری داشتهست. این مدل بهکمک تکنیک anyres-9 قادرست تصاویر با هر رزولوشنی را با جزییات کافی پردازش کند.
قدرت فهم ویدئو در این دو مدل روی بنچمارک Video-MME در این جدول بررسی شدهست.
مدل Qwen2-VL در دو نسخهی ۲ و ۷ میلیاردی (و بهزودی ۷۲ میلیاردی) توسط گروه Alibaba و تحت لیسانس Apache 2.0 بهصورت اوپن-سورس منتشر شده و عملکرد قابلتوجهی در تسکهایی مثل OCR و Object Tagging و Keyword Generation و Image Classification و Object Detection از خود نشان دادهست.
مدل LLaVa-OneVision (نسل جدیدِ LLaVa-NeXT) در سه سایز ۵۰۰ میلیونی، ۷ میلیاردی و ۷۲ میلیاردی و تحت لیسانس CC BY NC 4.0 (قابل استفاده برای اهداف غیرِتجاری) منتشر شده و بهخصوص در تسکهای ویدئویی عملکرد چشمگیری داشتهست. این مدل بهکمک تکنیک anyres-9 قادرست تصاویر با هر رزولوشنی را با جزییات کافی پردازش کند.
قدرت فهم ویدئو در این دو مدل روی بنچمارک Video-MME در این جدول بررسی شدهست.
👍15❤2🔥2😍1
مجلهی مشهور TIME نام ایلان ماسک، موسس شرکتهای Tesla و SpaceX و Neuralink و همبنیانگذار OpenAI را از لیست ۱۰۰ چهرهی تاثیرگذار در دنیای AI حذف کرد 😂
بااینحال اسکارلت جانسون، هنرپیشهی فیلمهای هالیوودی و صداپیشهی فیلم Her همچنان در این لیست قرار دارد. 🤔
بسیاری این تصمیم رو ناشی از سوگیریهای سیاسی این مجله و مرتبط با حمایتهای اخیر ماسک از Trump عنوان کردهاند.
بااینحال اسکارلت جانسون، هنرپیشهی فیلمهای هالیوودی و صداپیشهی فیلم Her همچنان در این لیست قرار دارد. 🤔
بسیاری این تصمیم رو ناشی از سوگیریهای سیاسی این مجله و مرتبط با حمایتهای اخیر ماسک از Trump عنوان کردهاند.
👍43❤9😍1
یک بلاگپُست بسیار خوب در مورد طراحی مقیاسپذیر معماری سامانههای AI
https://huyenchip.com/2024/07/25/genai-platform.html
https://huyenchip.com/2024/07/25/genai-platform.html
👍11❤3
اگر تا الان سعی کرده باشید که یکی از VLM ها مثل PaliGemma یا Florence-2 یا Qwen2-VL رو روی دادههای خودتون فاینتیون کنید، میدونید که به این سادگیها هم نیست!
پکیج maestro اومده که این مشکل رو حل کنه و فاینتیونکردن مدلهای چندوجهی رو سادهتر کنه.
گیتهاب:
https://github.com/roboflow/multimodal-maestro
نوتبوک:
https://colab.research.google.com/github/roboflow/multimodal-maestro/blob/develop/cookbooks/maestro_florence2_object_detection.ipynb
پکیج maestro اومده که این مشکل رو حل کنه و فاینتیونکردن مدلهای چندوجهی رو سادهتر کنه.
گیتهاب:
https://github.com/roboflow/multimodal-maestro
نوتبوک:
https://colab.research.google.com/github/roboflow/multimodal-maestro/blob/develop/cookbooks/maestro_florence2_object_detection.ipynb
❤20👍13
This media is not supported in your browser
VIEW IN TELEGRAM
نجات کودک گمشده در مزرعهی ذرت، بهکمک پهباد و دوربین حرارتی.
👏57❤18👍10🔥1😍1
کد پیادهسازیشدهی تعدادی از مدلهای self-supervised learning پرکاربرد که توسط بهروز جان آذرخلیلی منتشر شدهست.
https://github.com/behroozazarkhalili/SSL
https://github.com/behroozazarkhalili/SSL
GitHub
GitHub - behroozazarkhalili/SSL
Contribute to behroozazarkhalili/SSL development by creating an account on GitHub.
👍17❤10🔥2
تراشههای رایانهای نقش مهمی در پیشرفت هوش مصنوعی داشتهاند، حال نوبت به هوش مصنوعیست که دین خود را ادا کند.
چهارسال پیش، آزالیا میرحسینی در گوگل موفق شد بهکمک یادگیری تقویتی عمیق، روشی برای طراحی چیدمان تراشههای کامپیوتری (chip floorplanning) ابداع کند.
در این روش، ابتدا، یک Grid خالی درنظر گرفته شده و در هر تکرار، یکی از مولفهها (مدارها)، روی آن قرار میگیرد. پاداش نهایی از روی کیفیت چیدمان تراشهی نهایی مشخص میشود. یک شبکهی عصبی گرافی مبتنی بر یال (Edge-based GNN) ارتباط بین مولفهها را یادگرفته و آن را به بخشهای دیگر تعمیم میدهد.
لازم به ذکرست، تمام تراشههای شتابدهی هوش مصنوعی گوگل (TPU) و همینطور Google Axion توسط این روش طراحی شدهاند.
امروز بعد از چهار سال، این مدل، AlphaChip نام گرفت و بهزودی چکپوینت (وزنهای) آن برای استفادهی سایرین دردسترس قرار خواهد گرفت.
بلاگپست:
https://deepmind.google/discover/blog/how-alphachip-transformed-computer-chip-design/
گیتهاب:
https://github.com/google-research/circuit_training/
چهارسال پیش، آزالیا میرحسینی در گوگل موفق شد بهکمک یادگیری تقویتی عمیق، روشی برای طراحی چیدمان تراشههای کامپیوتری (chip floorplanning) ابداع کند.
در این روش، ابتدا، یک Grid خالی درنظر گرفته شده و در هر تکرار، یکی از مولفهها (مدارها)، روی آن قرار میگیرد. پاداش نهایی از روی کیفیت چیدمان تراشهی نهایی مشخص میشود. یک شبکهی عصبی گرافی مبتنی بر یال (Edge-based GNN) ارتباط بین مولفهها را یادگرفته و آن را به بخشهای دیگر تعمیم میدهد.
لازم به ذکرست، تمام تراشههای شتابدهی هوش مصنوعی گوگل (TPU) و همینطور Google Axion توسط این روش طراحی شدهاند.
امروز بعد از چهار سال، این مدل، AlphaChip نام گرفت و بهزودی چکپوینت (وزنهای) آن برای استفادهی سایرین دردسترس قرار خواهد گرفت.
بلاگپست:
https://deepmind.google/discover/blog/how-alphachip-transformed-computer-chip-design/
گیتهاب:
https://github.com/google-research/circuit_training/
❤35👍13