School of AI

پیاده‌سازی کامل مدل Llama3 فقط با استفاده از NumPy

فوق‌العاده برای درک بهتر ساختار و پیاده‌سازی مدل زبانی

https://docs.likejazz.com/llama3.np/

گیت‌هاب:
https://github.com/likejazz/llama3.np

👏8❤1👍1

3K viewsHamidreza Hosseinkhani, edited 20:58

School of AI

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

پژوهش‌گران گوگل و دانشگاه واشنگتن یک مدل VTO یا virtual try-on به نام M&M VTO معرفی کردند که در ورودی، تصویر یک فرد، تصویر چند لباس دل‌خواه (مثلا کفش و کلاه و تی‌شرت) و همین‌طور یک توصیف متنی دریافت کرده و در خروجی تصویر لباس‌ها در تن شخص را نمایش می‌دهد.

این مدل، مبتنی بر UNet Diffusion Transformer و تک‌مرحله‌ای و بدون استفاده از super resolution cascading است.

بلاگ‌پست معرفی:
https://mmvto.github.io/

مقاله:
https://arxiv.org/pdf/2406.04542

پی‌نوشت: حدود ۱۰ سال پیش (تازه CNN ها مد شده بود)، من به عنوان Tech Lead در دیجی‌کالا (و دیجی‌استایل) مشغول بودم که در یکی از اسپرینت‌ها، با اعتماد به نفس بالا، انجام یه چیزی شبیه به همین VTO رو به عنوان تسک تعریف کردیم. یادم نمیاد تهش چه‌جوری موضوع جمع شد اما خواسنم میزان خجسته‌دل‌بودن‌مون رو باهاتون در میون بذارم 😂

👍19❤6

2.96K viewsHamidreza Hosseinkhani, edited 21:15

School of AI

امروز کنفرانس WWDC 2024 اپل برگزار شد و یکی از معرفی‌های هیجان‌انگیز و البته بحث‌برانگیز، Apple Intelligence بود.

این ویژگی که می‌توان از آن به‌عنوان نسل جدید Siri نام برد، در واقع استفاده از مدل‌های هوش مصنوعی OpenAI (مثل GPT-4o و DALL-E.3) در سطح سیستم‌عامل‌های اپل‌ست.

بنابر اعلام اپل، برای حفظ حریم شخصی کاربران، بیش‌تر پردازش‌های لازم به‌صورت Local و برروی سیستم کاربر اجرا می‌شوند. به‌همین‌خاطر، این ویژگی حداقل نیاز به تراشه‌ی A17 Pro یا M1 خواهد داشت. البته که درنهایت لازم‌ست بعضی از پردازش‌ها روی سرورهای ابری انجام شوند، ولی اپل مدعی‌ست که این سرور، یک Private Cloud Compute مختص به کاربر بوده و اپل به آن دسترسی نخواهد داشت.

بلافاصله، ایلان ماسک (که ظاهرا به OpenAI بی‌اعتمادست) در شبکه‌ی X خود اعلام کرد که در صورت اضافه شدن این ویژگی در سطح سیستم عامل، او استفاده از تمام محصولات اپل را در تمام شرکت‌های خود ممنوع اعلام می‌کند.

برای دیدن چندوچون این ویژگی باید تا پاییز صبر کرد.

https://www.apple.com/apple-intelligence/

👍8❤2

2.78K viewsHamidreza Hosseinkhani, edited 22:20

School of AI

😄😄😄

👍12❤2

2.84K viewsHamidreza Hosseinkhani, edited 22:25

School of AI

و اما اپل چطور اطلاعات مهم رو روی دستگاه کاربر پردازش می‌کنه؟!

حدود ۲ ماه پیش اپل یک مدل بینایی-زبان (Multimodal LLM) بسیار سبک به نام Ferret-UI را با جزییات کامل و دقیق معرفی کرد که برای درک اجزای اسکرین‌شات‌ از رابط‌های کاربری (UI) اپلیکیشن‌های موبایل بهینه شده و روی تسک‌های مربوط به UI از GPT-4V به‌تر عمل می‌کند.

این مدل قادر به درک آیکان‌ها، ویجت‌ها، و نوشته‌ها روی صفحه‌ی iOS و همین‌طور استدلال در مورد مکان، ویژگی و کاربرد آن‌هاست.

قابلیت Apple Intelligence با استفاده از این مدل، به‌سادگی و روی دستگاه کاربر، صفحه‌ را بررسی و تفسیر می‌کند.

مقاله:
https://arxiv.org/pdf/2404.05719

❤3👍2

3.48K viewsHamidreza Hosseinkhani, 23:11

School of AI

کارپاثی یک ویدئوی چهارساعته‌ی جدید منتشر کرده که در آن از صفر تا صد، یک مدل GPT-2 با ۱۲۴ میلیون پارامتر را می‌سازد، آن را برای آموزش سریع‌تر بهینه می‌کند، آموزش می‌دهد و در نهایت ارزیابی می‌کند.

کارپاثی واقعا برای جامه‌ی پژوهشی و مهندسی هوش مصنوعی یک نعمت بی‌همتاست. خیلی از علاقه‌مندان به یادگیری ژرف از کورس CS231n ایشون در دانشگاه استنفورد شروع کردند.

ویدئو:
https://www.youtube.com/watch?v=l8pRSuU81PU

گیت‌هاب:
https://github.com/karpathy/build-nanogpt

🔥32👍10❤4

7.04K viewsHamidreza Hosseinkhani, 23:52

گوگل کولب، سه ویژگی هیجان‌انگیز جدید اضافه کرده که برنامه‌نویسی رو خیلی شیرین‌تر می‌کنن.

ویژگی Generate Code که با نگاه به کدهایی که در نوت‌بوک‌تون زده‌اید براتون کدی رو که می‌خواید می‌زنه

ویژگی Explain Error که ارورتون و دلیل‌ش رو توضیح می‌ده و اصلاحیه‌ی پیشنهادی رو هم به‌تون می‌گه.

ویژگی Gemini Chat که دستیار برنامه‌نویسی یا منتور فول‌تایم‌تونه :)

👍27❤6

5.03K viewsHamidreza Hosseinkhani, 21:31

School of AI

مدل‌های زبانی بزرگ (LLM ها) معمولا برروی حجم زیادی از داده‌های موجود در وب آموزش می‌بینند. این داده‌ها ممکن است جهت‌دار و بی‌کیفیت باشند. برای رفع این مشکل، معمولا پس از آموزش مدل زبانی، مدل آموزش‌دیده‌شده در دسترس تعدادی انسان قرار گرفته و خروجی آن ارزیابی…

سرانجام روش آرش احمدیان و Shengyi Costa Huang برای فاین‌تیون‌کردن LLM ها به کمک الگوریتم سنتی REINFORCE (که پیش‌تر در مورد آن توضیح دادیم)، در قالب یک trainer جدید به نام RLOO یا REINFORCE Leave One-Out در پکیج TRL پیاده‌سازی شد و قابل استفاده‌ست.

پکیج TRL توسط HuggingFace ارائه شده و برای آموزش مدل‌های مبتنی بر Transformer (مثل LLM ها) و Diffusion Model ها به کمک Reinforcement Learning مورد استفاده قرار می‌گیرد.

روش RLOO تقریبا ۵۰ تا ۷۰ درصد حافظه vRAM کم‌تری مصرف می‌کند. برای مدل زبانی در سایز ۱ میلیارد پارامتر، دو برابر سریع‌تر از الگوریتم مرسوم PPO و برای مدل با سایز ۷ میلیارد، سه برابر سریع‌تر عمل می‌کند. در حالی که response win rate به‌تری هم دارد.

بلاگ‌پست معرفی:
https://huggingface.co/blog/putting_rl_back_in_rlhf_with_rloo

👍20😍4

4.75K viewsHamidreza Hosseinkhani, edited 21:55

🦜 ویدیو قسمت سوم آموزش Langchain LLM Patameters

قسمت سوم، در مورد پرامترها یا همون کانفیگ‌های LLM از جمله Temperature, Top P, Top K, Frequency Penalty, Presence Penalty صحبت کردیم که دقیقا این پرامترها چه تاثیری دارند و تفاوتشون باهم چگونست.

📍برای دسترسی راحت‌تر، ویدیو در یوتیوب و آپارات آپلود شده.

🎬یوتیوب:
https://youtu.be/V4tbLJ51QQI

📺آپارات:
https://aparat.com/v/iyml697
(در آپارات یکی دو ساعت تا اتمام پردازش ویدیو مونده)

#langchain

😍9👍3❤2

3.54K viewsPedram T, edited 17:59

School of AI

0:27

This media is not supported in your browser

VIEW IN TELEGRAM

مدل بنیادین Florence-2 که یک مدل چندوجهی بینایی-زبان بسیار سبک و اوپن-سورس است، توسط Microsoft معرفی شد.

معماری ساده‌ی این مدل تغییر خاصی نسبت به نسخه‌ی قبل نکرده و متشکل از یک DaViT به عنوان کدگذار بینایی، یک BERT به عنوان کدگذار نوشتار و یک کدگشای مبتنی بر ترنسفورمرست.

این مدل قادر به انجام بیش از ۱۰ تسک مختلف در زمینه‌ی بینایی رایانه از جمله image captioning و object detection و grounding و segmentation و OCR است.

این مدل در دو نسخه‌ی base (۲۳۰ میلیون پارامتر) و large (۷۷۰ میلیون پارامتر) منتشر شده که هر دو مناسب اجرا روی دستگاه‌های لبه و موبایل‌ها هستند.

قابلیت بالای این مدل به خاطر مجموعه‌داده‌ی آموزشی حجیم آن به نام FLD-5B شامل ۱۲۶ میلیون تصویر و ۵/۴ میلیارد انوتیشن‌ست.

بلاگ‌پست معرفی:
https://blog.roboflow.com/florence-2/

مقاله:
https://arxiv.org/pdf/2311.06242

دمو:
https://huggingface.co/spaces/gokaygokay/Florence-2

نوت‌بوک:
https://colab.research.google.com/?ref=blog.roboflow.com#fileId=https%3A//huggingface.co/microsoft/Florence-2-large/blob/main/sample_inference.ipynb

👍7🔥5❤2

3.3K viewsHamidreza Hosseinkhani, edited 13:18

School of AI

اگر مایل‌ید در کنار بجِ Open in Colab در صفحه‌ی وب یا فایل README خود، از بجِ Open in Studio نیز استفاده کنید، از تکه‌کد زیر استفاده کرده و آدرس نوت‌بوک خود را در آن درج کنید:


<a target="_blank" href="https://lightning.ai/new?repo_url=https%3A%2F%2Fgithub.com%2Fxei%2Frecommender-system-tutorial%2Fblob%2Fmain%2Frecommender_system_tutorial.ipynb">
  <img src="https://pl-bolts-doc-images.s3.us-east-2.amazonaws.com/app-2/studio-badge.svg" alt="Open in Studio" />
</a>

ابزار Studio جایگزینی برای Google Colab است که توسط Lightning.ai معرفی شده و نسبت به آن مزایایی دارد. از جمله:
- کارت گرافیک رایگان
- فضای ذخیره‌سازی مانا، دائمی و رایگان
- محیط و ماشین مجازی مانا که بدون درخواست مستقیم کاربر، از بین نمی‌رود.
- قابلیت اجرای کد در پس‌زمینه به‌صورت نامحدود
- قابلیت یکپارچه‌سازی با VSCode و Data Spell و PyCharm و …

https://lightning.ai/
https://lightning.ai/badge

👍26❤4

4.15K viewsHamidreza Hosseinkhani, edited 14:09

School of AI

مدل زبانی Claude 3.5 Sonnet توسط Anthropic معرفی شد.
این مدل علاوه بر ارزان‌تر بودن (۳ دلار به ازای هر یک میلیون توکن ورودی و ۱۵ دلار به ازای هر یک میلیون توکن خروجی) دو برابر سریع‌تر از Claude 3 Opus است. بنابراین برای تسک‌های پیچیده مثل خدمات مشتریان یا multi-step workflows مناسب‌ترست.
همچنین این مدل برای تسک‌های بینایی مثل تحلیل نمودار به‌تر از سایر مدل‌های مشابه عمل می‌کند.

https://www.anthropic.com/news/claude-3-5-sonnet

این مدل به‌سادگی با فریم‌ورک LangChain یک‌پارچه شده‌ست.

https://python.langchain.com/v0.2/docs/integrations/chat/anthropic/

👍6❤2

2.65K viewsHamidreza Hosseinkhani, edited 11:31

School of AI

مقایسه‌ی عمل‌کرد مدل Claude 3.5 Sonnet با سایر مدل‌های مشابه

👍5❤1

2.98K viewsHamidreza Hosseinkhani, 11:48

School of AI

آقای Ilya Sutskever که به‌تازگی از OpenAI جدا شده، اعلام کرد که استارتاپ هوش مصنوعی خودش را با نام SSI یا Safe Superintelligence و با هدف ساخت هوش مصنوعی‌های ایمن، تاسیس می‌کند.

ایشان از به‌ترین و فعال‌ترین پژوهش‌گران هوش مصنوعی‌اند که از ابتدای انقلاب دیپ‌لرنینگ تا الان تاثیرهای شگرفی در این حوزه گذاشته‌ند.

◀️ ایشان از سازندگان شبکه‌ی AlexNet اند که سبب شروع انقلاب دیپ‌لرنینگ در سال ۲۰۱۲ و جهشی در زمینه‌ی بینایی رایانه شد.
◀️ ایشان از توسعه‌دهندگان اصلی الگوریتم‌ sequence-to-sequence و همچنین مکانیزم Attention اند که جهشی در زمینه‌ی پردازش زبان و هم‌چنین پایه‌ی اصلی ترنسفورمرها و مدل‌های امروزی هوش مصنوعی‌ست.
◀️ ایشان از رهبران و توسعه‌دهندگان مدل‌های GPT-2 و GPT-3 اند.
◀️ ایشان از بنیان‌گذاران OpenAI در سال ۲۰۱۵ و هم‌چنین دانش‌مند ارشد (Chief AI Scientist) این شرکت در زمان توسعه‌ی ChatGPT بوده‌اند.
◀️ ایشان از نویسندگان فریم‌ورک TensorFlow در شرکت Google Brain بوده‌اند.
◀️ ایشان از مخترعان اصلی AlphaGo بودند که برای اولین بار در جهان توانست قهرمان این بازی را شکست دهد.

🔥31👍5❤2👏1

3.51K viewsHamidreza Hosseinkhani, edited 12:24

School of AI

استارتاپ آمریکایی Instacart که درزمینه‌ی فروش مواد غذایی فعال‌ست، از الگوریتم ساده‌ی quantile regression برای پیش‌بینی زمان تحویل سفارش (ETA) استفاده می‌کند.

پیاده‌سازی سامانه‌ی ETA یکی از اصلی‌ترین مسائل فروش‌گاه‌های اینترنتی‌ست. اگر علاقه دارید که با جزییات سامانه‌ی ETA شرکت Instacart آشنا شید، بلاگ‌پست زیر رو مطالعه کنید.

https://tech.instacart.com/how-instacart-delivers-on-time-using-quantile-regression-2383e2e03edb

👍14❤1

3.35K viewsHamidreza Hosseinkhani, edited 12:48

School of AI

در طراحی و پیاده‌سازی سامانه‌های نرم‌افزاری، داده‌ها در بیشتر مواقع داخل پایگاه‌های داده‌ و به‌صورت ساختارمند (Structured) ذخیره می‌شوند. اما گاهی به داده‌هایی بی‌ساختار (Unstructured) مثل پرونده‌های نوشتاری یا صفحات وب دسترسی داریم که شامل اطلاعات باارزشی‌ برای عمل‌کرد سامانه‌اند. در این صورت، یکی از رویکرد‌های مرسوم، استخراج اطلاعات باارزش از داخل این داده‌های بی‌ساختار و ذخیره‌ی آن‌ها در قالب‌های ساختارمند مانند گراف‌ست.

مثلا به کمک روش‌های NER (شناسایی موجودیت‌های نام‌دار)، موجودیت‌های مورد بحث در نوشتار را استخراج کرده و به عنوان راس‌های یک گراف دانش (Knowledge Graph) ثبت می‌کنیم. سپس به کمک روش‌های RE (استخراج رابطه)، روابط بین این موجودیت‌ها را استخراج و به عنوان یال‌های گراف دانش در نظر می‌گیریم. گراف نهایی شامل همه‌ی موجودیت‌های مورد بحث در متن و روابط بین آن‌ها خواهد بود. این داده‌ی گرافی ساختارمند را می‌توان در پایگاه‌های داده‌ی گرافی مثل Neo4j ذخیره کرد. از کاربردهای مهم گراف دانش می‌توان به Graph RAG اشاره کرد.

پیشرفت‌های اخیر مدل‌های زبانی بزرگ، آن‌ها را به یکی از کاراترین ابزارها برای ساخت گراف دانش از طریق استخراج موجودیت‌ها و روابط بین آن‌ها تبدیل کرده‌ست.

بلاگ‌پست زیر جزییات این فرآیند (ساخت گراف دانش از روی نوشتار به کمک LLM ها) را شرح می‌دهد.
https://neo4j.com/developer-blog/construct-knowledge-graphs-unstructured-text/

بلاگ‌پست زیر نیز، استفاده از فریم‌ورک LangChain و پایگاه داده‌ی Neo4j برای این منظور را به‌صورت عملی شرح می‌دهد.
https://blog.langchain.dev/enhancing-rag-based-applications-accuracy-by-constructing-and-leveraging-knowledge-graphs/

👍8❤2🔥1

3.44K viewsHamidreza Hosseinkhani, 19:20

School of AI

👍2❤1

3.46K viewsHamidreza Hosseinkhani, 19:21

School of AI

0:31

This media is not supported in your browser

VIEW IN TELEGRAM

بعد از این همه پیش‌رفت در زمینه‌ی هوش مصنوعی، زمان اون رسیده که کاربرد این پیشرفت‌ها رو در ابزارهای مدرن برای زندگی روزمره تجربه کنیم.

گجت DentalMonitoring به کمک دوربین گوشی تلفن همراه شخصی و مدل‌های هوش مصنوعی، وضعیت دندان‌های شما رو در طول زمان پایش می‌کنه و مشکلات پیش روی دندان‌ها و لثه‌های شما رو پیش‌بینی کرده و در زودترین زمان به‌تون اطلاع می‌ده.

دقت این ابزار برای تشخیص بیماری‌های دهان و دندان ۸۹ درصد گزارش شده‌ست.

https://dentalmonitoring.com/

👍19❤2

4.25K viewsHamidreza Hosseinkhani, edited 08:57

School of AI

یکی از پرسش‌هایی که عزیزان زیادی در رابطه با in-context learning می‌‌پرسند، این‌ست که اطلاعات context را در ابتدای پرامپت درج کنند، یا انتهای پرامپت و یا در میانه؟!

💭 یادآوری: منظور از in-context learning این‌ست که اطلاعات جدیدی که LLM در هنگام آموزش، ندیده را داخل پرامپت درج کرده تا مدل با درنظر گرفتن آن اطلاعات، پاسخ دقیق‌تری را برگرداند. مثلا در مکانیزم RAG بر اساس پرسش اصلی کاربر، مستندات و پرونده‌های مرتبط را پیدا کرده و همراه با پرسش اصلی،‌ به عنوان ورودی، به مدل می‌دهیم.

پژوهشی که توسط دانشمندان دانشگاه استنفورد و برکلی انجام شده، نشان می‌دهد که درج Context های طولانی در میانه‌ی پرامپت، باعث ازدست‌رفتن اطلاعات می‌شود و لازم‌ست این اطلاعات نه در میانه، بلکه در ابتدا یا انتهای پرامپت درج شوند.

https://arxiv.org/pdf/2307.03172

👍9🔥3❤1

4.51K viewsHamidreza Hosseinkhani, 15:01

School of AI

امروز، زادروز دانشمند برجسته‌ی علوم رایانه و هوش مصنوعی، الن تورینگ است.

کسی که ماشین تورینگ‌ش، پایه‌ی رایانه‌های امروزی و آزمون تورینگ‌ش، یکی از به‌ترین روش‌های ارزیابی سامانه‌های هوش‌مند شد.

کسی که با کدگشایی ماشین انیگما توانست ورق را در جنگ جهانی دوم به نفع متفقین برگرداند.

کسی که در نهایت به خاطر گرایشات جنسی‌اش تحت فشار و هورمون-درمانی اجباری قرار گرفت و به‌طرز ناراحت‌کننده‌ای دچار مرگ زودهنگام شد.

❤53👍3

10.5K viewsHamidreza Hosseinkhani, edited 16:48

About

Blog

Apps

Platform