Data world with Mina
4.17K subscribers
371 photos
62 videos
169 files
389 links
minarabti32@gmail.com
منبع مطالب يادگيري ماشين،پايتون ،داده كاوي ،هوش مصنوعي، دانلود داده، فيلم هاي آموزشي رايگان، داده
ارتباط با ادمین
@Datalook_mina
اینستاگرام:mina.rabti
Download Telegram
فرهنگ لغت LLM-بخش اول

هنگامی که یک LLM از قبل آموزش دیده را سفارشی می کنید، LLM را با وظایف خاصی تطبیق می دهید، مانند تولید متن پیرامون یک موضوع خاص یا در یک سبک خاص.

🟨 برای سفارشی کردن یک LLM از قبل آموزش دیده با نیازهای خاص خود،
می توانید مرحله بعدی سفارشی سازی را با یادگیری درون متنی in_contect learning، یادگیری تقویتی (RLHF) یا تنظیم دقیق fine_tuning را امتحان کنید.


🔶یادگیری درون متنی(in-context learning)، که گاهی توسط کاربران نهایی به عنوان Prompt engineeringز آن یاد می‌شود، زمانی است که شما دستورالعمل‌ها یا مثال‌های خاصی را در زمان استنتاج - یا زمانی که مدل را پرس و جو می‌کنید - به مدل ارائه می‌دهید و از آن می‌خواهید تا آنچه را که نیاز دارید استنتاج کند. و یک خروجی مرتبط با زمینه تولید کند. یادگیری درون زمینه ای را می توان به روش های مختلفی انجام داد، مانند ارائه مثال ها، بازنویسی پرسش های خود و افزودن جمله ای که هدف شما را در سطح بالا بیان می کند.

مدل تقویتی RHLF: شامل یک مدل پاداش برای LLM از قبل آموزش دیده است. مدل پاداش برای پیش بینی اینکه آیا کاربر خروجی LLM از قبل آموزش دیده را می پذیرد یا رد می کند. آموزش داده شده است. آموخته های مدل پاداش به LLM از پیش آموزش دیده منتقل می شود، که خروجی های خود را بر اساس میزان پذیرش کاربر تنظیم می کند. مزیت RLHF این است که به یادگیری نظارت شده نیاز ندارد و در نتیجه معیارهای خروجی قابل قبول را گسترش
می دهد. با بازخورد کافی انسانی، LLM می‌تواند یاد بگیرد که اگر ۸۰ درصد احتمال دارد که کاربر یک خروجی را بپذیرد، تولید آن خوب است
.
@datalook_ir
🔥5👍2🤩1
Nara
Sofiane Pamart
او را از یاد نمی‌بُرد،
اما دیگر مجال آن را نداشت که به فکر او باشد.
آنچه گذشت، گذشت.
برای عصر جمعه😍😍
9🔥1
کمپانی HuggingFace یه cook book درست کرده که شامل مجموعه ای از notebook ها و مثال های عملی راجع به درست کردن اپلیکیشن های مبتنی بر AI و همچنین حل مسائل مختلف ماشین لرنینگ با استفاده از مدلهای اپن سورس میشه. یک کورس عملی

https://huggingface.co/learn/cookbook/en/index


منبع : https://x.com/MehdiAllahyari/status/1771902478298046582?s=20


لینک‌ کانال #اپلای
T.me/safarname7
🔥3👏1
Forwarded from Data world with Mina (Mina Ra)
«🤖ترانسفورمر» یک مدل یادگیری عمیق است که مکانیسم توجه به خود، به‌طور متفاوتی اهمیت هر بخش از داده‌های ورودی را وزن می‌کند. عمدتاً در زمینه‌های پردازش زبان طبیعی (NLP) و بینایی رایانه ای (CV) استفاده می‌شود.

مانند شبکه عصبی بازگشتی (RNN)، ترانسفورمرها برای مدیریت داده‌های ورودی متوالی، مانند زبان طبیعی، برای کارهایی مانند ترجمه و خلاصه متن طراحی شده‌اند. با این حال، برخلاف شبکه عصبی بازگشتیها، ترانسفورمرها لزوماً داده‌ها را به ترتیب پردازش نمی‌کنند. در عوض، مکانیسم توجه زمینه را برای هر موقعیتی در دنباله ورودی فراهم می‌کند. به عنوان مثال، اگر داده ورودی یک جمله زبان طبیعی باشد، ترانسفورمر نیازی به پردازش ابتدای جمله قبل از پایان ندارد.

📚این ویژگی اجازه می‌دهد تا موازی سازی بیشتر از شبکه عصبی بازگشتیها باشد و بنابراین زمان آموزش را کاهش می‌دهد.

داده‌های بزرگتر از زمانی که ممکن بود را می‌دهد. این منجر به توسعه سیستم‌های از پیش آموزش دیده مانند مدل Bert و
GPT( Generative Pre-trained Transformer)
شده است.
آموزش ترانسفورمرها
در کانال یوتیوب
mina rabti

https://m.youtube.com/channel/UCvxKAC5IdZp6U_75sre0CEw
👍93👌3
🔶 استفاده از #یادگیری_ماشین برای حل مشکلات دنیای واقعی هیجان انگیز است. اما بیشتر مبتدیان مستقیماً به سراغ ساخت مدل می‌روند -

با نادیده گرفتن اصول اساسی - که منجر به مدل‌هایی می‌شود که چندان مفید نیستند. از درک داده‌ها گرفته تا انتخاب بهترین مدل یادگیری ماشین برای مشکل، برخی از اشتباهات رایج وجود دارد که مبتدیان اغلب مرتکب می‌شوند.

اولین مرحله جهت حل این مشکل : از خود سؤالات کافی بپرسید تا در مورد مشکل و دامنه بیشتر بدانید. همچنین در نظر بگیرید که آیا یادگیری ماشین اصلاً ضروری است یا خیر: در صورت نیاز قبل از ترسیم چگونگی حل مشکل با استفاده از یادگیری ماشین، بدون یادگیری ماشین شروع کنید. شما باید به عنوان یک دیتا ساینتیست یک solution maker باشید.

سایر اشتباهات رایج

1. عدم درک داده ها
2. پیش پردازش ناکافی داده ها
۳_نشت داده ها(Data Leakage) وقتی رخ میده که مدل از اطلاعات خارج از مجموعه داده در فرآیند آموزش استفاده کند. حل مشکل: استفاده از pipeline در هنگام آموزش مدل

۴-عدم انجام مهندسی ویژگی
۵-بیش برازش و کم برازش

در این مقاله کامل به این موضوع پرداخته و مراحلش رو با جزییات کدنویسی توضیح داده:

لینک مقاله
👍13👌3🙏2
Channel name was changed to «دیتا ساینس و یادگیری ماشین»
Data world with Mina
🔶 از امروز می خوام یه تاپیک جدید به کانال اضافه کنم. معرفی الگوریتم های نسبتا جدید #یادگیری_ماشین و #یادگیری_عمیق در دو سه سال اخیر برای راهنمایی انتخاب در مقالات و تحقیقات ✔️ در پارت اول الگوریتم های بر پایه کانولوشن (از خانواده CNN) ها رو انتخاب کردم.…
معرفی دوم: EfficientNetV2L

تاپیک معرفی الگوریتم های جدید #یادگیری_عمیق

الگوریتم EfficientNetV2L یکی از اعضای خانواده مدل‌های EfficientNetV2 است که بهینه‌سازی‌هایی روی مدل‌های اولیه EfficientNet انجام داده است.

این مدل‌ها مجموعه‌ای از مدل‌های شبکه‌های عصبی عمیق هستند که توسط پژوهشگران گوگل برای بهبود کارایی و دقت در وظایف بینایی ماشین توسعه داده شده‌اند.
این مدل‌ها بر پایه معماری اصلی EfficientNet ساخته شده‌اند که از روش مقیاس‌پذیری ترکیبی " استفاده می‌کند. EfficientNetV2 بهبودهای بیشتری در ساختار شبکه و روش‌های آموزشی معرفی کرده است.

🔶این الگوریتم از یک ترکیب پیچیده از لایه‌های کانولوشنال، لایه‌های نرمال‌سازی و لایه‌های فعال‌سازی استفاده می‌کند. این شبکه از یک معماری سلسله‌مراتبی استفاده می‌کند که در آن بلوک‌های مختلف با مقیاس‌های متفاوت برای استخراج بهتر ویژگی‌های تصویر استفاده می‌شوند.

مقیاس‌پذیری ترکیبی شامل مقیاس‌پذیری همزمان عمق، عرض و وضوح شبکه است. با استفاده از این روش، مدل می‌تواند به طور کارآمد از منابع محاسباتی استفاده کند و عملکرد بهتری داشته باشد. EfficientNetV2L شامل تغییرات مختلف در میکرو-معماری بلوک‌های ساختاری شبکه است، مانند استفاده از لایه‌های کانولوشنال 3x3 و 5x5، و ادغام تکنیک‌های کاهش نویز و بهبود پایداری. EfficientNetV2L عملکرد بسیار خوبی را بر روی مجموعه داده‌های مختلف مانند ImageNet از خود نشان داده است، با دقت بالا با منابع محاسباتی حداقل. این مدل به خصوص برای برنامه‌هایی که نیاز به دقت بالا و کارایی محاسباتی دارند، مناسب است.

مقاله جهت اطلاعات بیشتر

https://arxiv.org/abs/2104.00298
👍64👏3👎1
معرفی Dify

چند هفته پیش با این ابزار آشنا شدم که برای توسعه اپلیکیشن حول LLMها بوجود اومده.

ویژگی‌هایی که باعث میشه ازش خوشم بیاد:
- میشه کاملاً بصورت Self-hosted استفاده کرد. نسخه داخل سایتش محدودیت داره ولی Self-hostedاش رایگان هست.
- از اینترفیس وب استفاده می‌کنه و میشه پرامپت‌ها رو به سادگی تغییر داد.
- تمام ورودی خروجی‌ها رو لاگ می‌کنه و میشه برای دیباگ‌ کردن ازش استفاده کرد.
- ابزار Low-code هست و نه No-code. یعنی اگر جایی نیاز بود کد خاص بزنید، میشه به عنوان بخشی از ورک‌فلو بهش کد اضافه کرد.
- تقریباً همه ارائه دهندگان LLM رو ساپورت می‌کنه و به سادگی میشه به همشون وصل شد و جابه‌جا شدن بین این‌ها هم بسیار ساده است.
- از استریمینگ بصورت اتوماتیک ساپورت می‌کنه

نظر نامحبوب من اینه که ابزاری مثل Langchain بیش از حد بهش پرداخته شده و انتزاعات بیش از حد و غیرضروری تعریف کرده. به شخصه ترجیح میدم، تا حد امکان ازش استفاده نکنم (کما این که کدش هم بسیار کثیف نوشته شده و خدا نکنه آدم جایی مجبور بشه کدش رو بفهمه یا تغییر بده). تو شبکه‌های اجتماعی هم اگر نگاه کنید، خیلی‌ها گفتند که واقعاً استفاده از Langchain نمی‌ارزید. در واقع تنها فیچر خیلی خوبش Langsmith بود (برای لاگ کردن) که اونم از ماه بعد پولی میشه.

اما این ابزار به معنای واقعی کلمه ارزش ایجاد کرده و تو این چند وقت که ازش استفاده کردم، هر روز بیشتر متعجب شدم. بخشی از تعجبم هم اینه که چرا انقدر کم بهش پرداخته شده.

روالش هم این‌طوری هست که می‌تونید بصورت داکری روی سرور خودتون بالا بیارید. LLMهای مختلف‌تون رو روش تعریف کنید و بعد از اون Workflow تعریف می‌کنید و ورودی و خروجی و پرامپت‌هاتون رو داخلش می‌نویسید. نهایتاً هم وقتی Publish می‌کنید بصورت API قابل استفاده خواهد بود.

اگر به توسعه اپلکیشین حول مدل‌های زبانی بزرگ علاقمند هستید، پیشنهاد می‌کنم حداقل نسخه داخل سایتش رو یه تست بگیرید (به احتمال زیاد پشیمون نمیشید).

صفحه گیت‌هاب رو در اینجا میارم و لینک تست داخل وب‌سایت خودش رو هم در کامنت می‌گذارم.

متن از صفحه لیندکین آقای Amir pourmard
پیشنهاد میکنم حتما صفحه ایشون رو فالو کنید.
🙏5🤩3👍2
مردی مبتلا به سرطان، نسخه هوش مصنوعی خودش را ساخت!

مایکل بومر ۶۱ ساله، مردی مبتلا به سرطان درمان‌ناپذیر قصد دارد خودش را به هوش مصنوعی تبدیل کند تا پس از مرگش همچنان کنار همسرش بماند.

🔹مردی مبتلا به سرطان درمان‌ناپذیر از تصمیم غیرعادی‌اش می‌گوید که قصد دارد خودش را به هوش مصنوعی تبدیل کند تا پس از مرگش همچنان کنار همسرش بماند.

🔹مایکل بومر ۶۱ ساله چند هفته بیشتر از عمرش باقی نمانده اما فرایند خلق نسخه‌ای دیجیتال از خودش تسلی‌بخش بوده است.

🔹او مدعی است که این موضوع او را به پسرانش، که ۲۴ و ۳۰ سال سن دارند، نزدیک‌تر کرده است، زیرا داستان‌هایی درباره خودش به سیستم هوش مصنوعی می‌گوید که آن‌ها قبلا هرگز نشنیده بودند.
👍14🤔6👏5
استارتاپ جدید سم آلتمن، Thrive AI، هوش مصنوعی را به مربی سلامت شما تبدیل می‌کند.

سم آلتمن قصد دارد مدل هوش مصنوعی اختصاصی برای ارائه‌ی مشاوره‌ی سلامتی بسازد.

آلتمن و هافینگتون در مقاله‌ای مجله‌ی تایم اعلام کردند که Thrive AI براساس بهترین و اثبات‌شده‌ترین بخش‌های علوم پزشکی و خرده‌‌عادت‌های روزانه‌ای که از کاربر دریافت می‌کند، آموزش داده خواهد شد.

مشاوره‌ی سلامت مبتنی‌بر هوش مصنوعی به موضوع پرطرفداری تبدیل شده‌ است؛ استارتاپ فیت‌بیت در حال کار روی چت‌بات مربی هوش مصنوعی است و Whoop، مشاوره‌ی قدرت‌گرفته از ChatGPT را اضافه کرده تا کاربران را به تحلیل‌های بیشتری از شاخص‌های سلامتشان برساند.

Thrive AI Health
هنوز در مراحل ابتدایی است و هدف آن ایجاد تغییرات کوچک در پنج زمینه از عادت‌های سبک زندگی شامل خواب، تغذیه، تناسب اندام، مدیریت استرس و روابط اجتماعی است.

این اپلیکیشن ادعای تجویز نسخه‌ مانند پزشکان را ندارد؛ بلکه پیشنهادهای شخصی‌شده‌ای را برای داشتن زندگی سالم ارائه می‌دهد.
🤩7👏5🥴3😡2
🗂 5 پلتفرم فرصت‌های کارآموزی علم داده

👨🏻‍💻 اگه تازه‌ کارین و دنبال یه فرصت کارآموزی در زمینه علم داده و تحلیلگری هستین، سایت‌های زیادی وجود دارن که می‌تونن بهتون کمک کنن. من چندتا از این سایت‌ها رو براتون اینجا لیست کردم:👇


1️⃣ وبسایت Forage

ارائه‌دهنده کارآموزی‌های آنلاین و رایگان علوم داده برای تقویت مهارت‌های شغلی و کسب تجربه واقعی.

📎 لینک: Website


2️⃣ وبسایت Catchafire

امکان همکاری داوطلبانه با شرکت‌ها برای به‌کارگیری مهارت‌های تحلیل داده در پروژه‌های واقعی.

📎 لینک: Website


3️⃣ وبسایت DataKind

ایجاد پلی بین دانشمندان داده و شرکت‌ها برای استفاده از تحلیل داده‌ها در جهت حل مسائل اجتماعی.

📎 لینک: Website


4️⃣ وبسایت Statistics Without Borders

پیوند متخصصان آمار و تحلیلگران داده به پروژه‌های داوطلبانه جهانی و انسانی.

📎 لینک: Website


5️⃣ وبسایت Viz for Social Good

انجمنی برای داوطلبان که از طریق تصویری‌سازی داده‌ها به پروژه‌های خیریه و اجتماعی کمک می‌کنه.

📎 لینک: Website


🌐 #علم_داده #DataScience

📊 دانشمند داده شوید :
📊 @DataScience_ir
Please open Telegram to view this post
VIEW IN TELEGRAM
14🙏5👍3
▫️امروز روز جهانی ایموجی است؛ همین شکلک‌هایی که هر روز ازشان استفاده می‌کنیم و گاهی وقت‌ها از ده‌ها کلمه هم گویاترند!

▫️بعضی‌ها معتقدند که هر کسی با یک شکلک خاص ارتباط ویژه‌ای دارد و اصلا آن ایموجی را به نام خودش می‌داند. به همین بهانه بیایید زیر این پست، شکلک یا ایموجی مخصوصتان را بگذارید.

ا
😁6🥰5🥴4👏2👍1🔥1🤔1🤩1😐1😡1
لیست دوره های رایگان مسیر مهندسی داده

Data engineer role

https://www.kdnuggets.com/landing-a-data-engineer-role-free-courses-and-certifications
12👏1
10 GitHub Repositories to Master Data Science

۱۰ ریپوی خوب گیت هاب برای دیتا ساینس

#datascience
#machineLearning
#dataEnginnering


https://www.kdnuggets.com/10-github-repositories-to-master-data-science
9🔥2
Forwarded from Data world with Mina (Mina Ra)
✔️اسکیوال SQL از ابزارهایی است که در چندین شغل حوزه داده از جمله مهندسی داده، دانشمند داده و آنالیزگر داده باید حتما یاد بگیرید.

🔶پس لیست دوره های رایگان برای یادگیری اصول SQL را جمع آوری کردم.

🔺دوره اول
مقدمه ای بر پرس و جو با داده ها در khan academy

https://www.khanacademy.org/computing/computer-programming/sql

🔺دوره دوم
دوره ویدیویی ۴ ساعته جهت یادگیری مقدمات پایگاه داده به زبان ساده در یوتیوب

https://youtu.be/HXV3zeQKqGY?si=WR-cahMxbhBl4EiK

🔺دوره سوم :دوره با مدرک در kaggle

در این دوره مقدماتی یاد خواهید گرفت که چگونه مجموعه داده ها را با SQL با استفاده از bigQuery python client پرس و جو کنید.

https://www.kaggle.com/learn/intro-to-sql


🔺دوره چهارم: دوره آموزشی در سایت w3school
یکی دیگر از منابع عالی برای مبتدیان با مثالهای متنوع
بدون نیاز به نصب ابزار و استفاده از ویرایشگر آنلاین

https://www.w3schools.com/sql/


🔺دوره پنجم: sqlzoo
یکی دیگر از پلتفرم های یادگیری و تمرین SQL

https://www.sqlzoo.net/wiki/SQL_Tutorial
👍17🙏5👏21
بالاخره SearchGPT؛ موتور جست‌وجوی OpenAI با محوریت هوش مصنوعی معرفی شد.

موتور جست‌وجوی هوشمند OpenAI به‌صورت آزمایشی و با دسترسی محدود ارائه می‌شود؛ اما در نهایت به ChatGPT اضافه خواهد شد.

موتور جست‌وجوی OpenAI با یک باکس متن بزرگ آغاز می‌شود که از کاربر می‌پرسد «به‌دنبال چه چیزی می‌گردی؟»؛ اما SearchGPT به‌جای آنکه فهرستی عادی از لینک‌ها را در پاسخ کاربر به‌نمایش بگذارد، سعی می‌کند سازمان‌دهی‌شان کند و از آن‌ها سر در بیاورد. در یکی از نمونه‌هایی که OpenAI به‌نمایش گذاشته است، موتور جست‌وجو خلاصه‌ای از یافته‌هایش درباره‌ی جشنواره‌های موسیقی را با توضیح کوتاهی از رویدادها و لینک به این رویدادها به‌نمایش می‌گذارد.

در نمونه‌ای دیگر، SearchGPT پیش از آنکه انواع گوجه‌فرنگی را تشریح کند، شیوه‌ی کاشت این گیاه را شرح می‌دهد. پس از نمایش نتایج، کاربر در ادامه می‌تواند سؤال‌‌های مرتبط دیگری بپرسد یا با کلیک روی سایدبار، لینک‌های مرتبط دیگر را بارگذاری کند. قابلیت دیگری موسوم به «visual answers» نیز وجود دارد؛ اما هنوز اطلاعاتی درباره‌ی کارکردش در دسترس نیست.

موتور جست‌وجوی SearchGPT می‌تواند نقطه‌ی شروع یک تهدید جدی برای گوگل باشد.
🔥12👍10
استارتاپ فرانسوی با مدل زبانی Large 2 به جدیدترین و قوی‌ترین مدل‌های هوش مصنوعی OpenAI و متا پاسخ داد.

مدل زبانی بزرگ میسترال، قدرت مشابه و هزینه‌ی کمتری درمقایسه‌با مدل‌های بزرگ متا و OpenAI دارد.
استارتاپ فرانسوی Mistral مدل زبانی بزرگ جدید خود به نام Large 2 را رونمایی کرد و ادعا می‌کند در زمینه‌هایی مانند کدنویسی، ریاضیات و استدلال، در سطح قوی‌ترین مدل‌های OpenAI و متا قرار می‌گیرد.

انتشار مدل Large 2 تنها یک روز پس از آن اتفاق افتاد که متا آخرین و بهترین نسخه‌ی مدل متن‌باز خود، Llama 3.1 با ۴۰۵ میلیارد پارامتر را معرفی کرد. میسترال به‌پشتوانه‌ی معیارهای سنجش متعددی ادعا می‌کند که Large 2 عملکرد و هزینه‌ی مدل‌های متن‌باز را بهبود می‌بخشد.

استارتاپ هوش مصنوعی مستقر در پاریس به‌تازگی ۶۴۰ میلیون دلار تأمین مالی جذب کرده است.
8🔥6
گوگل دو مدل هوش مصنوعی جدید برای حل مسائل ریاضی پیچیده توسعه داده است.

گوگل دیپ‌مایند از توسعه دو سیستم هوش مصنوعی با تخصص حل مسائل پیچیده ریاضی با کمک استدلال پیشرفته خبر داده است.

گوگل ادعا می‌کند این سیستم‌های جدید که AlphaProof و AlphaGeometry 2 نام دارند، در حل چهار مسئله از شش مسئله المپیاد بین‌المللی ریاضی (IMO) امسال با همکاری یکدیگر موفق‌شدند تا امتیازی معادل یک مدال نفره را کسب کنند.

حل مسائل ریاضی که به استدلال پیشرفته نیاز دارند، به چند دلیل برای سیستم‌های هوش مصنوعی دشوار است. اول اینکه این نوع مسائل اغلب به ترسیم‌های انتزاعی نیاز دارند. همچنین حل آن‌ها به برنامه‌ریزی سلسله‌مراتبی پیچیده و همچنین آزمایش مسیرهای جدید نیاز دارد. تمام این موارد برای مدل‌های هوش مصنوعی بسیار چالش‌برانگیز هستند.

بنابراین گوگل دیپ‌مایند با توسعه مدل AlphaProof به‌دنبال مقابله با این چالش‌ها بوده است.
👍87
Easy On Me
Adele
موزیکی که خودم موقع تحلیل و کد زدن گوش میدم. همیشه این صدا تمرکزمو بالا می‌بره.
تقدیم به شما❤️
20🔥6👍1🤩1👌1
خیلی دقیق و خلاصه و کامل
16👌3👏1
This media is not supported in your browser
VIEW IN TELEGRAM
معرفی ابزار هوش مصنوعی

با استفاده از magicAnimate می توانید تصاویر ثابت را با استفاده از مدلهای diffusion به انیمیشن های متحرک تبدیل کنید.

لینک پروژه(کد و مقاله):
https://showlab.github.io/magicanimate/
لینک در هاگینگ فیس:

https://huggingface.co/spaces/zcxu-eric/magicanimate
🔥7👍2