Data world with Mina
4.13K subscribers
374 photos
62 videos
169 files
401 links
minarabti32@gmail.com
منبع مطالب يادگيري ماشين،پايتون ،داده كاوي ،هوش مصنوعي، دانلود داده، فيلم هاي آموزشي رايگان، داده
ارتباط با ادمین
@Datalook_mina
اینستاگرام:mina.rabti
Download Telegram
👌5🔥21
مدل Hyena — انقلاب در یادگیری توالی‌های بلند

یکی از چالش‌های بزرگ مدل‌های زبانی و سری‌زمانی اینه که طول دنباله (sequence length) هر چی بیشتر میشه، مدل‌های معمول مثل Transformer دیگه نمی‌تونن خوب کار کنن. چون مکانیزم attention تو Transformer با افزایش طول، هزینه‌اش به‌صورت  n2 رشد می‌کنه — یعنی اگر بخوای مثلاً یه کتاب کامل یا سیگنال EEG طولانی رو پردازش کنی، خیلی گرون تموم میشه!

مدل Hyena که توسط تیم پژوهشی استنفورد معرفی شد، اومده این مشکل رو حل کنه.

به جای اینکه مثل Transformer بین همه‌ی کلمات یا نقاط ارتباط مستقیم برقرار کنه، از فیلترهای سلسله‌مراتبی و شبه‌کانولوشنی استفاده می‌کنه تا وابستگی‌های بلندمدت رو یاد بگیره — اما با پیچیدگی زمانی فقط nlogn ! 🔥

نتیجه؟

مدل‌های Hyena می‌تونن با حافظه کمتر، توالی‌هایی چند برابر طولانی‌تر رو بفهمن.
در NLP برای درک متن‌های طولانی و در داده‌های سری زمانی (مثل ترافیک، حسگرها، EEG، و داده‌های مالی) کاربرد داره.
جالب‌تر اینکه کیفیت خروجی تقریباً هم‌تراز یا حتی بهتر از Transformerهاست ولی با هزینه‌ی محاسباتی خیلی پایین‌تر.

🔹 اگر بخوای یه مدل سبک و مقیاس‌پذیر برای داده‌های ترتیبی طولانی بسازی، Hyena گزینه‌ی بسیار هوشمندانه‌ایه.
👌63🔥2
Forwarded from Data world with Mina (Mina Ra)
ed3bookaug20_2024.pdf
22.1 MB
کتاب فوق‌العاده پردازش گفتار
ویرایش سوم
نوشته دن جورافسکی و جیمز اچ. مارتین

اگر به NLP، هوش مصنوعی یا شناسایی گفتار علاقه‌مند هستید، این کتاب یک گنجینه است. از مبدل‌ها و مدل‌های زبانی بزرگ گرفته تا ترجمه ماشینی و چت‌بات‌ها، پر از بینش‌های پیشرفته و منابع کاربردی است.
8
Forwarded from دکتر شیری
Media is too big
VIEW IN TELEGRAM
اوزجان خواننده و هنرپیشه مشهور ترکیه در این ۱۵۰ ثانیه، داستانی حیرت آور از زمانی نقل میکند که در آلمان کارگری میکرده و زندگیش تغییر میکند و انگاری میخواهد بگوید گاهی خداوند است که بازی را میچیند ؛
در این صورت نیازی به اینهمه
«از خودمچکر بودن» نیست دیگر.
@drshiri
21👌7👍1
چت گروهی به هوش مصنوعی ChatGPT اضافه شد؛ اما فقط در ۴ کشور

اوپن‌اِی‌آی در حال آزمایش یکی از بزرگ‌ترین قابلیت‌های ChatGPT در چند بازار منتخب است؛ قابلیتی که امکان چت گروهی با ChatGPT را برای نخستین‌بار فراهم می‌کند.

این تغییر، تحول مهمی در شیوه‌ی استفاده از چت‌بات‌ها محسوب می‌شود. مایکروسافت نیز اخیراً مفهوم مشابهی را در کوپایلت معرفی کرده بود.

چت‌های گروهی بر پایه‌ی مدل جدید GPT-5.1 اجرا می‌شوند و محدودیت مصرف تنها زمانی محاسبه می‌شود که ChatGPT پاسخی ارسال کند. این ساختار اجازه می‌دهد اعضای گروه بدون نیاز به خطاب‌کردن مداوم چت‌بات گفت‌وگو کنند و با هر پیام به محدودیت مصرف نرسند.

در حال حاضر، این قابلیت تنها در ژاپن، نیوزیلند، کره‌‌ی جنوبی و تایوان در حال آزمایش است. اوپن‌ای‌آی می‌گوید بر اساس بازخوردهای اولیه، نحوه‌ی کارکرد چت گروهی اصلاح می‌شود و به‌تدریج در دسترس کاربران مناطق دیگر هم قرار می‌گیرد.
5👌2
Forwarded from Data world with Mina (Mina Ra)
«🤖ترانسفورمر» یک مدل یادگیری عمیق است که مکانیسم توجه به خود، به‌طور متفاوتی اهمیت هر بخش از داده‌های ورودی را وزن می‌کند. عمدتاً در زمینه‌های پردازش زبان طبیعی (NLP) و بینایی رایانه ای (CV) استفاده می‌شود.

مانند شبکه عصبی بازگشتی (RNN)، ترانسفورمرها برای مدیریت داده‌های ورودی متوالی، مانند زبان طبیعی، برای کارهایی مانند ترجمه و خلاصه متن طراحی شده‌اند. با این حال، برخلاف شبکه عصبی بازگشتیها، ترانسفورمرها لزوماً داده‌ها را به ترتیب پردازش نمی‌کنند. در عوض، مکانیسم توجه زمینه را برای هر موقعیتی در دنباله ورودی فراهم می‌کند. به عنوان مثال، اگر داده ورودی یک جمله زبان طبیعی باشد، ترانسفورمر نیازی به پردازش ابتدای جمله قبل از پایان ندارد.

📚این ویژگی اجازه می‌دهد تا موازی سازی بیشتر از شبکه عصبی بازگشتیها باشد و بنابراین زمان آموزش را کاهش می‌دهد.

داده‌های بزرگتر از زمانی که ممکن بود را می‌دهد. این منجر به توسعه سیستم‌های از پیش آموزش دیده مانند مدل Bert و
GPT( Generative Pre-trained Transformer)
شده است.
آموزش ترانسفورمرها
در کانال یوتیوب
mina rabti

https://m.youtube.com/channel/UCvxKAC5IdZp6U_75sre0CEw
15
مساله سری زمانی مطلق نیست ولی زمان تاثیر داره.

من مدتیه که خیلی عمیق تر از قبل دارم رو پروژه های یادگیری ماشین از نوع سری زمانی  و مباحث پیش بینی کار میکنم.

در مباحث پیش بینی برای آینده چیزی که ظاهرا به نظر میرسه  که اینه که فیچر زمان خیلی مهمه(حالا بسته به نوع بیزینس) .

از طرفی تو پروژه های سری زمانی در نظر گرفتن زمان برای مدل‌های sequence( خانواده Rnn) مثل lstm اینجوریه که باید  index باشه یعنی مثلا برای هر روز (یا هر ساعت و..) یک سطر مشخص داشته باشیم که براساس اون بتونیم برای اون آیتم تخمین آینده داشته باشیم.
و اگر در یک آبجکت زمانی مقداری تعریف نشده براساس مفهوم بیزینس، مثلا صفر یا عدد دیگه تعریف  کنیم.

در دوره ها و پروژه ها هم معمولا داده ها نسبتا تمیزه و بیشتر تمرکز رو مدل و پارامترها و روشهاست(یکم زیادی شده) و کمتر رو پیش پردازش و آماده سازی داده، زمان میگذارند.

ولی تو کار با یه سری سطر و ستون جدول و فیلدهای به هم ریخته مواجه میشی که تحلیل دقیق تو فقط میتونه اونو به سمت مدل و کشف الگو سوق بده.

در پروژه واقعی  داری درک میکنی  فصل و زمان تو این بیزینس تاثیر داره ولی برای یک آبجکت زمانی ما فقط یه سطر نداریم. مثلا تو یه روز چندین نوع محصول داریم برای فروش.
یا چندین آیتم خراب داریم برای پروژه های pdm. برای هر نوع آیتم هم که داده به اندازه کافی ممکنه نداشته باشیم که جداگانه مدل بزنیم.


یه داده باید بسازیم برای پیش بینی آینده هر آیتم و تمام.. خوب چیکار کنیم؟

مساله سری زمانی مطلق نیست ولی زمان تاثیر داره.

اولا که اگر داده خوب ندارید(در مورد این باید بعدها بگم) و نمیشه نتایج خوبی گرفت، حتما مطرح کنید و مسوولیت پروژه رو قبول نکنید. قرار نیست Ml همیشه راه حل باشه.

دوما فیچر هدف و خروجی رو همون اول تعیین کنید. یعنی فکر کنید مشتری و کارفرما شما میخواد چی ببینه و چی باید بسازید.

دوما اگر فیچرها خوبه حتما زمان رو به عنوان فیچر بچسبونید به داده : فصل و ماه و شاید سال رو جدا کنید.

موقع تقسیم داده آموزشی و تست آخرین سطرها ( مثلا آخرین خرابی ها) رو داده تست بگیرید از Train test Split کتابخانه sklearn استفاده نکنید.

حواستون به نشت داده و Data Leakage باشه که قبلا هم توضیح دادم.

و  آخر اینکه مساله رو پیچیده نکنید. 😊 با AI ها بعد از تحلیل خودتون مشورت کنید. چون خیلی شما رو به خطا میندازن.
و
آخر اینکه عاشق باشید. عاشق شغلتون❤️
11👌6
Forwarded from Data world with Mina (Mina Ra)
چرا پیرسون برای روابط غیرخطی مناسب نیست؟

همبستگی پیرسون تنها تغییرات خطی را اندازه‌گیری می‌کند. اگر داده‌ها دارای رابطه غیرخطی باشند، پیرسون نمی‌تواند آن را به درستی تشخیص دهد، زیرا این روش بر اساس محاسبه میانگین و انحراف معیار عمل می‌کند. در مقابل، همبستگی اسپیرمن که بر اساس رتبه‌بندی داده‌ها است، می‌تواند روابط غیرخطی را نیز به خوبی شناسایی کند.

به عنوان مثال اگر رابطه بین رشد جمعیت و مصرف انرژی که به صورت نمایی و لگاریتمی است را بررسی کنیم، همبستگی اسپیرمن مناسب تر است
👍194👌4
گاهی می‌بینم دوستانی که تازه وارد مسیر دیتا ساینس می‌شوند، برای مشاوره و منتورینگ سراغ هر کسی می‌روند؛ فقط چون خوب حرف می‌زند، یا محتوای زیادی تولید می‌کند.
اما واقعیت این است که در این حوزه، حرف کافی نیست. تجربه‌ عملی‌ست که شخصیت یک منتور را می‌سازد.

اگر می‌خواهید وقت و انرژی‌تان تلف نشود، فقط به یک نکته دقت کنید:
منتوری را انتخاب کنید که حداقل یک کار Production واقعی انجام داده باشد.
منظورم یک کار اجرایی درست است؛ پروژه‌ای که خروجی داشته و واقعاً در یک سازمان، محصول یا سرویس استفاده شده باشد.

آدمی که سال‌هاست فقط وقت دارد هر روز مشاوره بدهد، لایو برود، محتوا تولید کند و در عمل درگیر هیچ پروژه واقعی نیست… طبیعی است که نمی‌تواند تجربه‌ای را منتقل کند که خودش لمس نکرده باشد.

دیتا ساینس دنیای تئوری‌ها نیست؛
دنیای کار اجرایی، پیاده‌سازی، خطا، اصلاح، Production، و نتایج واقعی است.

اگر دنبال پیشرفتید،
منتوری را انتخاب کنید که رد پایش در یک پروژه واقعی دیده شود. همین.
34👏14👌8👍3
یلداتون مبارک 🌼🌻هر بهانه ای که باعث بشه قسمت‌های قشنگ فرهنگ ایران عزیزمون زنده باشه زیباست❤️❤️❤️ عمرتون و شادی هاتون طولانی
43🙏5🔥2
ما در هلدینگ ماموت به دنبال جذب یک کارشناس هوش تجاری (Business Intelligence) توانمند هستیم تا در طراحی و توسعه داشبوردهای مدیریتی و تحلیل داده‌ها در کنار تیم ما فعالیت کند.
اگر به ابزارهای هوش تجاری در اکوسیستم مایکروسافت مانند SSIS و SSAS تسلط دارید، سابقه طراحی داشبورد با Power BI را دارید و به یکپارچه‌سازی داده‌ها از منابع مختلف علاقه‌مند هستید، این موقعیت شغلی می‌تواند برای شما مناسب باشد.
ما به دنبال فردی هستیم که از مواجهه با چالش‌های فنی متنوع و مسائل پیچیده داده‌ای استقبال کند، رویکرد تحلیلی داشته باشد و بتواند راه‌حل‌های مؤثر و قابل اجرا ارائه دهد.
در صورتیکه تمایل به همکاری دارید خوشحال میشیم شما رو در تیم خودمون داشته باشیم. لطفا رزومه خود را به Minarabti32@gmail.com
ارسال کنید.
🔥2👌2
Data world with Mina pinned «گاهی می‌بینم دوستانی که تازه وارد مسیر دیتا ساینس می‌شوند، برای مشاوره و منتورینگ سراغ هر کسی می‌روند؛ فقط چون خوب حرف می‌زند، یا محتوای زیادی تولید می‌کند. اما واقعیت این است که در این حوزه، حرف کافی نیست. تجربه‌ عملی‌ست که شخصیت یک منتور را می‌سازد. اگر…»
Forwarded from Mohammad Discovery
منم همین چند ساعت پیش متوجه شدم که سایت متمم چند هفته ای هست که فیلتر شده،
برام ناراحت کننده و تاسف آور بود،
همون روزای اول ١٧-١٨ م نگران متمم هم بودم ولی کلا دیگه بعد از قطع اینترنت یادم رفت،
متمم، محل توسعه مهارت های من نیست، محل رشد و توسعه ایران(+فارسی زبانان)هست،
همین چند روز پیش داشتم به سایت هایی مثل متمم فکر می کردم،
متمم چه باشه، چه نباشه، چه فیلتر باشه چه نباشه،
اثر خودش رو توی این کشور گذاشته، جریان فکری رو ایجاد کرد که همیشه زنده می مونه، متمم اون محتوای همیشه سبز نیست، اون نوع نگاه به مفاهیم و مهارت ها و یادگیری بود که جریانش رو ساخت،
کلیدواژه هایی مثل تفکر سیستمی، مدل ذهنی، تصمیم گیری و صدها کلیدواژه دیگه رو معرفی کرد، دقیق تعریف کرد و فهموند.
متمم برای خیلی از ایرانیا که دسترسی به خیلی از امکانات آموزشی و ارتباطی رو نداشتن یه مرجع قدرتمند و با کیفیت بوده و هست،
از متمم دوس دارم بیشتر بنویسم و می نویسم،
دوس داشتم فقط در شروع چند جمله ای گفته باشم.
👍1611
درود به اعضای کانال 💫

امیدوارم اینترنت داشته باشید و در سلامت پیامم رو ببینید 🥺❤️

ممنون میشم با ری اکشن و ایموجی از خودتون و سالم بودنتون خبر بدید.

تو پیام رسان "بله" کانال زدم که تو شرایط قطعی نت بتونیم باهم در ارتباط باشیم ،گرچه این روزها هممون تاب آوری و بقا رو تمرین میکنیم.
«هوش مصنوعی و یادگیری ماشین»

🆔 شناسه:
https://ble.ir/ai_with_mina

به امید دیدار تو روزهای سپید 💫✌️
33
اگر هم سوالی، مشاوره ای داشتید میتونید با شماره

09029070835

در ارتباط باشید.
🙏5
Data world with Mina pinned «درود به اعضای کانال 💫 امیدوارم اینترنت داشته باشید و در سلامت پیامم رو ببینید 🥺❤️ ممنون میشم با ری اکشن و ایموجی از خودتون و سالم بودنتون خبر بدید. تو پیام رسان "بله" کانال زدم که تو شرایط قطعی نت بتونیم باهم در ارتباط باشیم ،گرچه این روزها هممون تاب…»
با توجه به خبرهای منتشر شده

فعلا برنامه ای برای باز کردن نت بین الملل نیست

@datalook_ir