Deep Time
3.78K subscribers
101 photos
10 videos
7 files
298 links
Machine Learning 💻 Quantitative Finance💲Time Series 📈 Artificial Intelligence 🤖Data Science 📚 Startup 🚀
Download Telegram
دیتاست قیمت خانه در تهران
Mohamadreza Kariminejad, Linkedin:

من اين ديتاست رو با جمع اوري اطلاعت سايت شيپور ساختم. با كمك selenium و beautifulsoap . داده ها كاملا واقعي هستن ويژگي هاي مثل متراژ، ادرس به انگليسي، تعداد اتاق خواب، اسانسور، انباري، پاركينگ ودر نهايت قيمت به تومان و دلار رو شامل ميشه. اميدوارم براتون مفيد باشه. ميتونه تمرين خيلي خوبي براي regression باشه و حس خوبي بهتون بده چون داده ها اشنا به نظر ميان ( همگي مربوط به شهر تهران هستن)

https://www.kaggle.com/mokar2001/house-price-tehran-iran
1
توسعه مدل هایی بر مبنای ماشین لرنینگ برای افزایش سرعت شبیه سازی در عین حفظ دقت

یکی از اساسی ترین مشکلات برای کار شبیه سازی مثل شبیه سازی سیالات، آکوستیک، انفجار و ... سرعت بسیار کم است. محققین مرکز تحقیقات بین المللی لارنس (از فارع التحصیلان استنفرد) روی مدل های بسیار جالبی کار کردن که در واقع قوانین فیزیک در دل مدل نفوذ کرده و مدل از حالت Full Black Box خارج شده.

سرعت تا ۱۰۰ برابر بالا رفته.

YouTube Link
Papers
#simulation
@deeptimeai
👍2
شرکت DeepMind از گوگل، سری سخنرانی های Reinforcement Learning رو رایگان در یوتوب قرار داده.

Link
👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Pay Attention to MLPs!

محققان Google Brain با توسعه نوع خاصی از MLP به نام gMLP به دقت عملکردی Transformer ها در مدل های vision و language رسیدن. برای مثال gMLP در BERT در فاز pre-training به عملکرد Transformer رسیده و در بعضی مسائل در فاز fine-tuning عملکرد بهتری نشون داده. پس دیگه لزوما به Attention Mechanism نیاز اساسی نیست.
لینک مقاله:
https://arxiv.org/abs/2105.08050

@deeptimeai
👍1
در مورد تفاوت مدل مورد استفاده در مسائل پردازش زبان طبیعی/بینایی ماشین با مسائل جدولی (داده ساختاریافته) و اینکه چقدر مهندسی ویژگی و روش های خاص در مدلسازی مسائل جدولی مهم هست که بعضا این روش‌ها در راه حل های برنده مسابقات Kaggle دیده میشن:

Here is what I think about the difference between NLP/vision tasks and tabular tasks in machine learning:
NLP and computer vision tasks are among the things that humans are very good at naturally, and similarly, deep learning models can learn these tasks without feature engineering (with enough data).
But when it comes to tabular data, computers are usually better than humans because the human-level error is high due to the complexity of multi-dimensional perception. In my opinion, The most important part of modeling tabular problems is Feature Engineering, like the ones used at Kaggle winning solutions. And sometimes "Xgboost + feature engineering" beats deep learning models in Kaggle competitions.

That's why Abhishek Thakur said: Xgboost is all u need!

#machinelearning
#featureengineering

@deeptimeai
👍2
در این رشته توییت جالب، Jeremy Howard از بزرگان دیتاساینس، مدلسازی اپیدمیک (مدل پخش بیماری های واگیردار) رو با چند خط کد ساده و قابل فهم پایتون توضیح میده که جایگزین مدلسازی به صورت معادلات دیفرانسیل شده.

پارامتر ها:
N کل جمعیت
S جمعیت مستعد
I جمعیت بیمار
R جمعیت بهبودیافته
Beta احتمال درگیری افراد مستعد
Gamma احتمال بهبود افراد بیمار

به نظرم بد نیست این مدلسازی چند خطی رو اجرا کنید.

@deeptimeai
👍2
یادگیری و پیشرفت در علوم داده و ماشین لرنینگ

اولین نکته این هست که در این تخصص، شاید بر خلاف بعضی تخصص های دیگه، یادگیری شروع میشه ولی هیچوقت تموم نمیشه و حتی شدت یادگیری کم نمیشه و شما همیشه باید به روز باشید. یکی از مهم ترین مهارت ها هم همین قدرت یادگیری سریع و سرچ کردن هست. برای مثال اگر اسم‌ یک‌ مدلی رو زیاد شنیدین باید این قدرت را داشته باشین که سریع سرچ کنید و کد ها و داکیومنتشو بخونید و خودتون اجراش کنید.

مراحل کلی دیتاساینتیست شدن به نظر من:

۱_ یادگیری زبان برنامه نویسی پایتون و الگوریتم های مختلف

یک راه این هست که دوره پایتون از کورسرا بگذرونید مثل این دوره. اما به صورت کلی در این قسمت بهتره اول anaconda رو نصب کنید. آناکوندا برای شما پایتون رو نصب میکنه و در کنارش تعداد زیادی از کتابخونه های مهم پایتون. بعد میتونید Jupyter notebook رو بالا بیارید و با استفاده از این نوتبوک ها پایتون یاد بگیرید. اما مهمه که به این راضی نباشید و الگوریتم ها و مسائل مختلف رو پیاده کنید. مثلا اینجا میتونید از کتاب معروف
Cracking the coding interview
استفاده کنید و کد هاشو بنویسید.

۲_ گذروندن دوره های ماشین لرنینگ و دیپ لرنینگ با پایتون و مطالعه کتاب

شما میتونید بهترین دوره های دنیا رو مجانی بگذرونید از اینجا میتونید نحوه درخواست کمک مالی و رایگان شدن دوره های کورسرا رو بخونید. کافیه بگید ایرانی هستید و مشکلات پرداخت هست و دانشجو هستید و ارزش پول پایینه، کورس برای شما مجانی میشه و میتونید سرتیفیکیت هم بگیرید. تا اینجا پایتون رو کار کردید و ازینجا ماشین لرنینگ شروع میشه. ماشین لرنینگ رو بهتره از دوره ساده IBM کورسرا و بعد این دوره یوتوب شروع کنید.
و بعد وارد دیپ لرنینگ میشیم که حتما دوره های عالی Deep Learning Specialization که شامل ۵ دوره به تدریس Andrew Ng استاد استنفرد هست بگذرونید.
بعد از گذروندن ۲ ۳ دوره اول از این اسپیشیالیزیشن میتونید مراحل ۴ و ۵ رو ادامه بدید و بقیه کورس هارو موازی با مراحل بعد پیش ببرید.

بعد دوره های عالی Jeremy Howard در یوتوب رو دنبال کنید و دوره های سایت زیر مربوط به دانشگاه برکلی استفاده کنید:
Fullstackdeeplearning

چند کتاب زیر هم به عنوان مرجع مطالعه کنید:

1_Deep Learning (Ian Goodfelow, ...)

2_ Dive into Deep Learning (Aston Zhang, ...)

3_ Hands on Machine Learning with Sickit-Learn , Keras and TensorFlow (Aurelien Geron)


۳_ خوندن مقالات در مورد الگوریتم ها و سیستم های جدید از سایت ها و دنبال کردن افراد متخصص این حوزه.

بجز ژورنال های علمی این سایت ها معمولا خیلی پر استفاده هستن در این حوزه:

Towardsdatascience.com
Medium.com
Machinelearningmastery.com

پیشنهاد میشه افراد و صفحات زیر (خصوصا در توییتر) دنبال کنید تا همیشه در این زمینه به روز باشید. و اینکه مهم نیست که لزوما اون پست هارو کامل متوجه بشید چون بعضا خیلی خاص و عمیق هستن در یک زمینه.
Francois Chollet
Jeremy Howard
Gabriel Peyre
Two Minute Papers
OpenAI
Andrej Karpathy
DeepMind
Andrew Ng
Yann LeCun
Mark Saroufim
Elvis
AK
Sebastian Raschka


۴_ یادگیری ابزار و تخصص های مهم

با این موارد باید به مرور آشنا شد و نیاز نیست صبر کنید تا همه این موارد رو یاد بگیرید و بعد پروژه شروع کنید. اما خوب چیزی مثل git حتما
نیاز هست برای شروع یک کار تیمی که میتونید از اینجا خیلی سریع یاد بگیرید.
Git
Database: SQL and NoSQL
Network
Linux
Regex
APIs
Stats & Probability
MLOps

۵_کار روی پروژه ها

اینجا دو حالت پیش میاد یا شما شروع به کار روی یک پروژه و ساختن میکنید (به صورت تیمی، در یک شرکت یا تنها) یا این مورد رو بعدا انجام میدین که در این صورت برای شروع توصیه میشه حتما در مسابقات ماشین لرنینگ‌ شرکت کنید.
بعضی مسابقات معتبر:
Kaggle.com
Datacrunch.com
Numer.ai

ولی بعد از اون (یا در کنارش)، شروع کار تیمی و ساختن یک محصول جالب رو شروع کنید. اینجا از از مصرف کنندگی صرف علم و ابزار این حوزه آروم آروم تولید کردن و ارزش خلق کردن شروع میشه. برای کار تیمی در این دوره مهم هست که بتونید ریموت کار کردن رو تمرین کنید و مثلا با استفاده از ابزاری مثل live share در vscode بتونید روی یک کد به صورت همزمان و ریموت کار کنید.

نکته آخر اینکه تمام منابع، مقالات و داکیومت های اصلی در این حوزه به زبان انگلیسی هست و بهتره اگر به این مورد عادت ندارید شروع کنید و به مرور این مهارت بدست میاد. دیدن ویدئو ها به زبان انگلیسی، خوندن مقالات و داکیومنت ها یکی از روزمره های این تخصص هست.
@deeptimeai
👍61
از R² استفاده نکنید!

یکی از پرکاربردترین معیارها برای سنجش دقت مدل‌های رگرسیون R² است. اما این معیار چندان دقیق این مسئله را توصیف نمی‌کند. مشکل اصلی این معیار این است که بیشتر توصیف کننده نویز داده‌ها است تا سیگنال (مانند شکل).
معیار مناسب mse است. یا در موارد دیگر p-value و ..‌

توضیحات
@deeptimeai
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
ساخت اپلیکیشن آنالیز احساسات در ۳۰ ثانیه!

با استفاده از Huggingface: کتابخانه مخصوص ترنسفورمرها
و Codex:
ابزار جدید OpenAI که کافیه بهش بگید چه کدی میخواید، خودش براتون مینویسه.

@deeptimeai
👍1
یکی از متخصصین Time Series مهمان برنامه Abhishek Thakur در یوتوب هست.
ایشون در زمینه‌های زیر کار کردند:
credit risk analysis
trading commodities
predictive maintenance
و در حال حاضر در زمینه e-commerce به عنوان لید دیتاساینتیست کار میکنند‌.
Link
@deeptimeai
👍2
Audio
دیتاساینس و سری زمانی
ویس ۱

_ سری زمانی با یک متغیر و چند متغیر
_ روش مرسوم مدلسازی برای سری زمانی یک متغیر و چند متغیر
_ Holt Winters, Signal decomposition, Machine Learning
_ چرا همبستگی در سری زمانی چند متغیره مخصوصا بازار مالی مهم است؟
_ چرا این همبستگی نباید با correlation محاسبه شود؟!

@deeptimeai
1👍1
Audio
دیتاساینس و سری زمانی
ویس ۲

وقتی در یک مسئله سری زمانی ابعاد (فیچرها) زیادی داریم و قرار هست از روابط بین فیچر ها به هر نوعی استفاده کنیم (برای مثال به منظور ساخت فیچر یا خوشه بندی)، از چه ابزاری استفاده کنیم؟ از چه ابزاری استفاده نکنیم؟

YouTube link: why correlation doesn't mean what people usually think it means

@deeptimeai
👍1
Deep Time
دیتاساینس و سری زمانی ویس ۲ وقتی در یک مسئله سری زمانی ابعاد (فیچرها) زیادی داریم و قرار هست از روابط بین فیچر ها به هر نوعی استفاده کنیم (برای مثال به منظور ساخت فیچر یا خوشه بندی)، از چه ابزاری استفاده کنیم؟ از چه ابزاری استفاده نکنیم؟ YouTube link: why…
کتابی که در ویس معرفی شد.

قوی سیاه، اندیشه ورزی پیرامون ریسک
نویسنده: نسیم نیکولاس طالب

نسیم نیکولاس طالب که با نوشتن این کتاب به شهرت جهاتی رسید می‌گوید توانسته در بازار بورس اندوخته‌ای فراهم آورد به اندازه‌ای که ناچار نباشد برای گذران زندگی وقتش را به دیگران بفروشد ...

@deeptimeai
👍3
Audio
دیتاساینس و سری زمانی
ویس ۳
#Representation_Learning
بررسی چند تکنیک جالب Tabular Data از یک راه حل برنده مسابقه 25000 دلاری Kaggle

_Data Augmentation for Tabular Data using "Swap Noise"
_Denoising Auto-Encoder for Representation Learning
_Deep Stack of DAE layers as features
_RankGauss Normalization

@deeptimeai
👍1
Deep Time
دیتاساینس و سری زمانی ویس ۳ #Representation_Learning بررسی چند تکنیک جالب Tabular Data از یک راه حل برنده مسابقه 25000 دلاری Kaggle _Data Augmentation for Tabular Data using "Swap Noise" _Denoising Auto-Encoder for Representation Learning _Deep Stack of…
کدهای مربوط به این روش در گیتهاب قرار داده شد!

یک ریپوزیتوری به نام Tabular Time Series ساخته شده که به مرور تکنیک‌ها و روش‌های جالب رو اونجا قرار میدم.

https://github.com/MTisMT/Tabular_Time_Series

@deeptimeai
👍1