Deep Time – Telegram

Deep Time

3.78K subscribers

101 photos

10 videos

7 files

298 links

Machine Learning 💻 Quantitative Finance💲Time Series 📈 Artificial Intelligence 🤖Data Science 📚 Startup 🚀

Download Telegram

About

Blog

Apps

Platform

3.78K subscribers

دیتاست قیمت خانه در تهران
Mohamadreza Kariminejad, Linkedin:

من اين ديتاست رو با جمع اوري اطلاعت سايت شيپور ساختم. با كمك selenium و beautifulsoap . داده ها كاملا واقعي هستن ويژگي هاي مثل متراژ، ادرس به انگليسي، تعداد اتاق خواب، اسانسور، انباري، پاركينگ ودر نهايت قيمت به تومان و دلار رو شامل ميشه. اميدوارم براتون مفيد باشه. ميتونه تمرين خيلي خوبي براي regression باشه و حس خوبي بهتون بده چون داده ها اشنا به نظر ميان ( همگي مربوط به شهر تهران هستن)

https://www.kaggle.com/mokar2001/house-price-tehran-iran

House Price (Tehran, Iran)

About 3500 Houses with thier complete information (Price in Dollor & Toman)

❤1

765 views20:52

توسعه مدل هایی بر مبنای ماشین لرنینگ برای افزایش سرعت شبیه سازی در عین حفظ دقت

یکی از اساسی ترین مشکلات برای کار شبیه سازی مثل شبیه سازی سیالات، آکوستیک، انفجار و ... سرعت بسیار کم است. محققین مرکز تحقیقات بین المللی لارنس (از فارع التحصیلان استنفرد) روی مدل های بسیار جالبی کار کردن که در واقع قوانین فیزیک در دل مدل نفوذ کرده و مدل از حالت Full Black Box خارج شده.

سرعت تا ۱۰۰ برابر بالا رفته.

YouTube Link
Papers
#simulation
@deeptimeai

Physics-Constrained Data-Driven Methods of Accurately Accelerating Simulations & Their Applications

Presented by Youngsoo Choi, Lawrence Livermore National Laboratory, 8.16.2021

👍2

830 viewsedited 08:59

شرکت DeepMind از گوگل، سری سخنرانی های Reinforcement Learning رو رایگان در یوتوب قرار داده.

Link

👍3

827 views21:02

This media is not supported in your browser

VIEW IN TELEGRAM

Pay Attention to MLPs!

محققان Google Brain با توسعه نوع خاصی از MLP به نام gMLP به دقت عملکردی Transformer ها در مدل های vision و language رسیدن. برای مثال gMLP در BERT در فاز pre-training به عملکرد Transformer رسیده و در بعضی مسائل در فاز fine-tuning عملکرد بهتری نشون داده. پس دیگه لزوما به Attention Mechanism نیاز اساسی نیست.
لینک مقاله:
https://arxiv.org/abs/2105.08050

@deeptimeai

👍1

827 viewsedited 07:57

در مورد تفاوت مدل مورد استفاده در مسائل پردازش زبان طبیعی/بینایی ماشین با مسائل جدولی (داده ساختاریافته) و اینکه چقدر مهندسی ویژگی و روش های خاص در مدلسازی مسائل جدولی مهم هست که بعضا این روش‌ها در راه حل های برنده مسابقات Kaggle دیده میشن:

Here is what I think about the difference between NLP/vision tasks and tabular tasks in machine learning:
NLP and computer vision tasks are among the things that humans are very good at naturally, and similarly, deep learning models can learn these tasks without feature engineering (with enough data).
But when it comes to tabular data, computers are usually better than humans because the human-level error is high due to the complexity of multi-dimensional perception. In my opinion, The most important part of modeling tabular problems is Feature Engineering, like the ones used at Kaggle winning solutions. And sometimes "Xgboost + feature engineering" beats deep learning models in Kaggle competitions.

That's why Abhishek Thakur said: Xgboost is all u need!

#machinelearning
#featureengineering

@deeptimeai

👍2

814 viewsedited 11:36

789 views11:54

در این رشته توییت جالب، Jeremy Howard از بزرگان دیتاساینس، مدلسازی اپیدمیک (مدل پخش بیماری های واگیردار) رو با چند خط کد ساده و قابل فهم پایتون توضیح میده که جایگزین مدلسازی به صورت معادلات دیفرانسیل شده.

پارامتر ها:
N کل جمعیت
S جمعیت مستعد
I جمعیت بیمار
R جمعیت بهبودیافته
Beta احتمال درگیری افراد مستعد
Gamma احتمال بهبود افراد بیمار

به نظرم بد نیست این مدلسازی چند خطی رو اجرا کنید.

@deeptimeai

If you've ever looked into epidemic modeling, you might have been put off by the scary-looking math, involving integrating differential equations. But what if I told you you don't need anything but primary school math? 1/🧵

👍2

1.08K viewsedited 19:20

یادگیری و پیشرفت در علوم داده و ماشین لرنینگ

اولین نکته این هست که در این تخصص، شاید بر خلاف بعضی تخصص های دیگه، یادگیری شروع میشه ولی هیچوقت تموم نمیشه و حتی شدت یادگیری کم نمیشه و شما همیشه باید به روز باشید. یکی از مهم ترین مهارت ها هم همین قدرت یادگیری سریع و سرچ کردن هست. برای مثال اگر اسم‌ یک‌ مدلی رو زیاد شنیدین باید این قدرت را داشته باشین که سریع سرچ کنید و کد ها و داکیومنتشو بخونید و خودتون اجراش کنید.

مراحل کلی دیتاساینتیست شدن به نظر من:

۱_ یادگیری زبان برنامه نویسی پایتون و الگوریتم های مختلف

یک راه این هست که دوره پایتون از کورسرا بگذرونید مثل این دوره. اما به صورت کلی در این قسمت بهتره اول anaconda رو نصب کنید. آناکوندا برای شما پایتون رو نصب میکنه و در کنارش تعداد زیادی از کتابخونه های مهم پایتون. بعد میتونید Jupyter notebook رو بالا بیارید و با استفاده از این نوتبوک ها پایتون یاد بگیرید. اما مهمه که به این راضی نباشید و الگوریتم ها و مسائل مختلف رو پیاده کنید. مثلا اینجا میتونید از کتاب معروف
Cracking the coding interview
استفاده کنید و کد هاشو بنویسید.

۲_ گذروندن دوره های ماشین لرنینگ و دیپ لرنینگ با پایتون و مطالعه کتاب

شما میتونید بهترین دوره های دنیا رو مجانی بگذرونید از اینجا میتونید نحوه درخواست کمک مالی و رایگان شدن دوره های کورسرا رو بخونید. کافیه بگید ایرانی هستید و مشکلات پرداخت هست و دانشجو هستید و ارزش پول پایینه، کورس برای شما مجانی میشه و میتونید سرتیفیکیت هم بگیرید. تا اینجا پایتون رو کار کردید و ازینجا ماشین لرنینگ شروع میشه. ماشین لرنینگ رو بهتره از دوره ساده IBM کورسرا و بعد این دوره یوتوب شروع کنید.
و بعد وارد دیپ لرنینگ میشیم که حتما دوره های عالی Deep Learning Specialization که شامل ۵ دوره به تدریس Andrew Ng استاد استنفرد هست بگذرونید.
بعد از گذروندن ۲ ۳ دوره اول از این اسپیشیالیزیشن میتونید مراحل ۴ و ۵ رو ادامه بدید و بقیه کورس هارو موازی با مراحل بعد پیش ببرید.

بعد دوره های عالی Jeremy Howard در یوتوب رو دنبال کنید و دوره های سایت زیر مربوط به دانشگاه برکلی استفاده کنید:
Fullstackdeeplearning

چند کتاب زیر هم به عنوان مرجع مطالعه کنید:

1_Deep Learning (Ian Goodfelow, ...)

2_ Dive into Deep Learning (Aston Zhang, ...)

3_ Hands on Machine Learning with Sickit-Learn , Keras and TensorFlow (Aurelien Geron)

۳_ خوندن مقالات در مورد الگوریتم ها و سیستم های جدید از سایت ها و دنبال کردن افراد متخصص این حوزه.

بجز ژورنال های علمی این سایت ها معمولا خیلی پر استفاده هستن در این حوزه:

Towardsdatascience.com
Medium.com
Machinelearningmastery.com

پیشنهاد میشه افراد و صفحات زیر (خصوصا در توییتر) دنبال کنید تا همیشه در این زمینه به روز باشید. و اینکه مهم نیست که لزوما اون پست هارو کامل متوجه بشید چون بعضا خیلی خاص و عمیق هستن در یک زمینه.
Francois Chollet
Jeremy Howard
Gabriel Peyre
Two Minute Papers
OpenAI
Andrej Karpathy
DeepMind
Andrew Ng
Yann LeCun
Mark Saroufim
Elvis
AK
Sebastian Raschka

۴_ یادگیری ابزار و تخصص های مهم

با این موارد باید به مرور آشنا شد و نیاز نیست صبر کنید تا همه این موارد رو یاد بگیرید و بعد پروژه شروع کنید. اما خوب چیزی مثل git حتما
نیاز هست برای شروع یک کار تیمی که میتونید از اینجا خیلی سریع یاد بگیرید.
Git
Database: SQL and NoSQL
Network
Linux
Regex
APIs
Stats & Probability
MLOps

۵_کار روی پروژه ها

اینجا دو حالت پیش میاد یا شما شروع به کار روی یک پروژه و ساختن میکنید (به صورت تیمی، در یک شرکت یا تنها) یا این مورد رو بعدا انجام میدین که در این صورت برای شروع توصیه میشه حتما در مسابقات ماشین لرنینگ‌ شرکت کنید.
بعضی مسابقات معتبر:
Kaggle.com
Datacrunch.com
Numer.ai

ولی بعد از اون (یا در کنارش)، شروع کار تیمی و ساختن یک محصول جالب رو شروع کنید. اینجا از از مصرف کنندگی صرف علم و ابزار این حوزه آروم آروم تولید کردن و ارزش خلق کردن شروع میشه. برای کار تیمی در این دوره مهم هست که بتونید ریموت کار کردن رو تمرین کنید و مثلا با استفاده از ابزاری مثل live share در vscode بتونید روی یک کد به صورت همزمان و ریموت کار کنید.

نکته آخر اینکه تمام منابع، مقالات و داکیومت های اصلی در این حوزه به زبان انگلیسی هست و بهتره اگر به این مورد عادت ندارید شروع کنید و به مرور این مهارت بدست میاد. دیدن ویدئو ها به زبان انگلیسی، خوندن مقالات و داکیومنت ها یکی از روزمره های این تخصص هست.
@deeptimeai

Python for Everybody

Offered by University of Michigan. Learn to Program and ... Enroll for free.

👍6✍1

5.27K viewsedited 12:22

از R² استفاده نکنید!

یکی از پرکاربردترین معیارها برای سنجش دقت مدل‌های رگرسیون R² است. اما این معیار چندان دقیق این مسئله را توصیف نمی‌کند. مشکل اصلی این معیار این است که بیشتر توصیف کننده نویز داده‌ها است تا سیگنال (مانند شکل).
معیار مناسب mse است. یا در موارد دیگر p-value و ..‌

توضیحات
@deeptimeai

👍2

907 viewsedited 05:30

This media is not supported in your browser

VIEW IN TELEGRAM

ساخت اپلیکیشن آنالیز احساسات در ۳۰ ثانیه!

با استفاده از Huggingface: کتابخانه مخصوص ترنسفورمرها
و Codex:
ابزار جدید OpenAI که کافیه بهش بگید چه کدی میخواید، خودش براتون مینویسه.

@deeptimeai

👍1

922 views05:48

یکی از متخصصین Time Series مهمان برنامه Abhishek Thakur در یوتوب هست.
ایشون در زمینه‌های زیر کار کردند:
credit risk analysis
trading commodities
predictive maintenance
و در حال حاضر در زمینه e-commerce به عنوان لید دیتاساینتیست کار میکنند‌.
Link
@deeptimeai

Talks S2E7 (Konrad Banachewicz): Time Series Analysis - Vintage Toolkit For Modern Times

Abstract : An overview of time series methods - from classics to modern ones - and how you can use them in practice; from power consumption to sales data, multiple seasonalities to almost random, there is something in the time series toolkit that will come…

👍2

889 viewsedited 09:49

توسعه مدل هایی بر مبنای ماشین لرنینگ برای افزایش سرعت شبیه سازی در عین حفظ دقت یکی از اساسی ترین مشکلات برای کار شبیه سازی مثل شبیه سازی سیالات، آکوستیک، انفجار و ... سرعت بسیار کم است. محققین مرکز تحقیقات بین المللی لارنس (از فارع التحصیلان استنفرد) روی…

پیرو بحث درباره فصل مشترک ماشین لرنینگ و شبیه سازی:
در این مورد مدلسازی‌های خیلی جالبی کار شده. یک کانال یوتوب عالی هم به زودی به اشتراک میذارم.
https://www.pnas.org/content/118/21/e2101784118
#simulation
@deeptimeai

Machine learning–accelerated computational fluid dynamics | Proceedings of the National Academy of Sciences

Numerical simulation of fluids plays an essential role in modeling many physical phenomena,
such as weather, climate, aerodynamics, and plasma phys...

932 viewsedited 11:43

دیتاساینس و سری زمانی
ویس ۱

_ سری زمانی با یک متغیر و چند متغیر
_ روش مرسوم مدلسازی برای سری زمانی یک متغیر و چند متغیر
_ Holt Winters, Signal decomposition, Machine Learning
_ چرا همبستگی در سری زمانی چند متغیره مخصوصا بازار مالی مهم است؟
_ چرا این همبستگی نباید با correlation محاسبه شود؟!

@deeptimeai

❤1👍1

943 viewsedited 16:24

دیتاساینس و سری زمانی ویس ۱ _ سری زمانی با یک متغیر و چند متغیر _ روش مرسوم مدلسازی برای سری زمانی یک متغیر و چند متغیر _ Holt Winters, Signal decomposition, Machine Learning _ چرا همبستگی در سری زمانی چند متغیره مخصوصا بازار مالی مهم است؟ _ چرا این همبستگی…

درباره قوی بودن مدل های ETS (Holt-Winters) در مقابل مدل‌های ماشین لرنینگ در بعضی مسائل سری زمانی خصوصا مسائل تک متغیری :
عکس مقدار خطا رو نشون میده
لینک مقاله
یک پست در این مورد
@deeptimeai

👍1

962 viewsedited 19:22

دیتاساینس و سری زمانی
ویس ۲

وقتی در یک مسئله سری زمانی ابعاد (فیچرها) زیادی داریم و قرار هست از روابط بین فیچر ها به هر نوعی استفاده کنیم (برای مثال به منظور ساخت فیچر یا خوشه بندی)، از چه ابزاری استفاده کنیم؟ از چه ابزاری استفاده نکنیم؟

YouTube link: why correlation doesn't mean what people usually think it means

@deeptimeai

👍1

916 viewsedited 18:14

دیتاساینس و سری زمانی ویس ۲ وقتی در یک مسئله سری زمانی ابعاد (فیچرها) زیادی داریم و قرار هست از روابط بین فیچر ها به هر نوعی استفاده کنیم (برای مثال به منظور ساخت فیچر یا خوشه بندی)، از چه ابزاری استفاده کنیم؟ از چه ابزاری استفاده نکنیم؟ YouTube link: why…

کتابی که در ویس معرفی شد.

قوی سیاه، اندیشه ورزی پیرامون ریسک
نویسنده: نسیم نیکولاس طالب

نسیم نیکولاس طالب که با نوشتن این کتاب به شهرت جهاتی رسید می‌گوید توانسته در بازار بورس اندوخته‌ای فراهم آورد به اندازه‌ای که ناچار نباشد برای گذران زندگی وقتش را به دیگران بفروشد ...

@deeptimeai

👍3

1.07K views18:22

یکی از متخصصین Time Series مهمان برنامه Abhishek Thakur در یوتوب هست. ایشون در زمینه‌های زیر کار کردند: credit risk analysis trading commodities predictive maintenance و در حال حاضر در زمینه e-commerce به عنوان لید دیتاساینتیست کار میکنند‌. Link @deeptimeai

این لایو برگزار شد و الان سیو شده👆

861 views19:56

دیتاساینس و سری زمانی
ویس ۳
#Representation_Learning
بررسی چند تکنیک جالب Tabular Data از یک راه حل برنده مسابقه 25000 دلاری Kaggle

_Data Augmentation for Tabular Data using "Swap Noise"
_Denoising Auto-Encoder for Representation Learning
_Deep Stack of DAE layers as features
_RankGauss Normalization

@deeptimeai

👍1

873 viewsedited 13:21

دیتاساینس و سری زمانی ویس ۳ #Representation_Learning بررسی چند تکنیک جالب Tabular Data از یک راه حل برنده مسابقه 25000 دلاری Kaggle _Data Augmentation for Tabular Data using "Swap Noise" _Denoising Auto-Encoder for Representation Learning _Deep Stack of…

کدهای مربوط به این روش در گیتهاب قرار داده شد!

یک ریپوزیتوری به نام Tabular Time Series ساخته شده که به مرور تکنیک‌ها و روش‌های جالب رو اونجا قرار میدم.

https://github.com/MTisMT/Tabular_Time_Series

@deeptimeai

👍1

794 viewsedited 20:44

سیر تکامل الگوریتم‌های Tokenization در NLP
توضیح Byte Pair Encoding
Link
@deeptimeai

freeCodeCamp.org

The Evolution of Tokenization – Byte Pair Encoding in NLP

Natural Language Processing may have come a little late to the AI game, but companies like Google and OpenAI are working wonders with NLP techniques these days. These companies have released state-of-the-art language models like BERT and GPT-2 and GPT-3.…

👍1

781 views07:05