Deep Time
3.78K subscribers
101 photos
10 videos
7 files
298 links
Machine Learning 💻 Quantitative Finance💲Time Series 📈 Artificial Intelligence 🤖Data Science 📚 Startup 🚀
Download Telegram
دوره Machine Learning Specialization آقای Andrew Ng با همکاری دانشگاه استنفرد و Deeplearning.AI در Coursera با محتوای جدید اخیرا آپدیت شده.

این دوره برای شروع یاد گرفتن ماشین لرنینگ هم قطعا مناسبه و همچنین برای دوستانی که تجربه دارن مطالب جدید داره و میتونه برای سنجش دانش خوب باشه. بر خلاف Deep Learning Specialization، در این Specialization سرفصل‌هایی مثل XGBoost , Random Forest کاور شدن که برای دوستانی که روی داده‌های Tabular کار میکنن واجب هست. البته پایه Deep Learning یعنی شبکه عصبی و gradient decent هم تدریس میشه. همچنین در course سوم Deep Reinforcement Learning، روش‌های Unsupervised و Recommender Systems آورده شده.

برخلاف خیلی شرکت‌ها که ایرانی‌ها رو تحویل نمیگیرند، در کورسرا شما میتونید با ذکر اینکه برای پرداخت‌ها در ایران تحریم هستیم و ارزش پول پایینی داریم یا دانشجو هستیم، دوره رو کاملا برای خودتون رایگان کنید و مدرکش رو بگیرید. البته به نظرم اسم ایران رو نیارید ولی قطعا کلمه sanction یا تحریم رو در درخواست ذکر کنید. در واقع با درخواست financial aid بعد از 15 روز دوره برای شما رایگان باز میشه و 6 ماه فرصت دارید دوره رو بگذرونید. بهتره با فیلترشکن وارد سایت کورسرا بشید.
برای Specialization ها که شامل چند دوره هستند پیشنهاد میشه تک تک هر دوره رو بگذرونید و بعد دوره بعد رو درخواست بدید تا وقت کم نیارید و فرصت 6 ماهه بگذره. البته اگر هم از ددلاین 6 ماهه گذشت میتونید مجدد درخواست بدید. برای آشنایی با نحوه درخواست دادن برای رایگان شدنِ دوره، لینک رو ببینید.

با تجربه‌ای که شخصا از گذروندن 5 دوره Deep Learning Specialization دارم، مطمئنا دوره‌ها Machine Learning Specialization رو پیشنهاد میکنم. کیفیت تدریس بالاست و عمق الگوریتم و ریاضی مدل‌ها ارائه میشه و همچنین تکالیف کد نوشتن هم با کمک کتابخانه‌ها و هم از صفر وجود داره.

@deeptimeai
موسسه ریاضی دانشگاه آکسفورد یکی از قوی ترین موسسات در پیشبرد تحقیقات مربوط به سری زمانی هست. قبلا هم کارهایی از این موسسه که منجر به دریافت جایزه Quant در همکاری با JP Morgan در فعالیت های عظیم بازار مالی شده بود در کانال پست شد.
دوستانی که علاقه به هسته مباحث ریاضی و لبه علم در این حوزه دارن مقاله زیر رو بخونن.
Link
Github

@deeptimeai
👍1
Deep Time
دوره Machine Learning Specialization آقای Andrew Ng با همکاری دانشگاه استنفرد و Deeplearning.AI در Coursera با محتوای جدید اخیرا آپدیت شده. این دوره برای شروع یاد گرفتن ماشین لرنینگ هم قطعا مناسبه و همچنین برای دوستانی که تجربه دارن مطالب جدید داره و میتونه…
این پست رو برای دوستانی که ازتون میپرسن (یا قبلا پرسیدن) ماشین لرنینگ (که بخشیش دیپ لرنینگ هست) و کد زنیش رو چطور استارت بزنیم بفرستید تا از یک منبع معتبر و با کیفیت شروع کنن. خوب البته کورس به زبان انگلیسی هست.
LSTM is Back!
لزوما مدل‌های جدید در هوش مصنوعی مدل‌های قوی تری نیستن و مدل‌های قدیمی رو منسوخ نمیکنن.

چند وقت پیش در یکی از گروه‌های یادگیری عمیق بحثی داشتیم که LSTM میتونه به صورت Bidirectional برای تصاویر از چپ به راست و بالا به پایین پردازش کنه و شاید نتایجش خوب بشه.
جدیدا مقاله‌ای اومده که دقیقا از BiLSTM به همین صورت برای Image Classification استفاده شده که نتایج از Vision Transformer ها که انقدر ترند شده بود بهتره.

مدل LSTM یا Long Short Term Memory یک شبکه یادگیری عمیق برای پردازش اطلاعات به صورت زمانی (توالی) هست.
Link

@deeptimeai
چشم انداز جدید پدرخوانده برای آینده هوش مصنوعی

چه مسیری هوش مصنوعی را به سطح هوش انسان نزدیک خواهد کرد و توانایی‌هایی مثل دلیل‌آوری شهودی و Common Sense را برای هوش مصنوعی فراهم می‌کند؟

مشکل اساسی هوش مصنوعی نداشتن یک مدل از دنیاست. این مشکل تحت عنوان Common Sense مطرح است. مدلی که کودک انسان و خیلی از حیوانات در دوران نوزادی یاد می‌گیرند و به آنها قدرت دلیل آوری برای وقایع را می‌دهد. مدلی از جهان که کودکان به واسطه آن تشخیص می‌دهند چه اتفاقی در این دنیای فیزیکی ممکن و چه اتفاقی ناممکن است. این توانایی در آخر به تشخیص و پیشبینی اتفاقات منجر می‌شود. توانایی که تا به حال هوش مصنوعی بدست نیاورده است.

اخیرا Yann LeCun، مدیر هوش مصنوعی Meta که به عنوان یکی از پدرخوانده‌های هوش مصنوعی شناخته می‌شود و بخاطر کارهاش در زمینه Deep Learning جایزه آلان تورینگ رو برنده شد، مسیر و چشم انداز جدیدی را برای آینده هوش مصنوعی ترسیم کرده و می‌گوید مواردی مثل شبیه‌سازی فرآیند‌های مغز انسان (که یکی از آنها پایه یادگیری عمیق بود) قبل از ظهور یادگیری عمیق مطرح بود اما بعد از شکوفایی یادگیری عمیق، این موارد فراموش شد. یان لکن معتقد است باید به آن ایده‌ها برگشت و بر خلاف روند‌های تحقیقاتی، آموزش مدل‌های سنگین NLP و یا حتی Reinforcement Learning راه حل و آینده هوش مصنوعی نیست.
مثال جالب یان لکن این است: کودک انسان (یا حیوان) در چند ماه اول نوزادی یاد می‌گیرد که اگر توپی به هوا پرتاب شود در آخر به زمین خواهد افتاد. یعنی درک از جاذبه را متوجه می‌شود‌. ولی کودک محل دقیق فرود آمدن توپ را نمی‌داند. در حالی که اگر این مسئله را به مدل‌های هوش مصنوعی کنونی بدهیم بیشتر به این جزئیات مثل محل فرود توپ توجه میکنند اما مدل فیزیکی جاذبه را نمی‌فهمند. یان لکن می‌گوید راه حل این است که یک Configurator در مدل‌های هوش مصنوعی وجود داشته باشد که کار آن تعیین سطح جزئیات مورد نیاز برا آموزش مدل اصلی باشد. چیزی که مغز انسان دارد. مهم نیست شبکه CNN بگوید توپ دقیقا کجا فرود می‌آید. مهم این است که مفهوم جاذبه را درک کند.
همچنین انسان متوجه می‌شود اگر یک شیء از صحنه خارج می‌شود ناپدید نشده. انسان مسیر حرکت را برای اشیا پیشبینی میکند. انسان تشخیص می‌دهد اگر صدایی از آشپزخانه بیاید احتمالا کسی یک قابلمه را انداخته چرا که این صدای قابلمه است. و در آخر انسان قادر است تکه های ناقصی از اطلاعات را به یکدیگر متصل کند و کلیات را متوجه شود.

این مدل از دنیا و بحث دلیل آوری شهودی موضوع اصلی مورد بحث در محافل هوش مصنوعی است. گرچه این مقاله مروری ديدگاه‌های بزرگان دیگری را نیز مطرح کرده که لزوما با دیدگاه یان لکن موافق نیستند. مقاله مروری (MIT Technology Reviews) بسیار جالب نوشته شده است و خواندن آن پیشنهاد می‌شود.

مقاله کامل Yann LeCun

@deeptimeai
Self-Supervised Contrastive Pre-Training For Time Series via Time-Frequency Consistency

کار جدید محققین هاروارد روی پیش آموزش سری زمانی با استفاده از ثبات در فضای زمان-فرکانس

@deeptimeai
This media is not supported in your browser
VIEW IN TELEGRAM
گاهی با اطلاعات کمتر یادگیری سریع‌تر و دقیق‌تر میشه!

با استفاده از Representation Learning اگر فقط 25 درصد از هر تصویر رو به هوش مصنوعی آموزش بدی:
1_ فرآیند آموزش 3 برابر سریع تر میشه
2_ عملکرد مدل بهبود پیدا میکنه

اخیرا Representation Learning در همه حوزه‌های ماشین لرنینگ بیشتر مورد توجه قرار گرفته. در کار جدیدی که محققین انجام دادن از Transformer برای بخشAuto-Encoder استفاده کردن. یعنی چی؟ یعنی بجای اینکه کل تصویر رو به عنوان ورودی به مدل بدیم برای آموزش، صرفا 25 درصد تصویر رو میدیم (باقی به صورت Masked). ورودی Auto-Encoder تصویر ناقص هست و باید بتونه تصویر اصلی رو در نهایت تولید کنه. و بعد در مسئله Classification لایه آخر Decoder برای Fine-Tuning برداشته میشه و لایه سافتمکس میذاریم. عملکرد در ImageNet از مدل‌هایی که در ورودی از ابتدا تصویر اصلی رو دیدن بالاتر شده. و البته مهم ترین مسئله اینکه آموزش 3 برابر سریع تر.
سوال: در سری زمانی و فایننس چه مطالبی درباره Representation Learning نوشتیم تو کانال؟

@deeptimeai
Practical Deep Learning for Coders v5

با اینکه دوره‌های زیادی در زمینه یادگیری ماشین گذروندم، نحوه تدریس هیچکدوم مثل Jeremy Howard بهم نچسپید. و خوب ایشون یکی از شناخته شده ترین دیتاساینتیست هاست که به کمپانی‌ها خیلی کمک کرده و از قهرمانان قدیم Kaggle هست و البته خالق اصلی کتابخانه محبوب FastAI که واقعا جالب کار کرده. یکی از اصلی ترین دلایل علاقم به کلاس‌هاش مثال‌های واقعی و راه حل‌هایی هست که میاره.

حالا دوره ایشون آپدیت شده و در 9 قسمت 90 دقیقه ‌ای به صورت رایگان هست بر اساس کتاب رایگان و محبوبش. دوره روی کاوش تعاملی تمرکز داره و مواردی مثل:
PyTorch,
Hugging Face,
DeBERTa,
ConvNeXt,
Gradio , ...
کاور شدن. با اینکه عنوان دوره یادگیری عمیق عملی هست جلسه ششم به Random Forest اختصاص داره که درستشم همینه.
احتمالا شهریور امسال در دانشگاه شریف یادگیری ماشین با پایتون تدریس کنم و الآن با وجود وقتی که ندارم شوق پیدا کردم دوره آپدیت شده رو کامل با سرعت بالا ببینم که اگر مطلب جالبی داشت (که قطعا داره) یادداشت کنم برای کلاس. پیشنهاد میکنم کمی ببینید از ویدئوها.

@deeptimeai
Deep Time
دوره Machine Learning Specialization آقای Andrew Ng با همکاری دانشگاه استنفرد و Deeplearning.AI در Coursera با محتوای جدید اخیرا آپدیت شده. این دوره برای شروع یاد گرفتن ماشین لرنینگ هم قطعا مناسبه و همچنین برای دوستانی که تجربه دارن مطالب جدید داره و میتونه…
دوره سوم هم به Specialization اضافه شد. در دوره سوم مباحث زیر تدریس میشن:
Unsupervised Learning
Recommender Systems
Reinforcement Learning

نکته مهم این هست که شما این امکان رو دارید که این کورس‌های coursera رو جداگانه هم ثبت نام کنید یعنی نیاز نیست تمام ۳ دوره Specialization رو بگذرونید. به خصوص برای شروع Reinforcement Learning قطعا گزینه خوبی هست که این کورس سوم رو به همون شکلی که در پست قبل گفته شد درخواست بدید برای ثبت نام و به صورت رایگان بگذرونید.
توضیحی درباره یادگیری تقویتی و یک منبع

یک توضیح در مورد یادگیری تقویتی یا Reinforcement Learning بدم. کلا یادگیری ماشین به سه دسته الگوریتم کلی تقسیم میشه:
Supervised Learning
Unsupervised Learning
Reinforcement Learning (RL)
که یادگیری تقویتی اصولا مسئله خیلی سخت‌تری رو نسبت به دو الگوریتم قبلی حل میکنه. یادگیری تقویتی در واقع سعی میکنه "تصمیم گیری در یک توالی" یا Sequential Decision Making رو بهینه انجام بده. این با انجام یک پیشبینی در دسته بندی خیلی متفاوت هست و درجه سختی بالاتری داره. چرا؟ چون نه تنها باید یک پیشبینی از آینده و محیط وجود داشته باشه بلکه هر تصمیم عواقبی داره که پیچیدگی حل مسئله رو زیاد میکنه. البته Self-Supervised Learning هم درجه سختی بالایی داره (به نوعی ترکیب دو دسته الگوریتم اول) که آقای یان لکن روش کار میکنه.
اصولا هرجا دیدید میگن RL در صنعت جواب نمیده و ... سعی کنید انقدر راحت قبول نکنید چون اصولا RL در حال حل مسائلی به شدت سخت تر و نزدیک تر به هوش انسان هست. اینکه کاربردها در صنعت کم هست (که واقعا نیست! منبع پایین رو بخونید) نباید مارو از این الگوریتم جالب دور کنه.

اگر دوست دارید به صورت خیلی واضح با کاربردهای RL و الگوریتم‌های جدید Decision Making در مسائل واقعی و آکادمیک آشنا بشید، پیشنهاد میکنم پروفسور Warren Powell استاد پرینستون رو دنبال کنید. کتاب ایشون به صورت بنیادی بحث تصمیم گیری در توالی و عدم قطعیت رو بررسی میکنه و الگوریتم‌های RL رو معرفی و دسته بندی میکنه.
Reinforcement Learning and Stochastic Optimization: A Unified Framework for Sequential Decisions

این کتاب فراتر از RL هست و مباحث بهینه‌سازی و تصمیم گیری خیلی جامع و به صورت کاربردی بحث میشن.
در این ویدئو آقای Powell رو ببینید.

در مورد کاربرد RL در بازار مالی و سری زمانی در پست بعد توضیح میدم.

@deeptimeai
چطور برنده مسابقه M5، معروف ترین مسابقه پیشبینی سری زمانی شوید؟

1. Train Some Ensemble Models like LightGBM
2. Use Ensemble of Ensembles

البته به این سادگی نیست! همینطور که در مقاله گفته شده، بسیاری از برنده‌ها حتی نگفتن راه حلشون چی بوده چه برسه به اشتراک گذاری جزئیات و کد.
نفر اول:
مشخص شده که نفر اول صرفا از یکسری مدل LightGBM استفاده کرده. مجموعا 220 مدل و برای تیونینگ هم از میانگین و انحراف معیار مدل‌های تکی و ترکیبی استفاده شده.
هدف مدل‌ها (loss function):
negative log-likelihood of the Tweedie distribution
نفر دوم:
علاوه بر LightGBM از مدل دیپ لرنینگ سری زمانی N-BEATS، که 2019 معرفی شده بود، هم استفاده کرده و ترکیب کرده. از قبل میدونیم مدل N-BEATS تونسته بود 3 درصد نسبت به نفر اول مسابقه قبلی (M4) بهتر نتیجه بده.

نفر سوم:
از 42 تا مدل که برمبنای LSTM بوده لایه هاشون استفاده شده و مجددا از Tweedie regression استفاده شده. ۲۴ تا ازین مدل‌ها از dropout استفاده کردن بقیه بدون dropout.

به صورت کلی از تمامی مدل‌های شرکت کننده‌ها نتیجه گرفته شده که موارد زیر خیلی دقت پیشبینی رو بالا بردن:
• Combining (Ensembling)
• Cross-learning: Using different time-series as inputs
• Cross-validation

پیشنهاد میکنم مقاله رو ببینید موارد جالبی برای یادگیری. برای آشنایی با تکنیک‌های Ensebling هم من در این ویدئو توضیحاتی دادم که از این قسمت تا 15 دقیقه بعدش هست.

چند نکته:
1- مسابقات صرفا یکسری اطلاعات به ما میدن ولی نمیشه نتیجه کلی گرفت که همیشه فلان مدل رو باید استفاده کرد در این حوزه. در اون صورت خلاقیت ایجاد مدل‌های جدید هم از بین میره. ولی موارد کلی مثل استفاده از ترکیبی از مدل‌ها همیشه خوب بوده. یک علت که نمیشه نتیجه کلی گرفت این هست که "سری زمانی داده جدولی" برخلاف NLP و Computer Vision ذاتا دیتاست Benchmark نداره که همه دانشمند‌ها و گروه‌های تحقیقاتی بیان روی یک دیتاست واحد مدل بزنن.
2- موضوع مسابقه، پیشبینی سری زمانی خرده فروشی Walmart بوده پس نمیشه خیلی با فایننس مقایسه کرد.
3- نفر برنده یک دانشجوی سال دوم کارشناسی از کره جنوبی بوده.
4- به نظرم باید به ریزه کاری‌های تکنیکی خاص که برنده‌ها استفاده کردن خیلی دقت کرد. مثل استفاده از توزیع Tweedie یا اینکه یکسری مدل dropout دارن و یکسری ندارن و ... . این موارد خیلی تمایز ایجاد میکنن.

@deeptimeai
1
دو طیف اساسی از روش پیشبینی بازارهای مالی بر مبنای یادگیری ماشین

۱_ پیشبینی کل بازار به صورت پیوسته

در این روش تمامی دارایی‌های بازار مد نظر به صورت پیوسته پیشبینی می‌شوند. بنابراین دقت تک به تک پیشبینی‌ها لزوما خوب نیست اما در مجموع سودآور است. تمرکز روی تعداد زیاد پیشبینی است و نه دقت پیشبینی. علت چیست؟ نیاز به مدیریت مقادیر زیاد پول و نتیجتا نیاز به تعداد زیاد معامله در کل بازار. بنابراین مشخاص این روش مورد استفاده شرکت‌های بزرگ سرمایه‌گذاری و هج فاند هاست.

افق معاملات: معمولا بلند مدت
ریسک: نسبتا پایین
کاربرد: شرکت‌های بزرگ سرمایه‌گذاری
میزان سود: نسبتا کم
دقت پیشبینی: نسبتا کم
مثال: شرکت فوق العاده، Numer.ai که یک Open Hedge Fund با مدیریت دیتاساینتیست هاست. افق پیشبینی ماهانه دارد و همیشه بیش از ۲۰۰ سهم معامله میکند و در مجموع پول زیادی مدیریت می‌کند.

۲_ اعمال مدل پیشبینی تنها روی مناطق پیشبینی پذیر

یکی از معدود حوزه‌هایی که می‌توان گاهی از زیر پیشبینی در رفت همین فایننس است. در پزشکی نمیشود داده یک مریض را پیشبینی نکرد و در یک کارخانه نمیشود امکان خرابی یک کمپرسور را از مدل خارج کرد. اما در بازار سهام این امکان وجود دارد که ما خیلی از سهام را در خیلی از زمان‌ها پیشبینی نکنیم.
روش: ابتدا یک مدل مناطق پیشبینی‌پذیرتر را فیلتر میکند. (مثلا سهامی که نوعی ورود پول خاص در مدتی کوتاه داشته اند). و در مرحله بعدی مدل یادگیری ماشین پیشبینی می‌کند.

افق معاملات: معمولا کوتاه مدت یا HFT
ریسک: نسبتا بالا (تعداد کم معاملات خود به خود ریسک را بالا می‌برد و روش نسبت به تغییر دینامیک و قوهای سیاه آسیب‌پذیر تر می‌شود)
کاربرد: مدیریت پول نسبتا کوچک برای شرکت‌های کوچک یا افراد
میزان سود: نسبتا بالا
دقت پیشبینی: نسبتا بالا
مثال: استارتاپ ما

خلاصه:
مجموعا روش اول برای سود کم در میزان پول بسیار زیاد و روش دوم برای سود زیاد در پول نسبتا کوچک.

@deeptimeai
Motif and Discord (Anomaly) Detection in Time Series
بخش اول: Matrix Profile

Introduction to Matrix Profiles
Github

شناسایی الگوهای تکرار شونده و اتفاقات عجیب در یک سری زمانی اهمیت بسیاری در حوزه‌های مختلف دارد. در حوزه فایننس این اهمیت بیشتر است.
اما بهترین الگوریتم برای شناسایی الگوها و آنومالی ها در سری زمانی چه ویژگی‌هایی باید داشته باشد؟
اولا الگوریتم باید قادر باشد Similarity را با روشی هوشمندانه و مقاوم تشخیص دهد. بنابراین استفاده از correlation ساده قادر به کشف الگو و آنومالی نیست. پس باید از الگوریتم مناسب و همچنین معیار تشابه درست مانند DTW استفاده شود.
ثانیا الگوریتم باید شدیدا از نظر محاسباتی بهینه باشد چرا که هزینه محاسباتی شناسایی الگو بسیار بالاست.
تمامی این موارد در الگوریتم Matrix Profile وجود دارد که توسط تیم پروفسور Eamonn Keogh (بعدا در مورد ایشون و کارهاش بیشتر صحبت میکنیم) از دانشگاه ریورساید کالیفرنیا سالهاست توسعه داده شده است. برای درک این الگوریتم جالب ابتدا مقاله اول (سال 2016) این الگوریتم رو ببینید.
ضمنا این دانشگاه یکی از معروف ترین بانک‌های اطلاعاتی سری زمانی را ارائه میکند که در بسیاری مقالات به عنوان بنچمارک استفاده میشود.

@deeptimeai
1
Deep Time
Motif and Discord (Anomaly) Detection in Time Series بخش اول: Matrix Profile Introduction to Matrix Profiles Github شناسایی الگوهای تکرار شونده و اتفاقات عجیب در یک سری زمانی اهمیت بسیاری در حوزه‌های مختلف دارد. در حوزه فایننس این اهمیت بیشتر است. اما بهترین…
نکته: مقاله اول Matrix Profile I رو معرفی میکنه و برای سال 2016 هست. در سال 2022 الگوریتم Matrix Profile XXIV معرفی شده یعنی ۲۳ الگوریتم بهینه تر در این ۸ سال ارائه شده. از این لینک مقالات و مراجع رو ببینید.

@deeptimeai
چرا به عنوان یک دیتاساینتیست یا محقق باید این ویدئو رو ببینید؟

Motif and Discord (Anomaly) Detection in Time Series
بخش دوم.

جواب سوال بالا حوزه تخصصی این ویدئو (آنومالی دیتکشن در سری زمانی) نیست!
شما در این ویدئو یک نمونه از تفکر انتقادی و قدرت ارزیابی مسائل و مقالات رو میبینید. داشتن این قدرت تحلیل به نظرم دقیقا نقطه تمایز افراد برجسته با افراد دیگه هست. نمونه این نوع بررسی رو قبلا در کانال گذاشته بودم که نیکولاس طالب درباره نقاط ضعف معیارهای همبستگی (pearson spearman) دقیق بررسی میکنه.

در این ویدئو آقای Eamonn Keogh استاد دانشگاه UCR توضیح میده که چرا 95 درصد مقالات آنومالی دیتکشن در سری زمانی معتبر نیستن. برای مثال این مقالات در مواردی دقت بیشتری گزارش کردن و روششون هم اشتباه نیست اما به دلیل mislabeling در واقع دقتشون بدتر از روشهای دیگه هست چون یکسری آنومالی ها در label گذاری لحاظ نشده بوده.
به همین دلیل دقت به چیزی مثل ذات دیتاست بنچمارک خیلی اهمیت داره. در پروژه‌های واقعی به نظرم مهم‌ترین انتخاب و طراحی، طراحی یک معیار ارزیابی (Evaluation Metric) مناسب هست که خیلی اوقات از پیش تعریف شده نیست یا باید تعریف مسئله رو عوض کرد.

@deeptimeai
👍1
Superforecasting: The Art and Science of Prediction
کتاب "هنر و علم پیشبینی" اثر فیلیپ تتلاک معروف و دن گاردنر


خلاصه صوتی کتاب: گوگل پادکست بی‌پلاس

چی باعث میشه که برای مثال یک برنامه‌نویس بازنشسته با اختلاف بسیار زیادی در طی سالها، بهتر از سرویس‌های اطلاعاتی آمریکا (با دسترسی به اطلاعات طبقه بندی شده) وقایع رو پیشبینی کنه؟ وقایعی مثل وقوع جنگ یا خروج یک کشور از یک اتحادیه و ...

فیلیپ تتلاک یکی از افراد سرشناس در حوزه پیشبینی وقایع سیاسی هست. گرچه در این کتاب درمورد علم داده یا ماشین لرنینگ صحبت نمیشه، اما مواردی مطرح میشه که علت موفقیت و مقاوم بودنِ یکسری پیشبینی (پیشبینی کننده) و شکست بقیه هست. به طور خلاصه مهم ترین عوامل در پیشبینی‌های موفق طبق این کتاب:

۱_ کمی سازی همه اطلاعات و دید احتمالی به مسئله. ما قطعا با این مورد موافقیم و نیاز به توضیح خاصی نیست. در دیتاساینس ما خود به خود همه چیز رو به داده تبدیل می‌کنیم.

۲_ تا جای ممکن دیدن ابعاد مختلف مسئله. در واقع دیده بودن که افرادی که عالی پیشبینی میکنن به شدت نسبت به هر تک گزاره شک دارن و سعی میکنن همه موارد (بعضا متناقض) رو در مدلشون وارد کنن. اما همیشه دولت به افرادی تکیه می‌کرده که با اعتماد به نفس یک پیشبینی رو با یکسری دلیل واضح انجام بدن.
مصداقش در دیتاساینس یعنی همه نوع فیچری باید جمع آوری کرد.
مثال: فلان سهم طبق داده‌های ما و همچنین ارزش ذاتیش باید سقوط کنه و ... اما به شدت طی چند روز رشد میکنه.
علت احتمالی: اثر شبکه‌های اجتماعی لحاظ نشده و اون سهم خاص شاید در توییتر شدیدا تبلیغ شده بوده. پس باید تا جای ممکن اطلاعات از منابع مختلف جمع آوری بشن.

۳_ نبود نظر اولیه در مورد پیشبینی (بایاس نبودن). افرادی که superforecaster بودن به اصطلاح کتاب، هیچ نظر اولیه‌ای نداشتن درباره وقایع. حتی این مسئله که یک نفر در پس ذهنش فکر میکرده جهان داره به جای بدتری تبدیل میشه باعث میشده اون فرد پیشبینی خوبی انجام نده در یک مسئله ژئوپولتیک.
مثال در حوزه فایننس: خود انتخاب بازار یک مثال هست. شرکت‌ها و افرادی بودن که در زمان رشد کریپتو چهار تا فوش میدادن به بورس ایران و برعکسش اوایل تابستون ۹۹ میلیاردی بورس ایران سرمایه‌گذاری میشد و بعدش سقوط کرد. این‌ها در واقع پیشبینی اولیه پس ذهن اون شرکت‌ها بود که باعث میشد فکر کنن فلان بازار رونق خواهد داشت‌ و این باعث میشد بعضا ریسک‌های جبران نشدنی انجام بدن.

۴_ آپدیت کردن مداوم پیشبینی‌ها.

مثال‌ها و ارتباطات با دیتاساینس در این پست، در کتاب مطرح نشده.

@deeptimeai
Forwarded from Golem Course
مسیر یادگیری شاخه‌های مهندسی نرم‌افزار

یکی از سوالاتی که افراد زیاد از من می‌پرسند این است که برای یادگیری فرانت‌اند، بک‌اند، دوآپس و ... چه چیزهایی باید یاد بگیریم؟ چه مسیری را باید طی کنیم؟ از کجاها شروع کنیم؟ قدم‌های این مسیر چیست؟

از نظر من سایت رودمپ یکی از بهترین‌ها در این زمینه است. برای هر بخش، یک مسیر مشخص بدور از حواشی بیخود و در عین حال کامل، قدم به قدم مباحث مورد نیاز را مشخص کرده است و تقریباً با اکثر پیشنهادهایی که کرده موافق هستم. پیشنهاد می‌کنم حتماً یک نگاهی به این سایت بیاندازید.
طی این سال‌ها از گفته‌های بزرگان دیتاساینس و هوش مصنوعی فهمیدم که skeptical بودن برای یک دیتاساینتیست بسیار ضروریست. این خاصیتیست که افراد برجسته‌‌ای مثل فرانس شولت، جرمی هاوارد و نسیم نیکولاس طالب روی آن تاکید دارند. و البته هر فردی در زمینه دیتاساینس (و خصوصا مسائل درگیر با ریسک مثل فایننس) کار کند، به طور طبیعی اهمیت این موضوع را متوجه می‌شود.

مهم‌ترین قدم در حل یک مسئله دیتاساینس این هست که وقتی نتایج خوبی داریم با وسواس به دنبال یک اشکال در کد باشیم. این حتی در نوشتن هر قطعه کد یا تابع باید مورد نظر باشد.
علت: مغز ما به طور ذاتی به دنبال تأیید نظر و عملکرد ماست (همان بحث confirmation bias) و این باعث می‌شود مشکلاتی مثل Target Leakage که در مواردی به راحتی قابل تشخصی نیست، نتایج را به اشتباه خوب نشان دهد. و نتیجه این هست که تیم‌ها یا افراد کم تجربه در زمان live test یا production دچار مشکل می‌شوند.

راه حل:
همیشه به دنبال نقض روشِ حلِ مسئله خودمان باشیم. با این کار، روش و کد نهایی درجه اطمینان بالایی خواهد داشت.

@deeptimeai