من و مرتضی گاهی مسابقههای فایننس و ماشین لرن رو شرکت میکنیم اما وقت زیادی نمیذاریم. اینبار هم با ایمیل آخرین فراخوان که ۳ روز به پایان مسابقه بود (مسابقه بالای یک ماه بود) شرکت کردیم.
با ۳ تکنیک کلی و فقط ۲ روز کار با فاصله خیلی کمی از ۳ نفر اول (که مجموعا ۱۰۰۰۰ دلار بهشون میرسید) هشتم شدیم. احتمال میدیم که اگر ۲ سابمیشن دیگه فرصت داشتیم قطعا تو ۳ نفر بودیم (هر روز میشد ۵ سابمیشن ثبت کرد). گفتم بد نیست ۳ تکنیکی که استفاده کردیم رو اینجا بذارم:
۱_ مهندسی فیچر. مثلا: حذف فیچرهای واریانس پایین از بین جفت فیچر های شدیدا همبسته (چیزی که خصوصا مدلهای بر مبنای درخت تصمیم رو به اشتباه میندازه)
۲_ انجام اکسپریمنتهای سازماندهی شده و تعیین رنج پارامترهای بهینه
۳_ ترکیب مدلهای بهینه از مرحله ۲ برای پیشبینی نهایی
@deeptimeai
با ۳ تکنیک کلی و فقط ۲ روز کار با فاصله خیلی کمی از ۳ نفر اول (که مجموعا ۱۰۰۰۰ دلار بهشون میرسید) هشتم شدیم. احتمال میدیم که اگر ۲ سابمیشن دیگه فرصت داشتیم قطعا تو ۳ نفر بودیم (هر روز میشد ۵ سابمیشن ثبت کرد). گفتم بد نیست ۳ تکنیکی که استفاده کردیم رو اینجا بذارم:
۱_ مهندسی فیچر. مثلا: حذف فیچرهای واریانس پایین از بین جفت فیچر های شدیدا همبسته (چیزی که خصوصا مدلهای بر مبنای درخت تصمیم رو به اشتباه میندازه)
۲_ انجام اکسپریمنتهای سازماندهی شده و تعیین رنج پارامترهای بهینه
۳_ ترکیب مدلهای بهینه از مرحله ۲ برای پیشبینی نهایی
@deeptimeai
👍31❤12🤩1
پکیج aeon برای time series رو کنار دستتون داشته باشید. مدلهای متعددی رو پوشش میده و دسته بندی موضوعی خوبی داره. مواردی مثل shapelet یا DTW هم که قبلا در کانال صحبت کردیم داره.
link
@deeptimeai
link
@deeptimeai
👍13❤6
نکتاتی از تجربیات ما در موضوع پیشبینی حرکات قیمتی با ماشین لرنینگ در فارکس
۰_ دیتا با کیفیت و زیاد نیاز هست.
۱_ فریم کردن مسئله به شکل دیتاست برای آموزش ماشین لرنینگ کار سادهای نیست. ریپریزنتیشن دیتاست مهمه. تعریف و مهندسی فیچر اهمیت اساسی داره. و اصولا به یک سیستم دقیق نیاز هست که معمولا یک تیم میتونه توسعه بده.
نکته مهم: این تیم علاوه بر دانش دیتاساینس باید حتما در ترید، کوئانت و مفاهیم بازار تجربه داشته باشه. دقیقا همین قضایا باعث میشه که دیتاساینتیستها در الگوتریدینگ با ماشین لرن موفق نباشن. domain expertise در این حوزه، بر خلاف متن و تصویر خیلی تعیین کنندس. حتی داده جدولی ریتیل یا مسائلی با معادلات حاکم (فیزیک) مشخص خیلی دنیاشون با فایننشیال مارکت فرق داره
۲_ تعریف مسئله مهمه. مثلا باید ریسک به ریوارد طوری تنظیم بشه که ماشین لرنینگ بتونه یاد بگیره.
۳_ ریسک به ریوارد برای آموزش ماشین لرنینگ و label زدن، لزوما بهترین ریسک به ریوارد برای اعمال معاملات نیست!
۴_ مدلسازی باید با سختگیری در تعریف معیار انجام بشه. برای مثال میتونید تا ۲۰ فولد برای cross validation داشته باشید و ترجیحا با گپ بین ترید و تست
۵_ بکتست باید روی بازه طولانی (حداقل ۲ سال) انجام بشه و مقاطع ضررده و drawdown کوچیک باشن
۶_ طبق تحربه ما: لزوما به پرسیژن و winning rate بالا نیاز ندارید و روی سود متمرکز باشید. شما میتونید مدلی داشته باشید که فقط ۳۰ درصد اوقات درست میگه یعنی از ۱۰۰ سیگنال ۷۰ تا غلط اما همون ۳۰ تا کارو میسازه
@deeptimeai
۰_ دیتا با کیفیت و زیاد نیاز هست.
۱_ فریم کردن مسئله به شکل دیتاست برای آموزش ماشین لرنینگ کار سادهای نیست. ریپریزنتیشن دیتاست مهمه. تعریف و مهندسی فیچر اهمیت اساسی داره. و اصولا به یک سیستم دقیق نیاز هست که معمولا یک تیم میتونه توسعه بده.
نکته مهم: این تیم علاوه بر دانش دیتاساینس باید حتما در ترید، کوئانت و مفاهیم بازار تجربه داشته باشه. دقیقا همین قضایا باعث میشه که دیتاساینتیستها در الگوتریدینگ با ماشین لرن موفق نباشن. domain expertise در این حوزه، بر خلاف متن و تصویر خیلی تعیین کنندس. حتی داده جدولی ریتیل یا مسائلی با معادلات حاکم (فیزیک) مشخص خیلی دنیاشون با فایننشیال مارکت فرق داره
۲_ تعریف مسئله مهمه. مثلا باید ریسک به ریوارد طوری تنظیم بشه که ماشین لرنینگ بتونه یاد بگیره.
۳_ ریسک به ریوارد برای آموزش ماشین لرنینگ و label زدن، لزوما بهترین ریسک به ریوارد برای اعمال معاملات نیست!
۴_ مدلسازی باید با سختگیری در تعریف معیار انجام بشه. برای مثال میتونید تا ۲۰ فولد برای cross validation داشته باشید و ترجیحا با گپ بین ترید و تست
۵_ بکتست باید روی بازه طولانی (حداقل ۲ سال) انجام بشه و مقاطع ضررده و drawdown کوچیک باشن
۶_ طبق تحربه ما: لزوما به پرسیژن و winning rate بالا نیاز ندارید و روی سود متمرکز باشید. شما میتونید مدلی داشته باشید که فقط ۳۰ درصد اوقات درست میگه یعنی از ۱۰۰ سیگنال ۷۰ تا غلط اما همون ۳۰ تا کارو میسازه
@deeptimeai
👍32❤7
این چند روز این ویدئو درباره Option Trading و Dynamic Hedge و معادله مهمش ترند شده. البته پیشنهاد میکنم حتما ویدئو رو ببینید به چند دلیل:
- داستان و عقبه علمی معادله مهم Black-Scholes/ Merton گفته شده. معادله بسیار مهمی که البته دیگه استفاده چندانی نداره و ورژن های جدید ترش برای قیمت گذاری/ پیشبینی در بازار Option استفاده میشه.
- میبینیم که چطور ایدهها و مدلهای ارزشمند در فایننس سالها به شکل عجیبی برای افرادی سودآوری میکنن و بعد با ایدهها و مدلهای جدید جایگزین میشن
- و آقای Andrew Lo استاد فایننس MIT که قبلا هم در کانال ازشون صحبت شده بود در ویدئو صحبت میکنن و موارد مهمی میگن
پ.ن: حتی اگر به این مفاهیم یا ریاضیاتش مسلط نیستین این موارد رو دنبال کنید. اگر علاقه باشه، پازل دانش شما بعدا تکمیل میشه. حداقل مزیتش redundacy: یکی از موارد ساده و مهم برای پیشرفت و یادگیری در یک حوزه بحث redundancy هست. یعنی تاریخ، اسامی افراد و داستان پشت ایدههای مهم رو بدونید. در ویدئو درباره افراد زیر صحبت میشه:
Edward O. Thorp
Louis Bachelier
Albert Einstein
Robert Brown
Fischer Black
Myron S. Scholes
Robert K. Merton
Jim Simons
@deeptimeai
- داستان و عقبه علمی معادله مهم Black-Scholes/ Merton گفته شده. معادله بسیار مهمی که البته دیگه استفاده چندانی نداره و ورژن های جدید ترش برای قیمت گذاری/ پیشبینی در بازار Option استفاده میشه.
- میبینیم که چطور ایدهها و مدلهای ارزشمند در فایننس سالها به شکل عجیبی برای افرادی سودآوری میکنن و بعد با ایدهها و مدلهای جدید جایگزین میشن
- و آقای Andrew Lo استاد فایننس MIT که قبلا هم در کانال ازشون صحبت شده بود در ویدئو صحبت میکنن و موارد مهمی میگن
پ.ن: حتی اگر به این مفاهیم یا ریاضیاتش مسلط نیستین این موارد رو دنبال کنید. اگر علاقه باشه، پازل دانش شما بعدا تکمیل میشه. حداقل مزیتش redundacy: یکی از موارد ساده و مهم برای پیشرفت و یادگیری در یک حوزه بحث redundancy هست. یعنی تاریخ، اسامی افراد و داستان پشت ایدههای مهم رو بدونید. در ویدئو درباره افراد زیر صحبت میشه:
Edward O. Thorp
Louis Bachelier
Albert Einstein
Robert Brown
Fischer Black
Myron S. Scholes
Robert K. Merton
Jim Simons
@deeptimeai
❤88👍62🔥21🤩13
Forwarded from Golem Course
با هیجان فراوان اعلام میکنم که دوره آموزشی یادگیری عمیق (deep learning) را در یوتیوب شروع کردهام. تاکنون چهار ویدیو ضبط و منتشر کردهام که همگی از امروز برای عموم قابل دسترسی است (لینک).
با جدیت و اصرار زیادی قصد دارم تا در اسرع وقت تعداد بیشتری ویدیو در این زمینه ضبط و منتشر کنم.
پیشبینی میکنم که این دوره در نهایت بیشترین تعداد ویدیو در کانالم خواهد داشت (بیش از ۱۰۰ ویدیو). در نظر دارم که زمان قابل توجهی را صرف کیفیت و تعداد ویدیوها کنم تا یک کار ماندگار ایجاد شود.
همچنین قصد دارم موضوعات جدید و مهم در این حوزه مانند Diffusion Models و LLM ها را نیز آموزش دهم.
این دوره هم جنبههای نظری و هم عملی دارد و من از منابع زیر استفاده کردهام:
1. Understanding Deep Learning
2. Mathematics for Machine Learning
3. Understanding Machine Learning: From Theory to Algorithms
4. Dive into Deep Learning
5. Probabilistic Machine Learning: An Introduction
@golemcourse
با جدیت و اصرار زیادی قصد دارم تا در اسرع وقت تعداد بیشتری ویدیو در این زمینه ضبط و منتشر کنم.
پیشبینی میکنم که این دوره در نهایت بیشترین تعداد ویدیو در کانالم خواهد داشت (بیش از ۱۰۰ ویدیو). در نظر دارم که زمان قابل توجهی را صرف کیفیت و تعداد ویدیوها کنم تا یک کار ماندگار ایجاد شود.
همچنین قصد دارم موضوعات جدید و مهم در این حوزه مانند Diffusion Models و LLM ها را نیز آموزش دهم.
این دوره هم جنبههای نظری و هم عملی دارد و من از منابع زیر استفاده کردهام:
1. Understanding Deep Learning
2. Mathematics for Machine Learning
3. Understanding Machine Learning: From Theory to Algorithms
4. Dive into Deep Learning
5. Probabilistic Machine Learning: An Introduction
@golemcourse
❤41👍9🤩3
مدل ۳۱۴ میلیاردی شرکت X به نام Grok-1 اوپن سورس شد.
Github
Blog
مدل عملکرد بسیار خوبی داشته و البته همچنان در حال رشد هست.
اما نکته جالبش به نظرم Stack تکنولوژی هست که استفاده میکنن:
Rust
JAX
Kubernetes
برای یادگیری JAX، اگر با Pytorch کار کردید، بهترین راه اینجاست.
@deeptimeai
Github
Blog
مدل عملکرد بسیار خوبی داشته و البته همچنان در حال رشد هست.
اما نکته جالبش به نظرم Stack تکنولوژی هست که استفاده میکنن:
Rust
JAX
Kubernetes
برای یادگیری JAX، اگر با Pytorch کار کردید، بهترین راه اینجاست.
@deeptimeai
👍10❤2🔥2✍1
تحقیق اخیر MIT نشون داده که ما بدون "زبان" هم قادر به تفکر هستیم و زبان صرفا راهی برای بیان افکار هست و نه منشاء افکار در مغز. در واقع تحقیق نشون میده مناطقی از مغز که مربوط به دلیل آوری، یادآوری، برنامه ریزی، یکدلی و ساخت تصویر از خود هست (اصولا هر چیزی مربوط به هوش)، ربطی به زبان نداره.
نکته اساسی اینجاست که هوش مصنوعی کنونی عموما بر پایه زبان ساخته شده و فرضش بر این بوده که زبان خواستگاه مهمی از هوش هست. البته وجود داده از زبان هم مزید بر علت بوده. مدلهای میلیارد دلاری LLM مثل chatgpt و سخت افزارهایی مخصوص پردازش زبان (LPU) در حال توسعه هست و سرمایه گذاریهای عظیمشون ادامه دارن. احتمالا زبان به دلیل ساختارش و همچنین دادههای زیادش در اینترنت، کتابها و ... سریعترین راه برای بیان دانش و پیشرفت هوش مصنوعی بوده. ولی احتمالا راه دقیقی نیست و مشکلات زیادی داره (بحث قبلی رو ببینید) همچنان تحقیقات برای ساخت هوش مصنوعی که شبیه به نوزاد انسان به درکی از world model برسه ادامه دارن.
@deeptimeai
نکته اساسی اینجاست که هوش مصنوعی کنونی عموما بر پایه زبان ساخته شده و فرضش بر این بوده که زبان خواستگاه مهمی از هوش هست. البته وجود داده از زبان هم مزید بر علت بوده. مدلهای میلیارد دلاری LLM مثل chatgpt و سخت افزارهایی مخصوص پردازش زبان (LPU) در حال توسعه هست و سرمایه گذاریهای عظیمشون ادامه دارن. احتمالا زبان به دلیل ساختارش و همچنین دادههای زیادش در اینترنت، کتابها و ... سریعترین راه برای بیان دانش و پیشرفت هوش مصنوعی بوده. ولی احتمالا راه دقیقی نیست و مشکلات زیادی داره (بحث قبلی رو ببینید) همچنان تحقیقات برای ساخت هوش مصنوعی که شبیه به نوزاد انسان به درکی از world model برسه ادامه دارن.
@deeptimeai
👍16❤4🔥4
دیشب مهم ترین رویداد تکنولوژی و هوش مصنوعی سال یعنی Nvidia GTC شروع شد. در keynote شما صرفا سخنرانی مدیرعامل Nvidia آقای Jensen Huang رو نمیبینید بلکه یک فیلم فوق العاده جذاب از پیشرفتهای هوش مصنوعی در شرکتها و صنایع مختلف، از اقلیم و انرژی تا digital twin و LLM میبینید. و اصولا دید بسیار خوبی درباره روندها و سرمایهگذاریها هم میده.
اگر دیشب لایو ندیدین پیشنهاد میکنم ببینید. میشه برنامه اصلی نوروز:
YouTube
موارد زیادی بود ولی اگر بخوام چند نکته بگم:
- معرفی پلتفرم و ابَر GPU به نام Blackwell به یاد David Blackwell ریاضی دان. در مقایسه با GPU قبلی یعنی Hopper مزایای بسیاری وجود داره. در نظر بگیرید که برای آموزش یک GPT با 1.8 میلیارد پارامتر در 90 روز، Hopper به 8000 GPU نیاز داره و 15MW مصرف میکنه در حالی که Blackwell فقط با 2000 GPU و 4MW مصرف برق کارو درمیاره. برای اینکه عدد دستمون بیاد، مصرف برق ایران (از جنس توان) حدودا 60000MW هست. کلا قدرت اصلی در دنیای امروز قدرت پردازش به صورت energy efficient هست.
- نکته اصلی در پیشرفت قدرت پردازش GPU، روی نحوه صحبت هزاران GPU باهم هست. اینجاست که NV Link Switch وارد میشه که هسته اصلی برای سینک اطلاعات به صورت بهینه بین هزاران GPU در Blackwell هست.
- در کنفرانس پارسال که کاملا مجازی بود Omniverse خیلی تاکید میشد و امسال روی Digital Twin و شبیهسازی کامل هر چیز به صورت دیجیتالی صحبت شد و به عنوان نمونه Nvidia نشون داد که چطور یک کارخونه ساخت chip رو اول کاملا مجازی، با تمام عملیات و ...، شبیه سازی کردند و بعد ساختن. فیلمهای نمایش داده شده هم انیمیشن نبودن و در واقع شبیه سازی Omniverse بودن.
- اگر قبلا در نیروگاه برق الکتریسیته تولید میشد، حالا کارخونههای هوش مصنوعی، هوش تولید میکنن و این انقلاب صنعتی جدید هست.
- سرمایهگذاری عظیم روی Healthcare، رباتیک، انرژی و اقلیم. و این نکته که احتمالا chatgpt moment برای رباتیک نزدیک هست.
- هر کسب و کاری که دارید سعی کنید Copilot هوش مصنوعیش رو بسازید. همون مفهوم GPT Store رو Nvidia هم داره در NeMo میاره. مدلهای pre-trained در هر حوزه و فضای پردازش ابری و ... برای اینکه شما با دادن داده، دانش و داکیومنت خاص، هوش مصنوعی خودتون رو درست کنید که اینجا هم بحث کرده بودیم. فرضا برای Trade ما داریم به این سمت میریم.
آپدیت:
بتی وجود نداره و به Nvidia هم انتقاداتی هست. مثل این مورد. البته در نظر بگیرید که نویسنده این توییت از شرکت Meta هست.
کنفرانسهای GTC تازه شروع شدن و به صورت مجازیش رایگان هستن:
Link
@deeptimeai
اگر دیشب لایو ندیدین پیشنهاد میکنم ببینید. میشه برنامه اصلی نوروز:
YouTube
موارد زیادی بود ولی اگر بخوام چند نکته بگم:
- معرفی پلتفرم و ابَر GPU به نام Blackwell به یاد David Blackwell ریاضی دان. در مقایسه با GPU قبلی یعنی Hopper مزایای بسیاری وجود داره. در نظر بگیرید که برای آموزش یک GPT با 1.8 میلیارد پارامتر در 90 روز، Hopper به 8000 GPU نیاز داره و 15MW مصرف میکنه در حالی که Blackwell فقط با 2000 GPU و 4MW مصرف برق کارو درمیاره. برای اینکه عدد دستمون بیاد، مصرف برق ایران (از جنس توان) حدودا 60000MW هست. کلا قدرت اصلی در دنیای امروز قدرت پردازش به صورت energy efficient هست.
- نکته اصلی در پیشرفت قدرت پردازش GPU، روی نحوه صحبت هزاران GPU باهم هست. اینجاست که NV Link Switch وارد میشه که هسته اصلی برای سینک اطلاعات به صورت بهینه بین هزاران GPU در Blackwell هست.
- در کنفرانس پارسال که کاملا مجازی بود Omniverse خیلی تاکید میشد و امسال روی Digital Twin و شبیهسازی کامل هر چیز به صورت دیجیتالی صحبت شد و به عنوان نمونه Nvidia نشون داد که چطور یک کارخونه ساخت chip رو اول کاملا مجازی، با تمام عملیات و ...، شبیه سازی کردند و بعد ساختن. فیلمهای نمایش داده شده هم انیمیشن نبودن و در واقع شبیه سازی Omniverse بودن.
- اگر قبلا در نیروگاه برق الکتریسیته تولید میشد، حالا کارخونههای هوش مصنوعی، هوش تولید میکنن و این انقلاب صنعتی جدید هست.
- سرمایهگذاری عظیم روی Healthcare، رباتیک، انرژی و اقلیم. و این نکته که احتمالا chatgpt moment برای رباتیک نزدیک هست.
- هر کسب و کاری که دارید سعی کنید Copilot هوش مصنوعیش رو بسازید. همون مفهوم GPT Store رو Nvidia هم داره در NeMo میاره. مدلهای pre-trained در هر حوزه و فضای پردازش ابری و ... برای اینکه شما با دادن داده، دانش و داکیومنت خاص، هوش مصنوعی خودتون رو درست کنید که اینجا هم بحث کرده بودیم. فرضا برای Trade ما داریم به این سمت میریم.
آپدیت:
بتی وجود نداره و به Nvidia هم انتقاداتی هست. مثل این مورد. البته در نظر بگیرید که نویسنده این توییت از شرکت Meta هست.
کنفرانسهای GTC تازه شروع شدن و به صورت مجازیش رایگان هستن:
Link
@deeptimeai
❤18👍7🔥1💯1
عید نوروز مبارک. آرزو میکنم در سال جدید، در حد ممکن، "وطن جایی شود برای ماندن" و امیدوارم آزادی جای ظلم و فساد رو بگیره.
@deeptimeai
@deeptimeai
❤52👍4
Full Stack FastAPI Template
تمپلیت توسط سازنده FastAPI نوشته شده.
- از React برای frontend استفاده شده.
- از SQLModel به عنوان دیتابیس پایه استفاده شده. اصولا چون SQLModel هم خود سازنده FastAPI ساخته و بر مبنای Pydantic هست بهترین گزینه برای FastAPI هست.
- از Docker برای دیپلوی، از Pytest برای تست نویسی و از Github Actions برای CI/CD استفاده شده.
- موارد مربوط به User authentication و Email-based Password Recovery هم به کار میاد.
@deeptimeai
تمپلیت توسط سازنده FastAPI نوشته شده.
- از React برای frontend استفاده شده.
- از SQLModel به عنوان دیتابیس پایه استفاده شده. اصولا چون SQLModel هم خود سازنده FastAPI ساخته و بر مبنای Pydantic هست بهترین گزینه برای FastAPI هست.
- از Docker برای دیپلوی، از Pytest برای تست نویسی و از Github Actions برای CI/CD استفاده شده.
- موارد مربوط به User authentication و Email-based Password Recovery هم به کار میاد.
@deeptimeai
❤13👍3🔥1
اگر بتونیم مزیت الگوریتم یادگیری شبکه عصبی (gradient backpropagation) رو با الگوریتم مدلهای boosting بر مبنای درخت تصمیم مثل XGboost که پادشاهان Tabular Data هستند به صورت بنیادی ترکیب کنیم به چه مدلی میرسیم؟
مدل قدرتمند جدیدی در Tabular Dataبه نام GRANDE که بر اساس ایده Gradient Decision Tree ساخته شده و تونسته در اکثر دیتاستها، از جمله Numerai (مسابقه معروف در پیشبینی بازار مالی با دیتاساینس) از XGboost و Catboost که تا به حال بهترین بودن عملکرد بهتری داشته باشه.
پکیج GRANDE رو میتونید با pip نصب کنید.
GRANDE: Gradient-Based Decision Tree Ensembles
کمی عمیق تر:
مسئله اصلی این هست که الگوریتمهای درخت تصمیم و الگوریتم ترکیب درختها در boosting ها به صورت greedy هست که باعث ایجاد محدودیت در فضای جستجو و همچنین overfitting میشه. به همین دلیل نیاز هست تا فرآیندهایی مثل split به صورت differentiable بشه و بعضی موارد non-differentiable مدیریت بشن. بعد از این امکان بهینه کردن بنیادی پارامترهای درخت تصمیم و ensemble رو خواهیم داشت. و حتی میتونیم برای split values، split indices، leaf weights و leaf به طور جداگانه learning rate داشته باشیم. برای فهم دقیق الگوریتم مقالههای اصلی رو بخونید:
GRANDE paper : ICLR 2024
GradTree paper : NeurIPS 2023
@deeptimeai
مدل قدرتمند جدیدی در Tabular Dataبه نام GRANDE که بر اساس ایده Gradient Decision Tree ساخته شده و تونسته در اکثر دیتاستها، از جمله Numerai (مسابقه معروف در پیشبینی بازار مالی با دیتاساینس) از XGboost و Catboost که تا به حال بهترین بودن عملکرد بهتری داشته باشه.
پکیج GRANDE رو میتونید با pip نصب کنید.
GRANDE: Gradient-Based Decision Tree Ensembles
کمی عمیق تر:
مسئله اصلی این هست که الگوریتمهای درخت تصمیم و الگوریتم ترکیب درختها در boosting ها به صورت greedy هست که باعث ایجاد محدودیت در فضای جستجو و همچنین overfitting میشه. به همین دلیل نیاز هست تا فرآیندهایی مثل split به صورت differentiable بشه و بعضی موارد non-differentiable مدیریت بشن. بعد از این امکان بهینه کردن بنیادی پارامترهای درخت تصمیم و ensemble رو خواهیم داشت. و حتی میتونیم برای split values، split indices، leaf weights و leaf به طور جداگانه learning rate داشته باشیم. برای فهم دقیق الگوریتم مقالههای اصلی رو بخونید:
GRANDE paper : ICLR 2024
GradTree paper : NeurIPS 2023
@deeptimeai
👍19❤5🔥4
تیم DeepMind گوگل که در یک همکاری چند ساله با باشگاه فوتبال لیورپول هست، جدیدا مدلی به نام TacticAI برای پیشنهادات فنی در زمان کرنر زدن ساخته. مدل بر اساس predictive & generative AI کار میکنه و از geometric deep learning استفاده کردن.
در انتخاب لیورپول اینکه کوفاندر DeepMind آقای Demis Hassabis هم طرفدار لیورپول و مربیش هست بی تاثیر نیست.
TacticAI: an AI assistant for football tactics
Paper Nature Communications
@deeptimeai
در انتخاب لیورپول اینکه کوفاندر DeepMind آقای Demis Hassabis هم طرفدار لیورپول و مربیش هست بی تاثیر نیست.
TacticAI: an AI assistant for football tactics
Paper Nature Communications
@deeptimeai
👍15❤5
پایه تمامی پیشرفتها در Generative AI و LLM مدیون معماری Transformer هست. اما اخیرا معماری Mamba معرفی شد که معایب Transformer رو نداشت ولی خودش هم بی عیب نبود.
حالا Jamba توسط AI21 معرفی شده که مزیتهای Transformer و Mamba رو داره و در بنچمارکها عموما از مدلهای دیگه بهتر بوده.
Blog
@deeptimeai
حالا Jamba توسط AI21 معرفی شده که مزیتهای Transformer و Mamba رو داره و در بنچمارکها عموما از مدلهای دیگه بهتر بوده.
Blog
@deeptimeai
👍13❤5🔥5
برای بسیاری از مسائل سری زمانی مثل retail, electricity, biomedical تشخیص Trend و Seasonality بسیار اهمیت داره و به همین دلیل همچنان ایده مدلهای ARIMA مهم است. در پروژه NeuralProphet هم از این الگوریتمها استفاده میکنن و اونهارو با deeplearning ترکیب کردن.
پروژه جالبی که اخیرا دیدم کاربردی کردن Boosting Decision Tree مثل XGBoost برای مسائل سری زمانی با استفاده از lbf هست.
MFLES
ThymeBoost
یک نکته جالب استفاده از Conformal Intervals برای uncertainty quantification بود.
@deeptimeai
پروژه جالبی که اخیرا دیدم کاربردی کردن Boosting Decision Tree مثل XGBoost برای مسائل سری زمانی با استفاده از lbf هست.
MFLES
ThymeBoost
یک نکته جالب استفاده از Conformal Intervals برای uncertainty quantification بود.
@deeptimeai
👍13❤3
به زودی دموی پلتفرم مون رو لانچ میکنیم...
"Intelligence Can Solve Complexity"
ما متوجه شدیم در دنیای تریدینگ بازارها یک جای کار بدجور میلنگه. در واقع موانعی وجود داره که باعث میشه پتانسیل اکثر دیتاساینتیستها برای کار با دادههای بازار و trade کردن بالفعل نشه. حالا اونا چه مواردی ان؟ فیچر و فریم.
۱_ فیچر: تعریف فیچرهای informative که خوب به دلیل نیاز به domain expertise و تجربه ترید و کارساز نبودن دیپ لرنینگ برای استخراج فیچر از داده خام در این حوزه خاص، اکثر دیتاساینتیست ها به فیچر خوب برای شروع کار دسترسی ندارن.
ما فیچرهایی ارائه میدیم که با یک تک مدل xgboost هم سودده باشه!
۲_ فریم: یک فریم قابل تنظیم و بهینه سازی از کل پایپلاین یک سیستم ترید یعنی تعریف تارگت (مسئله)، استراتژی و بکتست به صورتی که دیتاساینتیستها بتونن یکسری پارامتر مشخص رو تنظیم/بهینه کنن و به خروجی مد نظرشون برسن که عموما یعنی سود بالا و max draw down پایین.
سرویسها رایگان خواهد بود و فقط وقتی تیمی از رسیدن به نتایج خوب با سیستم ما مطمئن باشه میتونه فیچرهای لایو و real-time رو بخره. و البته همچنان پیچیدگی مسئله به قوت خودش باقیه. ولی حداقل به صورت منصفانه دریایی خواهد بود برای شناگرها!
"هوش راه حل پیچیدگیست" برای trade بازار مالی: ترکیب هوش انسان و هوش مصنوعی
#tradeset
@deeptimeai
"Intelligence Can Solve Complexity"
ما متوجه شدیم در دنیای تریدینگ بازارها یک جای کار بدجور میلنگه. در واقع موانعی وجود داره که باعث میشه پتانسیل اکثر دیتاساینتیستها برای کار با دادههای بازار و trade کردن بالفعل نشه. حالا اونا چه مواردی ان؟ فیچر و فریم.
۱_ فیچر: تعریف فیچرهای informative که خوب به دلیل نیاز به domain expertise و تجربه ترید و کارساز نبودن دیپ لرنینگ برای استخراج فیچر از داده خام در این حوزه خاص، اکثر دیتاساینتیست ها به فیچر خوب برای شروع کار دسترسی ندارن.
ما فیچرهایی ارائه میدیم که با یک تک مدل xgboost هم سودده باشه!
۲_ فریم: یک فریم قابل تنظیم و بهینه سازی از کل پایپلاین یک سیستم ترید یعنی تعریف تارگت (مسئله)، استراتژی و بکتست به صورتی که دیتاساینتیستها بتونن یکسری پارامتر مشخص رو تنظیم/بهینه کنن و به خروجی مد نظرشون برسن که عموما یعنی سود بالا و max draw down پایین.
سرویسها رایگان خواهد بود و فقط وقتی تیمی از رسیدن به نتایج خوب با سیستم ما مطمئن باشه میتونه فیچرهای لایو و real-time رو بخره. و البته همچنان پیچیدگی مسئله به قوت خودش باقیه. ولی حداقل به صورت منصفانه دریایی خواهد بود برای شناگرها!
"هوش راه حل پیچیدگیست" برای trade بازار مالی: ترکیب هوش انسان و هوش مصنوعی
#tradeset
@deeptimeai
❤33👍15✍2🔥2🤩2
یک اصل اساسی برای ساختن یک استارتاپ موفق توانایی دور ریختن کارهای قبل و ساخت همه چیز از اول هست. صرف زمان گذاشتن برای توسعه یک سیستم نباید باعث بشه فکر کنیم ارزش بالایی داره، به اون بچسپیم و روش تاکید کنیم.
نوعی از این اصل رو Sam Altman، مدیرعامل OpenAI، درباره سرعت iteration به عنوان یک شاخص از استارتاپهای موفق در این زمان میگه. قدرت فیدبک گرفتن و تغییر سیستم بر اساس نیازها.
در تجربه خودمون ما چندین بار این کار رو انجام دادیم و به نظرم یکی از دلایل اصلی بود که شکست نخوردیم و زنده موندیم.
#تجربیات_استارتاپ
@deeptimeai
نوعی از این اصل رو Sam Altman، مدیرعامل OpenAI، درباره سرعت iteration به عنوان یک شاخص از استارتاپهای موفق در این زمان میگه. قدرت فیدبک گرفتن و تغییر سیستم بر اساس نیازها.
در تجربه خودمون ما چندین بار این کار رو انجام دادیم و به نظرم یکی از دلایل اصلی بود که شکست نخوردیم و زنده موندیم.
#تجربیات_استارتاپ
@deeptimeai
👍16✍2
Deep Time
این نوشته "سم آلتمن" درباره زندگی رو هر کسی به نظرم باید یه نگاه بندازه. The days are long but the decades are short سم آلتمن مدیرعامل OpenAI، یکی از پیشرو ترین شرکتهای هوش مصنوعی دنیاست. قبل از این هم مدیر شتاب دهنده معروف Y Combinator بوده.
صحبت از Sam Altman شد، این پست مربوط به ۲ سال قبل هست. و این نوشتهاش درباره زندگی رو به نظرم باید بارها خوند. خودم مجدد خوندم و توصیه میکنم حتما بخونید و یادداشت کنید.
@deeptimeai
@deeptimeai
❤13✍1👍1
فرض کنید یک مدل 70b (یعنی 70 میلیارد پارامتری مثل بعضی نسخههای llama) داریم. این یعنی در حالت 16bits به فقط ۱۴۰ گیگابایت حافظه GPU برای خوندن مدل نیاز هست. فرض کنید به شما گفته شده که میزان حافظه مورد استفاده رو چند برابر کاهش بدید و البته در نظر داشته باشید مدل علاوه بر inference برای continued pre-training و fine-tuning هم مورد نظر هست.
👍2❤1
Deep Time
فرض کنید یک مدل 70b (یعنی 70 میلیارد پارامتری مثل بعضی نسخههای llama) داریم. این یعنی در حالت 16bits به فقط ۱۴۰ گیگابایت حافظه GPU برای خوندن مدل نیاز هست. فرض کنید به شما گفته شده که میزان حافظه مورد استفاده رو چند برابر کاهش بدید و البته در نظر داشته باشید…
سوال اول: چه تکنیکی رو برای حل این مسئله استفاده میکنید؟
Anonymous Poll
32%
Quantization
7%
DDP
24%
QLoRA
37%
دیدن نتایج
👍7❤1
جواب: (قبلش رای بدین!)
مشخصا Quantization استفاده از حافظه رو چندین برابر کاهش میده. مثلا با استفاده از 4bits یا 0.5Byte مدل فقط 35 گیگابایت حافظه میگیره. اما جواب درست QLoRA هست چراکه صرف استفاده از Quantization و بدون استفاده از LoRA، انجام Gradient Descent امکانپذیر نیست (فقط به درد inference میخوره) به این دلیل که گرادیان تقریبا همه جا صفر میشود. پس برای حل مسئله بالا باید این دو تکنینک ترکیب بشن یعنی QLoRA. در واقع adaptor های LoRA که quantized نیستن برای آپدیت پارامترها استفاده میشن. این تکنینک توسط گروه آقای Tim Dettmers از دانشگاه واشنگتن معرفی شد.
@deeptimeai
@deeptimeai
👍20❤3✍1
افراد زیادی هستن که دوست دارن هوش مصنوعی، دیتاساینس یا مهارتی در یک حوزه خاص یاد بگیرن. اما بسیاری حتی بعد از شروع موفق به ادامه و درخشش نمیشن. در واقع برای یادگیری اینکه شما حتی بهترین کورس و کتاب رو شروع کنید اصلا تضمین کننده ادامه دادن و جا افتادن نیست و به المانهای محیطی و ارتباطی نیاز هست. فرضا خوندن مطالب تخصصی به عنوان تفریح در فضای مجازی!
برای مثال، نیازی نیست حتما مطالبی با عمق سوال بالا رو همه و در این زمان بدونن. در واقع سوال اصلی این نیست که "آیا من جواب این سوال رو بلدم یا نه؟"
سوال اصلی اینه که "آیا من میخوام در آینده کسی باشم که این مباحث رو تسلط داره؟"
اگر آره که باید در ابتدا به واسطه محیطهایی مثل همین کانالها و یوتیوب و مقالات و ... با کلمات و کانسپها صرفا آشنا بشم و به گوش و چشمم بخوره.
مهمترین درس علوم شناختی اثر بسیار بالای محیط و شبکه ارتباطی بر تمام ابعاد زندگی هست. پس باید محیطمون رو طوری تنظیم کنیم که در جهت فردی باشه که میخوایم در آینده بهش تبدیل بشیم.
اگر یک اکانت اینستاگرام داریم که پر از کلیپ طنز و ... هست اوکیه ولی ما به ازای همین باید فرضا یک توییتر هم داشته باشیم که فقط آدمای متخصص رو دنبال میکنیم تا گاهی اتفاقا به عنوان تفریح وارد اون محیط بشیم و در ابتدا jargon ها و کانسپتهارو رو آشنا بشیم و حتی بتونیم به جکهای مخصوصش بخندیم! پادکستهای افراد این حوزه رو به عنوان تفریح گوش کنیم (در پادکستها فقط مطالب تخصصی هم که نمیگن) و در نهایت ما به افراد این حوزه احساس تعلق بیشتری خواهیم کرد.
در یک پست دیگه در مورد عوامل یادگیری و رشد از دیدگاه علمی بیشتر مینویسم.
@deeptimeai
برای مثال، نیازی نیست حتما مطالبی با عمق سوال بالا رو همه و در این زمان بدونن. در واقع سوال اصلی این نیست که "آیا من جواب این سوال رو بلدم یا نه؟"
سوال اصلی اینه که "آیا من میخوام در آینده کسی باشم که این مباحث رو تسلط داره؟"
اگر آره که باید در ابتدا به واسطه محیطهایی مثل همین کانالها و یوتیوب و مقالات و ... با کلمات و کانسپها صرفا آشنا بشم و به گوش و چشمم بخوره.
مهمترین درس علوم شناختی اثر بسیار بالای محیط و شبکه ارتباطی بر تمام ابعاد زندگی هست. پس باید محیطمون رو طوری تنظیم کنیم که در جهت فردی باشه که میخوایم در آینده بهش تبدیل بشیم.
اگر یک اکانت اینستاگرام داریم که پر از کلیپ طنز و ... هست اوکیه ولی ما به ازای همین باید فرضا یک توییتر هم داشته باشیم که فقط آدمای متخصص رو دنبال میکنیم تا گاهی اتفاقا به عنوان تفریح وارد اون محیط بشیم و در ابتدا jargon ها و کانسپتهارو رو آشنا بشیم و حتی بتونیم به جکهای مخصوصش بخندیم! پادکستهای افراد این حوزه رو به عنوان تفریح گوش کنیم (در پادکستها فقط مطالب تخصصی هم که نمیگن) و در نهایت ما به افراد این حوزه احساس تعلق بیشتری خواهیم کرد.
در یک پست دیگه در مورد عوامل یادگیری و رشد از دیدگاه علمی بیشتر مینویسم.
@deeptimeai
👍54❤7💯4