راهکارهای زیادی برای سرعت بخشیدن به کار با پکیج فوقالعاده Pandas وجود داره، که میشه به Dask, Ray بعنوان شناخته شده ترینها اشاره کرد
همه کسانی که با Ray کار کردن احتمالا جذب سادگی اون شدند، اما Dask ، فوق العاده هست چون distributed computing رو راحت میکنه
حالا لایبراری Modin این ۲تا ویژگی رو باهم در اختیارتون میذاره، راحتی در این حد که ؛
import modin.pandas as pd
اینو بجای ایمپورت قبلی pandas تو کدهاتون قرار بدید و از سرعت اجرا لذت ببرید.
Github link
همه کسانی که با Ray کار کردن احتمالا جذب سادگی اون شدند، اما Dask ، فوق العاده هست چون distributed computing رو راحت میکنه
حالا لایبراری Modin این ۲تا ویژگی رو باهم در اختیارتون میذاره، راحتی در این حد که ؛
import modin.pandas as pd
اینو بجای ایمپورت قبلی pandas تو کدهاتون قرار بدید و از سرعت اجرا لذت ببرید.
Github link
GitHub
GitHub - modin-project/modin: Modin: Scale your Pandas workflows by changing a single line of code
Modin: Scale your Pandas workflows by changing a single line of code - modin-project/modin
تو این بلاگ پست، تکنیک خیلی سادهایی استفاده شده و اون تبدیل فرمتهاس (بسیاری از ابزارها و تکنیکهای فشردهسازی مدلهای دیپلرنینگ هم ازین تکنیک استفاده میکنند)
مسئله اینه که وقتی شما اعدادی توی محدودههای کوچیک دارید و فقط ۲-۴ رقم اعشار دارند چرا باید از float64 که حافظه بیشتری استفاده میکنه استفاده بشه درحالی که float16 با حافظه کمتر و سرعت بیشتر همون کارایی رو به شما میده ؟
نکته: این تکنیک رو در زمان ترین مدلهاتون به کار نبرید، اونجا زمانی هست که شما میخواد متغییرهارو پیدا کنید و خیلی بهتره که محدود نباشند، اما بعد از ذخیره سازی مدل میتونید ازین تکنیک استفاده کنید (هرچند خود ابزارهای موجود اینکار رو برای شما انجام میدند + تکنیکهای دیگر)
Medium link
مسئله اینه که وقتی شما اعدادی توی محدودههای کوچیک دارید و فقط ۲-۴ رقم اعشار دارند چرا باید از float64 که حافظه بیشتری استفاده میکنه استفاده بشه درحالی که float16 با حافظه کمتر و سرعت بیشتر همون کارایی رو به شما میده ؟
نکته: این تکنیک رو در زمان ترین مدلهاتون به کار نبرید، اونجا زمانی هست که شما میخواد متغییرهارو پیدا کنید و خیلی بهتره که محدود نباشند، اما بعد از ذخیره سازی مدل میتونید ازین تکنیک استفاده کنید (هرچند خود ابزارهای موجود اینکار رو برای شما انجام میدند + تکنیکهای دیگر)
Medium link
Medium
How to compress CSV file efficiently in just 25 lines of code
Data is perhaps the most important thing in this century. We have generated more than 90% of data in the previous 5 years. According to…
👍1
#خارج_از_بحث
نمایندگان مجلس ایران روز سهشنبه، اول بهمن، تصویب کردند که بابت خروج هر مسافر ایرانی از کشور «وجوهی به عنوان مالیات» دریافت شود.
مبلغ دقیق مالیات سفرهای خارجی هنوز تعیین نشده، ولی این مالیات با عوارض خروج متفاوت است.
نمایندگان مجلس دانشجویان، دیپلماتها، بیماران، ایرانیان شاغل در خارج و کسانی را که برای زیارت به عراق میروند از این مالیات معاف کردهاند.
#درعوض_امنیت_داریم
نمایندگان مجلس ایران روز سهشنبه، اول بهمن، تصویب کردند که بابت خروج هر مسافر ایرانی از کشور «وجوهی به عنوان مالیات» دریافت شود.
مبلغ دقیق مالیات سفرهای خارجی هنوز تعیین نشده، ولی این مالیات با عوارض خروج متفاوت است.
نمایندگان مجلس دانشجویان، دیپلماتها، بیماران، ایرانیان شاغل در خارج و کسانی را که برای زیارت به عراق میروند از این مالیات معاف کردهاند.
#درعوض_امنیت_داریم
یک مثال و آموزش سریع برای نحوه کار و آشنایی با (بهمراه کد)
Graph Neural Networks , Deep Graph Library
Link
Graph Neural Networks , Deep Graph Library
Link
Medium
A primer on Graph Neural Networks with Amazon Neptune and the Deep Graph Library
In this post, I’d like to introduce you to Graph Neural Networks (GNN), one of the most exciting developments in Machine Learning (ML)…
قیمت سرویسهای کلود گوگل برای هر Gpu T4 و به ازای هر ساعت رو مدنظر بگیرید، شاید دیگه نیازی به خرید سیستم دیپلرنینگ نداشته باشید. (همکاری انویدیا و گوگل)
Link
Link
isna.tgz
11.3 MB
اینکه دیپلرنینگ نیاز به دیتای زیادی داره درست، اما بهونه برای عدم کار (تمرین) نشه
توی این فایل حدود ۱۳.۰۰۰ اخبار کرال شده از سایت #ایسنا وجود داره که کاملاً هم قانونی (Robot.txt) کرال شده، و همهی تگها بصورت جداگونه و در یک فایل json ذخیره شده
* اگر از تیم ایسنا، درخواستی برای حذف دیتاست هست میتونن با آیدی
,--------
در ارتباط باشند، هرچند طبق قوانین و با تعداد رکوئست بسیار پایین سایت کرال شده.
توی این فایل حدود ۱۳.۰۰۰ اخبار کرال شده از سایت #ایسنا وجود داره که کاملاً هم قانونی (Robot.txt) کرال شده، و همهی تگها بصورت جداگونه و در یک فایل json ذخیره شده
* اگر از تیم ایسنا، درخواستی برای حذف دیتاست هست میتونن با آیدی
,--------
در ارتباط باشند، هرچند طبق قوانین و با تعداد رکوئست بسیار پایین سایت کرال شده.
دستاوردهای یادگیری عمیق(InTec)
isna.tgz
برخی از دوستان درخواست سورس کد این کرالر رو دادند که بنا به دلایل زیر امکانش نیست :
۱- قوانین سایت روی سادهترین حالت قرار داره (نمیدونیم واقعاً هدف همین بوده، یا یک فراموشی برای تغییر دادن)
۲- کرالر به هیچوجه در زمان دانلود بلاک نشد، حتی زمان کرال بیش از ۵۰۰.۰۰۰ خبر
۳- با توجه به عدم بلاک شدن، پخش شدن این کد میتونه رکوئستهای زیادی رو به سمت سایت بفرسته که حتی اگه سایت دان نشه (طبیعتاً نباید بشه)؛ میتونه هزینه زیادی داشته باشه برای نگهداری و ...
۱- قوانین سایت روی سادهترین حالت قرار داره (نمیدونیم واقعاً هدف همین بوده، یا یک فراموشی برای تغییر دادن)
۲- کرالر به هیچوجه در زمان دانلود بلاک نشد، حتی زمان کرال بیش از ۵۰۰.۰۰۰ خبر
۳- با توجه به عدم بلاک شدن، پخش شدن این کد میتونه رکوئستهای زیادی رو به سمت سایت بفرسته که حتی اگه سایت دان نشه (طبیعتاً نباید بشه)؛ میتونه هزینه زیادی داشته باشه برای نگهداری و ...
گوگل ریسرچ پروژههای بسیاری رو open source قرار داده به همراه کد و توضیحات و ....
برای جزئیات بیشتر گیتهاب و لینک ریسرچ رو میتونید دنبال کنید
Google Research
Github Link
برای جزئیات بیشتر گیتهاب و لینک ریسرچ رو میتونید دنبال کنید
Google Research
Github Link
research.google
Google Research - Explore Our Latest Research in Science and AI
Discover Google Research. We publish research papers across a wide range of domains and share our latest developments in AI and science research.