تو این بلاگ پست، تکنیک خیلی سادهایی استفاده شده و اون تبدیل فرمتهاس (بسیاری از ابزارها و تکنیکهای فشردهسازی مدلهای دیپلرنینگ هم ازین تکنیک استفاده میکنند)
مسئله اینه که وقتی شما اعدادی توی محدودههای کوچیک دارید و فقط ۲-۴ رقم اعشار دارند چرا باید از float64 که حافظه بیشتری استفاده میکنه استفاده بشه درحالی که float16 با حافظه کمتر و سرعت بیشتر همون کارایی رو به شما میده ؟
نکته: این تکنیک رو در زمان ترین مدلهاتون به کار نبرید، اونجا زمانی هست که شما میخواد متغییرهارو پیدا کنید و خیلی بهتره که محدود نباشند، اما بعد از ذخیره سازی مدل میتونید ازین تکنیک استفاده کنید (هرچند خود ابزارهای موجود اینکار رو برای شما انجام میدند + تکنیکهای دیگر)
Medium link
مسئله اینه که وقتی شما اعدادی توی محدودههای کوچیک دارید و فقط ۲-۴ رقم اعشار دارند چرا باید از float64 که حافظه بیشتری استفاده میکنه استفاده بشه درحالی که float16 با حافظه کمتر و سرعت بیشتر همون کارایی رو به شما میده ؟
نکته: این تکنیک رو در زمان ترین مدلهاتون به کار نبرید، اونجا زمانی هست که شما میخواد متغییرهارو پیدا کنید و خیلی بهتره که محدود نباشند، اما بعد از ذخیره سازی مدل میتونید ازین تکنیک استفاده کنید (هرچند خود ابزارهای موجود اینکار رو برای شما انجام میدند + تکنیکهای دیگر)
Medium link
Medium
How to compress CSV file efficiently in just 25 lines of code
Data is perhaps the most important thing in this century. We have generated more than 90% of data in the previous 5 years. According to…
👍1
#خارج_از_بحث
نمایندگان مجلس ایران روز سهشنبه، اول بهمن، تصویب کردند که بابت خروج هر مسافر ایرانی از کشور «وجوهی به عنوان مالیات» دریافت شود.
مبلغ دقیق مالیات سفرهای خارجی هنوز تعیین نشده، ولی این مالیات با عوارض خروج متفاوت است.
نمایندگان مجلس دانشجویان، دیپلماتها، بیماران، ایرانیان شاغل در خارج و کسانی را که برای زیارت به عراق میروند از این مالیات معاف کردهاند.
#درعوض_امنیت_داریم
نمایندگان مجلس ایران روز سهشنبه، اول بهمن، تصویب کردند که بابت خروج هر مسافر ایرانی از کشور «وجوهی به عنوان مالیات» دریافت شود.
مبلغ دقیق مالیات سفرهای خارجی هنوز تعیین نشده، ولی این مالیات با عوارض خروج متفاوت است.
نمایندگان مجلس دانشجویان، دیپلماتها، بیماران، ایرانیان شاغل در خارج و کسانی را که برای زیارت به عراق میروند از این مالیات معاف کردهاند.
#درعوض_امنیت_داریم
یک مثال و آموزش سریع برای نحوه کار و آشنایی با (بهمراه کد)
Graph Neural Networks , Deep Graph Library
Link
Graph Neural Networks , Deep Graph Library
Link
Medium
A primer on Graph Neural Networks with Amazon Neptune and the Deep Graph Library
In this post, I’d like to introduce you to Graph Neural Networks (GNN), one of the most exciting developments in Machine Learning (ML)…
قیمت سرویسهای کلود گوگل برای هر Gpu T4 و به ازای هر ساعت رو مدنظر بگیرید، شاید دیگه نیازی به خرید سیستم دیپلرنینگ نداشته باشید. (همکاری انویدیا و گوگل)
Link
Link
isna.tgz
11.3 MB
اینکه دیپلرنینگ نیاز به دیتای زیادی داره درست، اما بهونه برای عدم کار (تمرین) نشه
توی این فایل حدود ۱۳.۰۰۰ اخبار کرال شده از سایت #ایسنا وجود داره که کاملاً هم قانونی (Robot.txt) کرال شده، و همهی تگها بصورت جداگونه و در یک فایل json ذخیره شده
* اگر از تیم ایسنا، درخواستی برای حذف دیتاست هست میتونن با آیدی
,--------
در ارتباط باشند، هرچند طبق قوانین و با تعداد رکوئست بسیار پایین سایت کرال شده.
توی این فایل حدود ۱۳.۰۰۰ اخبار کرال شده از سایت #ایسنا وجود داره که کاملاً هم قانونی (Robot.txt) کرال شده، و همهی تگها بصورت جداگونه و در یک فایل json ذخیره شده
* اگر از تیم ایسنا، درخواستی برای حذف دیتاست هست میتونن با آیدی
,--------
در ارتباط باشند، هرچند طبق قوانین و با تعداد رکوئست بسیار پایین سایت کرال شده.
دستاوردهای یادگیری عمیق(InTec)
isna.tgz
برخی از دوستان درخواست سورس کد این کرالر رو دادند که بنا به دلایل زیر امکانش نیست :
۱- قوانین سایت روی سادهترین حالت قرار داره (نمیدونیم واقعاً هدف همین بوده، یا یک فراموشی برای تغییر دادن)
۲- کرالر به هیچوجه در زمان دانلود بلاک نشد، حتی زمان کرال بیش از ۵۰۰.۰۰۰ خبر
۳- با توجه به عدم بلاک شدن، پخش شدن این کد میتونه رکوئستهای زیادی رو به سمت سایت بفرسته که حتی اگه سایت دان نشه (طبیعتاً نباید بشه)؛ میتونه هزینه زیادی داشته باشه برای نگهداری و ...
۱- قوانین سایت روی سادهترین حالت قرار داره (نمیدونیم واقعاً هدف همین بوده، یا یک فراموشی برای تغییر دادن)
۲- کرالر به هیچوجه در زمان دانلود بلاک نشد، حتی زمان کرال بیش از ۵۰۰.۰۰۰ خبر
۳- با توجه به عدم بلاک شدن، پخش شدن این کد میتونه رکوئستهای زیادی رو به سمت سایت بفرسته که حتی اگه سایت دان نشه (طبیعتاً نباید بشه)؛ میتونه هزینه زیادی داشته باشه برای نگهداری و ...
گوگل ریسرچ پروژههای بسیاری رو open source قرار داده به همراه کد و توضیحات و ....
برای جزئیات بیشتر گیتهاب و لینک ریسرچ رو میتونید دنبال کنید
Google Research
Github Link
برای جزئیات بیشتر گیتهاب و لینک ریسرچ رو میتونید دنبال کنید
Google Research
Github Link
research.google
Google Research - Explore Our Latest Research in Science and AI
Discover Google Research. We publish research papers across a wide range of domains and share our latest developments in AI and science research.
شاید اگر بگن استرینگ ها (کلمات، جملات و ...) رو توی یک corpus خیلی بزرگ مقایسه کنید اولین چیزی که به فکر میرسه و کد زده میشه
somestring1 == somestring2
باشه؛ اما مشکل اینجاس که برای corpus های خیلی خیلی بزرگ اینکار بسیار زمانبر هست و بدتر ازون اینکه اگر بخواید vec هم در بیارید ازش میتونه بسیار وقت گیر باشه و به حافظه بسیار بسیار بیشتری نیاز داشته باشه (که باعث بشه نتونید روی سیستم یا سرور فعلی اجرا کنید کد رو، البته بسیاری از ابزارهای موجود از تکنیکی که خواهم گفت استفاده میکنند)
ی راهکار دیفالت در پایتون برای این مسئله هست که بطور خودکار، برای اسم
functions, variables, classes
و خلاصه هرچیزی که درطول اجرای برنامه واجبه استفاده میشه؛ از این تکنیک در
Python Core
برای اپتیمایز کردن استفاده میشه، پکیج sys در پایتون هم دارای متدی هست به نام
intern()
که بعنوان ورودی یک string رو میگیره و خروجی اون یک آدرس حافظه هست (تمامی متغییرهایی که توی پایتون تعریف میکنیم آدرس حافظه هست)
به این ترتیب، اگر کل corpus رو با این روش آدرس دهی کنید، میتونید خیلی راحت و البته به مراتب سریعتر بین stringها مقایسه کنید.
somestring1 is somestring2
sys.intern() python documentation
somestring1 == somestring2
باشه؛ اما مشکل اینجاس که برای corpus های خیلی خیلی بزرگ اینکار بسیار زمانبر هست و بدتر ازون اینکه اگر بخواید vec هم در بیارید ازش میتونه بسیار وقت گیر باشه و به حافظه بسیار بسیار بیشتری نیاز داشته باشه (که باعث بشه نتونید روی سیستم یا سرور فعلی اجرا کنید کد رو، البته بسیاری از ابزارهای موجود از تکنیکی که خواهم گفت استفاده میکنند)
ی راهکار دیفالت در پایتون برای این مسئله هست که بطور خودکار، برای اسم
functions, variables, classes
و خلاصه هرچیزی که درطول اجرای برنامه واجبه استفاده میشه؛ از این تکنیک در
Python Core
برای اپتیمایز کردن استفاده میشه، پکیج sys در پایتون هم دارای متدی هست به نام
intern()
که بعنوان ورودی یک string رو میگیره و خروجی اون یک آدرس حافظه هست (تمامی متغییرهایی که توی پایتون تعریف میکنیم آدرس حافظه هست)
به این ترتیب، اگر کل corpus رو با این روش آدرس دهی کنید، میتونید خیلی راحت و البته به مراتب سریعتر بین stringها مقایسه کنید.
somestring1 is somestring2
sys.intern() python documentation
👍1
دستاوردهای یادگیری عمیق(InTec)
توی کار دیپلرنینگ وقتی به یک مسئله جدید میرسیم با دیتاست جدید، بطوری که تا بحال مشابه اون حل نشده اینطور شروع میشه که بر اساس سعی و خطا و یا تجربیات یک شبکه ساخته میشه و اجرا میشه بعد از اون با سعی و خطا، پارامترها و ... تغییر پیدا میکنه تا به بهترین…
خیلی قبلتر Keras-Tuner رو معرفی کردم، توی این پست، ی آموزش جم و جور و مختصر رو خواهیم دید بهمراه تایم و دقت (عکس پیوست)
Link to post 👈
Link to post 👈