معرفی - Polars
یک کتابخانه دیتافریم منبع باز است که در مارس 2020 منتشر شد. این کتابخانه به دلیل استفاده از زبان برنامه نویسی Rust، از دیگر کتابخانه های این حوزه متمایز است. Rust به طور خاص برای عملکرد و قابلیت های موازی آن انتخاب شد. علاوه بر این، Polars برای چارچوب داده خود به شاخصی تکیه نمی کند و از ارزیابی Lazy پشتیبانی می کند و آن را به یک جایگزین بالقوه برای Pandas برای برخی از کاربران تبدیل می کند.
طبق تست بنچمارک انجام شده توسط H2O.ai، Polars بسیار جلوتر از رقبای خود بود. به عنوان مثال، Polars با تکمیل مجموعه دادههای 50 گیگابایتی تنها در 143 ثانیه، عملکرد برتری را در وظایف تجمیع نشان داد. در مقایسه، پانداها به دلیل حافظه ناکافی قادر به انجام این کار نبودند.
علاوه بر سرعت، Polars بسیار کاربر پسند است و از یک کد پایه به خوبی نوشته شده برخوردار است. برای کسانی که با کتابخانه هایی مانند dplyr در R آشنا هستند، استفاده از Polars به دلیل نحو مشابه آن، کار آسانی است. به طور کلی، Polars یک راه حل قدرتمند و آسان برای کارهای تجمیع داده ارائه می دهد.
@BIMining
یک کتابخانه دیتافریم منبع باز است که در مارس 2020 منتشر شد. این کتابخانه به دلیل استفاده از زبان برنامه نویسی Rust، از دیگر کتابخانه های این حوزه متمایز است. Rust به طور خاص برای عملکرد و قابلیت های موازی آن انتخاب شد. علاوه بر این، Polars برای چارچوب داده خود به شاخصی تکیه نمی کند و از ارزیابی Lazy پشتیبانی می کند و آن را به یک جایگزین بالقوه برای Pandas برای برخی از کاربران تبدیل می کند.
طبق تست بنچمارک انجام شده توسط H2O.ai، Polars بسیار جلوتر از رقبای خود بود. به عنوان مثال، Polars با تکمیل مجموعه دادههای 50 گیگابایتی تنها در 143 ثانیه، عملکرد برتری را در وظایف تجمیع نشان داد. در مقایسه، پانداها به دلیل حافظه ناکافی قادر به انجام این کار نبودند.
علاوه بر سرعت، Polars بسیار کاربر پسند است و از یک کد پایه به خوبی نوشته شده برخوردار است. برای کسانی که با کتابخانه هایی مانند dplyr در R آشنا هستند، استفاده از Polars به دلیل نحو مشابه آن، کار آسانی است. به طور کلی، Polars یک راه حل قدرتمند و آسان برای کارهای تجمیع داده ارائه می دهد.
@BIMining
👍4
تفاوت بردار ، ماتریس و تنسور بصورت ساده با نمایش شکل !
تنسور در واقع آرایه های چندبعدی است که از اعداد که در یک جدول (ماتریس) چیده شدهاند. این جدول در حالت کلی میتواند به صورت N*M*O*Pباشد که حروف بزرگ هر کدام نمایندهٔ یک عدد طبیعی و بیانگر ابعاد جدول و * نشان دهندهٔ عمل ضرب بین آنهاست.
@BIMining
تنسور در واقع آرایه های چندبعدی است که از اعداد که در یک جدول (ماتریس) چیده شدهاند. این جدول در حالت کلی میتواند به صورت N*M*O*Pباشد که حروف بزرگ هر کدام نمایندهٔ یک عدد طبیعی و بیانگر ابعاد جدول و * نشان دهندهٔ عمل ضرب بین آنهاست.
@BIMining
👍12❤6
عنوان مقاله : چه چیزی در هوش مصنوعی از چرخه هایپ گارتنر 2022 وجود دارد.
✍️نویسنده مقاله : محمد عالیشاهی معاونت هوش تجاری و علم داده شرکت بهسازان ملت - دکترای هوش مصنوعی دانشگاه تهران
بطور کلی نوآوری های هوش مصنوعی به چهار دسته تقسیم می شوند و انتظار میرود که طیف گستردهای از نوآوریهای هوش مصنوعی بر افراد و فرآیندهای درون و بیرون از یک زمینه سازمانی تأثیر بگذارد و درک آنها را برای بسیاری از ذینفعان، از رهبران کسبوکار گرفته تا تیمهای مهندسی سازمانی که وظیفه استقرار و عملیاتی کردن سیستمهای هوش مصنوعی را بر عهده دارند، با اهمیت میسازد.
با این حال، رهبران دادهها و تجزیه و تحلیل (D&A) بیشترین سود را از استفاده از دورنمای Hype Cycle برای ایجاد استراتژیهای هوش مصنوعی برای آینده و استفاده از فناوریهایی که تأثیر بالایی در زمان حال دارند.
نوآوری های هوش مصنوعی در چرخه هایپ منعکس کننده اولویت های مکمل و گاهی متناقض در چهار دسته اصلی است:
• هوش مصنوعی داده محور
• هوش مصنوعی مدل محور
• هوش مصنوعی برنامه محور
• هوش مصنوعی انسان محور
@BIMining
✍️نویسنده مقاله : محمد عالیشاهی معاونت هوش تجاری و علم داده شرکت بهسازان ملت - دکترای هوش مصنوعی دانشگاه تهران
بطور کلی نوآوری های هوش مصنوعی به چهار دسته تقسیم می شوند و انتظار میرود که طیف گستردهای از نوآوریهای هوش مصنوعی بر افراد و فرآیندهای درون و بیرون از یک زمینه سازمانی تأثیر بگذارد و درک آنها را برای بسیاری از ذینفعان، از رهبران کسبوکار گرفته تا تیمهای مهندسی سازمانی که وظیفه استقرار و عملیاتی کردن سیستمهای هوش مصنوعی را بر عهده دارند، با اهمیت میسازد.
با این حال، رهبران دادهها و تجزیه و تحلیل (D&A) بیشترین سود را از استفاده از دورنمای Hype Cycle برای ایجاد استراتژیهای هوش مصنوعی برای آینده و استفاده از فناوریهایی که تأثیر بالایی در زمان حال دارند.
نوآوری های هوش مصنوعی در چرخه هایپ منعکس کننده اولویت های مکمل و گاهی متناقض در چهار دسته اصلی است:
• هوش مصنوعی داده محور
• هوش مصنوعی مدل محور
• هوش مصنوعی برنامه محور
• هوش مصنوعی انسان محور
@BIMining
👍6❤3👏1
✍️✍️برترین پلتفرم ها و ابزارهای ETL و ELT از نگاه گارتنر در گزارش ژانویه 2023.
✍️نکته جالب پیشرو شدن ابزار ODI شرکت اوراکل و خارج شدن ابزار IBM Data Stage شرکت IBM از بخش لیدرها.
✍️جالب تر اینکه یک ابزار به نام WORKATO با یک فاصله معنا داری خودش را به جمع لیدرها قرار داده است که مطابق بررسی که انجام شد بد نیست اطلاعاتی در مورد این ابزار بدانید.
✍️پلتفرم کمکد/بدون کد Workato به تیمهای تجاری و فناوری اطلاعات این امکان را میدهد تا ادغامهایی را با سرعت پنج برابر بیشتر از پلتفرمهای یکپارچهسازی معمولی ایجاد کنند. این امر از طریق شتاب دهنده هایی مانند اتصال دهنده های از پیش ساخته شده برای 1000+ SaaS، پایگاه های داده اولیه، ERP و موارد دیگر به دست می آید. بیش از 500000 دستور العمل آماده برای فرآیندهای تجاری رایج که توسط بیش از 70000 عضو انجمن به اشتراک گذاشته شده است. یک معماری کاملاً بومی ابری که برای مقیاس و سرعت ساخته شده است به طور قابل توجهی ردپای عملیاتی و هزینه های کلی را کاهش می دهد.
با Workato، شما مجبور نیستید بین ETL و ELT یکی را انتخاب کنید.
@BIMining
✍️نکته جالب پیشرو شدن ابزار ODI شرکت اوراکل و خارج شدن ابزار IBM Data Stage شرکت IBM از بخش لیدرها.
✍️جالب تر اینکه یک ابزار به نام WORKATO با یک فاصله معنا داری خودش را به جمع لیدرها قرار داده است که مطابق بررسی که انجام شد بد نیست اطلاعاتی در مورد این ابزار بدانید.
✍️پلتفرم کمکد/بدون کد Workato به تیمهای تجاری و فناوری اطلاعات این امکان را میدهد تا ادغامهایی را با سرعت پنج برابر بیشتر از پلتفرمهای یکپارچهسازی معمولی ایجاد کنند. این امر از طریق شتاب دهنده هایی مانند اتصال دهنده های از پیش ساخته شده برای 1000+ SaaS، پایگاه های داده اولیه، ERP و موارد دیگر به دست می آید. بیش از 500000 دستور العمل آماده برای فرآیندهای تجاری رایج که توسط بیش از 70000 عضو انجمن به اشتراک گذاشته شده است. یک معماری کاملاً بومی ابری که برای مقیاس و سرعت ساخته شده است به طور قابل توجهی ردپای عملیاتی و هزینه های کلی را کاهش می دهد.
با Workato، شما مجبور نیستید بین ETL و ELT یکی را انتخاب کنید.
@BIMining
👍16
This media is not supported in your browser
VIEW IN TELEGRAM
✍️✍️✍️نحوه اجرای کد پایتون از صفر تا 100
1️⃣ 𝗪𝗿𝗶𝘁𝗶𝗻𝗴 𝘁𝗵𝗲 𝗖𝗼𝗱𝗲:
تایپ کد پایتون در متن ویرایشگر و ذخیره فایل با پسوند '.py'
2️⃣ 𝗣𝘆𝘁𝗵𝗼𝗻 𝗜𝗻𝘁𝗲𝗿𝗽𝗿𝗲𝘁𝗲𝗿:
اجرای برنامه پایتون وارسال آن به دو بخش ذیل:
𝗖𝗼𝗺𝗽𝗶𝗹𝗲𝗿:
این کد بایت در یک فایل '.pyc' ذخیره می شود و به برنامه ما کمک می کند دفعه بعد سریعتر اجرا شود.
𝗣𝘆𝘁𝗵𝗼𝗻 𝗩𝗶𝗿𝘁𝘂𝗮𝗹 𝗠𝗮:
وقتی با خطا مواجه می شود.
3️⃣ 𝗟𝗶𝗯𝗿𝗮𝗿𝘆 𝗠𝗼𝗱𝘂𝗹𝗲𝘀:
اگر برنامه ما از ماژول های کتابخانه ای استاندارد پایتون یا جای دیگر استفاده می کند، این ماژول ها نیز به کد بایت تبدیل می شوند. سپس PVM اجازه می دهد تا از ویژگی های این ماژول ها استفاده کند.
4️⃣ 𝗙𝗿𝗼𝗺 𝗕𝘆𝘁𝗲 𝗖𝗼𝗱𝗲 𝘁𝗼 𝗠𝗮𝗰𝗵𝗶𝗻𝗱𝗲
کد بایت به کد ماشین، که یک سری از 1 و 0 است ، تبدیل می شود. این کد ماشین همان چیزی است که مغز کامپیوتر شما، CPU، مستقیماً می تواند آن را بفهمد.
5️⃣ 𝗥𝘂𝗻𝗻𝗶𝗻𝗴 𝘁𝗵𝗲 𝗣𝗿𝗼𝗴𝗿𝗮𝗺:
پس از آماده شدن کد ماشین، کامپیوتر شما از آن برای اجرای برنامه شما استفاده می کند. و شما آن را دارید! برنامه پایتون شما در حال اجراست.
@BIMining
1️⃣ 𝗪𝗿𝗶𝘁𝗶𝗻𝗴 𝘁𝗵𝗲 𝗖𝗼𝗱𝗲:
تایپ کد پایتون در متن ویرایشگر و ذخیره فایل با پسوند '.py'
2️⃣ 𝗣𝘆𝘁𝗵𝗼𝗻 𝗜𝗻𝘁𝗲𝗿𝗽𝗿𝗲𝘁𝗲𝗿:
اجرای برنامه پایتون وارسال آن به دو بخش ذیل:
𝗖𝗼𝗺𝗽𝗶𝗹𝗲𝗿:
این کد بایت در یک فایل '.pyc' ذخیره می شود و به برنامه ما کمک می کند دفعه بعد سریعتر اجرا شود.
𝗣𝘆𝘁𝗵𝗼𝗻 𝗩𝗶𝗿𝘁𝘂𝗮𝗹 𝗠𝗮:
وقتی با خطا مواجه می شود.
3️⃣ 𝗟𝗶𝗯𝗿𝗮𝗿𝘆 𝗠𝗼𝗱𝘂𝗹𝗲𝘀:
اگر برنامه ما از ماژول های کتابخانه ای استاندارد پایتون یا جای دیگر استفاده می کند، این ماژول ها نیز به کد بایت تبدیل می شوند. سپس PVM اجازه می دهد تا از ویژگی های این ماژول ها استفاده کند.
4️⃣ 𝗙𝗿𝗼𝗺 𝗕𝘆𝘁𝗲 𝗖𝗼𝗱𝗲 𝘁𝗼 𝗠𝗮𝗰𝗵𝗶𝗻𝗱𝗲
کد بایت به کد ماشین، که یک سری از 1 و 0 است ، تبدیل می شود. این کد ماشین همان چیزی است که مغز کامپیوتر شما، CPU، مستقیماً می تواند آن را بفهمد.
5️⃣ 𝗥𝘂𝗻𝗻𝗶𝗻𝗴 𝘁𝗵𝗲 𝗣𝗿𝗼𝗴𝗿𝗮𝗺:
پس از آماده شدن کد ماشین، کامپیوتر شما از آن برای اجرای برنامه شما استفاده می کند. و شما آن را دارید! برنامه پایتون شما در حال اجراست.
@BIMining
👍12
✍️✍️راهنمای تصویری برای Bagging و Boosting در ML.
در یک خلاصه، یک گروه چندین مدل را برای ساخت یک مدل قدرتمندتر ترکیب می کند.این ضعف مدل های فردی را کاهش می دهد.
✍️گروه ها عمدتاً با استفاده از دو استراتژی مختلف ساخته می شوند:
1) کوله بری(Bagging)
2) تقویت(Boosting)
1) بسته بندی(Bagging):
- زیر مجموعه های مختلف داده را ایجاد می کند
- در هر زیر مجموعه یک مدل را آموزش می دهد
- همه پیش بینی ها را برای به دست آوردن پیش بینی نهایی جمع می کند
-مورد استفاده توسط Random forest, ExtRa treesو غیره
2) تقویت(Boosting):
- یک فرآیند آموزشی تکراری است
- مدل بعدی تمرکز بیشتری بر روی نمونه های طبقه بندی اشتباه مدل قبلی دارد.
- پیش بینی نهایی ترکیب وزنی از همه پیش بینی ها است.
- توسط XGBoost، AdaBoost و غیره استفاده می شود.
@BIMining
در یک خلاصه، یک گروه چندین مدل را برای ساخت یک مدل قدرتمندتر ترکیب می کند.این ضعف مدل های فردی را کاهش می دهد.
✍️گروه ها عمدتاً با استفاده از دو استراتژی مختلف ساخته می شوند:
1) کوله بری(Bagging)
2) تقویت(Boosting)
1) بسته بندی(Bagging):
- زیر مجموعه های مختلف داده را ایجاد می کند
- در هر زیر مجموعه یک مدل را آموزش می دهد
- همه پیش بینی ها را برای به دست آوردن پیش بینی نهایی جمع می کند
-مورد استفاده توسط Random forest, ExtRa treesو غیره
2) تقویت(Boosting):
- یک فرآیند آموزشی تکراری است
- مدل بعدی تمرکز بیشتری بر روی نمونه های طبقه بندی اشتباه مدل قبلی دارد.
- پیش بینی نهایی ترکیب وزنی از همه پیش بینی ها است.
- توسط XGBoost، AdaBoost و غیره استفاده می شود.
@BIMining
👍5❤1
✍️✍️تحلیل چرخه عمر (Life Cycle) گارتنر در سال 2023 در حوزه هوش مصنوعی
✍️نویسنده و تحلیلگر: دکتر محمد عالیشاهی ; دکترای هوش مصنوعی دانشگاه تهران و معاونت هوش تجاری و علم داده شرکت بهسازان ملت
✍️این مقاله به تحلیل و بررسی نوآوریها و تکنیکهای مرتبط با هوش مصنوعی و تاثیرات تحولآفرین آنها میپردازد. گارتنر، یک سازمان تحقیقاتی است که در گزارش خود در سال 2023، اهمیت و برتری نوآوریها و تکنیکهایی که تفاوت قابل توجهی در بهرهوری و امکانات نظامی به همراه دارند و همچنین محدودیتها و خطرات سامانههای ناقص را برطرف میکنند را مورد بررسی قرار میدهد. استراتژیست های هوش مصنوعی باید توجه کنند که کدام یک از این نوآوریها ارزش بیشتری برای سرمایهگذاری دارند.
دو نوع نوآوری GenAI در حال حاضر در صدر بحثها در مورد هوش مصنوعی قرار دارند. استفاده از سیستمهایی مانند ChatGPT باعث افزایش بهرهوری برای توسعه دهندگان دانش و فناوری شده است .
متن کامل مقاله در کانال @BIMining درج شده است.
@BIMining
✍️نویسنده و تحلیلگر: دکتر محمد عالیشاهی ; دکترای هوش مصنوعی دانشگاه تهران و معاونت هوش تجاری و علم داده شرکت بهسازان ملت
✍️این مقاله به تحلیل و بررسی نوآوریها و تکنیکهای مرتبط با هوش مصنوعی و تاثیرات تحولآفرین آنها میپردازد. گارتنر، یک سازمان تحقیقاتی است که در گزارش خود در سال 2023، اهمیت و برتری نوآوریها و تکنیکهایی که تفاوت قابل توجهی در بهرهوری و امکانات نظامی به همراه دارند و همچنین محدودیتها و خطرات سامانههای ناقص را برطرف میکنند را مورد بررسی قرار میدهد. استراتژیست های هوش مصنوعی باید توجه کنند که کدام یک از این نوآوریها ارزش بیشتری برای سرمایهگذاری دارند.
دو نوع نوآوری GenAI در حال حاضر در صدر بحثها در مورد هوش مصنوعی قرار دارند. استفاده از سیستمهایی مانند ChatGPT باعث افزایش بهرهوری برای توسعه دهندگان دانش و فناوری شده است .
متن کامل مقاله در کانال @BIMining درج شده است.
@BIMining
👍5
تحلیل چرخه عمر.pdf
171.7 KB
متن کامل مقاله :
تحلیل چرخه عمر (Life Cycle) گارتنر در سال 2023 در حوزه هوش مصنوعی
نویسنده و تحلیلگر: دکتر محمد عالیشاهی ; دکترای هوش مصنوعی دانشگاه تهران و معاونت هوش تجاری و علم داده شرکت بهسازان ملت
@BIMining
تحلیل چرخه عمر (Life Cycle) گارتنر در سال 2023 در حوزه هوش مصنوعی
نویسنده و تحلیلگر: دکتر محمد عالیشاهی ; دکترای هوش مصنوعی دانشگاه تهران و معاونت هوش تجاری و علم داده شرکت بهسازان ملت
@BIMining
👍9❤2👏2
مفاهیم مهم و جدید حوزه هوش مصنوعی که حتما باید بدانید.
Transfer Learning
Fine Tuning
Multitask Leraning
Federated Learning
@BIMining
Transfer Learning
Fine Tuning
Multitask Leraning
Federated Learning
@BIMining
👍13❤4
✅ برگزاری مجموعه برنامه تخصصی هوش مصنوعی از قاب رسانی ملی (تلویزیون)
در این برنامه با محور ارایه اخرین دستاوردها و محصولات موفق در زمینه هوش مصنوعی توسط اشخاص و شرکت ها و سازمانها و ... بر روی آنتن خواهد رفت .
جهت اطلاعات تکمیلی و همکاری و حضور در برنامه با ما در تماس باشید...
@BIMining
محورهای برنامه و اطلاعات تکمیلی بزودی اطلاع رسانی خواهد شد.
با سپاس
محمد عالیشاهی
مدیر پروژه های هوش مصنوعی و علم داده
دکترای هوش مصنوعی دانشگاه تهران
طراح و مجری برنامه تخصصی هوش مصنوعی در رسانه ملی
@BIMining
در این برنامه با محور ارایه اخرین دستاوردها و محصولات موفق در زمینه هوش مصنوعی توسط اشخاص و شرکت ها و سازمانها و ... بر روی آنتن خواهد رفت .
جهت اطلاعات تکمیلی و همکاری و حضور در برنامه با ما در تماس باشید...
@BIMining
محورهای برنامه و اطلاعات تکمیلی بزودی اطلاع رسانی خواهد شد.
با سپاس
محمد عالیشاهی
مدیر پروژه های هوش مصنوعی و علم داده
دکترای هوش مصنوعی دانشگاه تهران
طراح و مجری برنامه تخصصی هوش مصنوعی در رسانه ملی
@BIMining
👏9👍4❤2
مهندسی و علم داده
✅ برگزاری مجموعه برنامه تخصصی هوش مصنوعی از قاب رسانی ملی (تلویزیون) در این برنامه با محور ارایه اخرین دستاوردها و محصولات موفق در زمینه هوش مصنوعی توسط اشخاص و شرکت ها و سازمانها و ... بر روی آنتن خواهد رفت . جهت اطلاعات تکمیلی و همکاری و حضور در برنامه…
✍️ شماره معکوس جهت شروع برنامه هوش مصنوعی در رسانه ملی...
کلیه شرکتها و اشخاص حقیقی و حقوقی و سازمانهای دولتی و خصوصی که علاقمند در مشارکت این برنامه هستند میتوانند اعلام آمادگی فرمایند.
محور های این برنامه مبتنی بر محصولات هوش مصنوعی در سطح کشور است و بهترین فرصت برای دیده شدن توانمندی ها و ارائه محصولات ارزشمند شما به مردم و علاقمندان است .
سپاس
محمد عالیشاهی
@BIMining
کلیه شرکتها و اشخاص حقیقی و حقوقی و سازمانهای دولتی و خصوصی که علاقمند در مشارکت این برنامه هستند میتوانند اعلام آمادگی فرمایند.
محور های این برنامه مبتنی بر محصولات هوش مصنوعی در سطح کشور است و بهترین فرصت برای دیده شدن توانمندی ها و ارائه محصولات ارزشمند شما به مردم و علاقمندان است .
سپاس
محمد عالیشاهی
@BIMining
👏4❤2
انبار داده.pdf
678.4 KB
✍️مقایسه پلتفرم و معماری انبار داده ، دریاچه داده و دیتالیک هاوس
با توجه به محدودیت های انبار داده و مشکلات عدیده دریاچه داده موجب گردید تا شرکای فناوری Databricks با ادغام راهحلهای خود با Databricks، امکانات کاملی برای ETL، نگهداری داده، هوش تجاری، یادگیری ماشین و حاکمیت داده را فراهم کنند. این ترکیب تکنولوژی به مشتریان این امکان رامیدهد تا از قابلیتها و مقیاسپذیری پلتفرم Databricks Lakehouse بهرهبرداری نمایند و در عین حال به سرعت نوآوری کرده و برای به دست آوردن راهکارهای ارزشمند از داده استفاده کنند.
پلتفرم دیتالیک هاوس از سال 2021 توسط DataBricks ایجاد شده است و بنظر می آید با توجه به رشد روز افزون کاربرد هوش مصنوعی ، نیازمندی سازمانها و شرکتها به سمت این پلتفرم کاربردی بیشتر خواهد شد.
در این فایل تفاوت سه پلتفرم انبار داده و دریاچه داده و دیتالیک هاوس در حوزه های مختلف نشان داده شده است.
امیدوارم مفید باشد.😉
@BIMining
با توجه به محدودیت های انبار داده و مشکلات عدیده دریاچه داده موجب گردید تا شرکای فناوری Databricks با ادغام راهحلهای خود با Databricks، امکانات کاملی برای ETL، نگهداری داده، هوش تجاری، یادگیری ماشین و حاکمیت داده را فراهم کنند. این ترکیب تکنولوژی به مشتریان این امکان رامیدهد تا از قابلیتها و مقیاسپذیری پلتفرم Databricks Lakehouse بهرهبرداری نمایند و در عین حال به سرعت نوآوری کرده و برای به دست آوردن راهکارهای ارزشمند از داده استفاده کنند.
پلتفرم دیتالیک هاوس از سال 2021 توسط DataBricks ایجاد شده است و بنظر می آید با توجه به رشد روز افزون کاربرد هوش مصنوعی ، نیازمندی سازمانها و شرکتها به سمت این پلتفرم کاربردی بیشتر خواهد شد.
در این فایل تفاوت سه پلتفرم انبار داده و دریاچه داده و دیتالیک هاوس در حوزه های مختلف نشان داده شده است.
امیدوارم مفید باشد.😉
@BIMining
👍10❤2
Rise of the data lakehouse (2).pdf
10.2 MB
✍️ترجمه کتاب ظهور لیک هاوس داده
✍️این کتاب به جزئیات پیادهسازی پلتفرم لیکهاوس Databricks و بارکدهای مختلف آن، شامل مهندسی داده، انبار داده، جریان داده، علم داده و یادگیری ماشین، میپردازد.
اگر شما تازه وارد دنیای لیکهاوس شده باشید یا از قابلیتهای آن آشنایی داشته باشید، این کتاب برای هر کسی که میخواهد حداکثر استفاده را از استراتژی مدیریت داده خود ببرد، باید مطالعه شود.
✍️در ضمن چاپ این کتاب با همکاری یکی از بانکهای بزرگ کشور بهمراه یک موسسه انتشاراتی چاپ کتاب انجام خواهد شد.
امیدوارم مفید باشد.
محمد عالیشاهی
مدیر پروژه های هوش مصنوعی و پردازش زبان طبیعی
@BIMining
BIMining.ir
✍️این کتاب به جزئیات پیادهسازی پلتفرم لیکهاوس Databricks و بارکدهای مختلف آن، شامل مهندسی داده، انبار داده، جریان داده، علم داده و یادگیری ماشین، میپردازد.
اگر شما تازه وارد دنیای لیکهاوس شده باشید یا از قابلیتهای آن آشنایی داشته باشید، این کتاب برای هر کسی که میخواهد حداکثر استفاده را از استراتژی مدیریت داده خود ببرد، باید مطالعه شود.
✍️در ضمن چاپ این کتاب با همکاری یکی از بانکهای بزرگ کشور بهمراه یک موسسه انتشاراتی چاپ کتاب انجام خواهد شد.
امیدوارم مفید باشد.
محمد عالیشاهی
مدیر پروژه های هوش مصنوعی و پردازش زبان طبیعی
@BIMining
BIMining.ir
👍7❤4👏2
✅مراحل برای Fine-tune کردن یک مدل زبانی بزرگ مانند Gemma، GPT-3 یا LaMDA :
✍️مرحله 1: انتخاب مدل زبانی مناسب:
-نیازهای خود را مشخص کنید: وظیفه ای که می خواهید مدل انجام دهد را مشخص کنید.
-مدل های مختلف را بررسی کنید: مدل های مختلفی مانند Gemma، GPT-3 و LaMDA وجود دارند که هر کدام مزایا و معایب خود را دارند.
-منابع خود را در نظر بگیرید: مدل های بزرگ زبانی به منابع محاسباتی زیادی نیاز دارند.
✍️مرحله 2: آماده سازی داده:
-جمع آوری داده: داده های مرتبط با وظیفه مورد نظر خود را جمع آوری کنید.
-پاکسازی داده: داده ها را از نظر نویز و خطاها پاکسازی کنید.
-برچسب گذاری داده: داده ها را بر اساس وظیفه مورد نظر خود برچسب گذاری کنید.
✍️مرحله 3: تنظیم مدل:
-انتخاب پارامترهای تنظیم: پارامترهایی مانند نرخ یادگیری، تعداد epoch ها و اندازه دسته را انتخاب کنید.
-انتخاب تابع از دست دادن: تابعی را برای ارزیابی عملکرد مدل انتخاب کنید.
-انتخاب الگوریتم بهینه سازی: الگوریتمی را برای بهینه سازی پارامترهای مدل انتخاب کنید.
✍️مرحله 4: آموزش مدل:
-مدل را آموزش دهید: مدل را با استفاده از داده های آماده شده آموزش دهید.
-پیشرفت مدل را رصد کنید: پیشرفت مدل را در طول آموزش رصد کنید.
-در صورت نیاز تنظیمات را تغییر دهید: در صورت نیاز پارامترها و تنظیمات را تغییر دهید.
✍️مرحله 5: ارزیابی مدل:
-مدل را ارزیابی کنید: عملکرد مدل را بر روی داده های تست ارزیابی کنید.
-مدل را با مدل های دیگر مقایسه کنید: عملکرد مدل را با مدل های دیگر مقایسه کنید.
-در صورت نیاز مدل را دوباره آموزش دهید: در صورت نیاز مدل را با داده های بیشتر یا تنظیمات متفاوت دوباره آموزش دهید.
@BIMining
✍️مرحله 1: انتخاب مدل زبانی مناسب:
-نیازهای خود را مشخص کنید: وظیفه ای که می خواهید مدل انجام دهد را مشخص کنید.
-مدل های مختلف را بررسی کنید: مدل های مختلفی مانند Gemma، GPT-3 و LaMDA وجود دارند که هر کدام مزایا و معایب خود را دارند.
-منابع خود را در نظر بگیرید: مدل های بزرگ زبانی به منابع محاسباتی زیادی نیاز دارند.
✍️مرحله 2: آماده سازی داده:
-جمع آوری داده: داده های مرتبط با وظیفه مورد نظر خود را جمع آوری کنید.
-پاکسازی داده: داده ها را از نظر نویز و خطاها پاکسازی کنید.
-برچسب گذاری داده: داده ها را بر اساس وظیفه مورد نظر خود برچسب گذاری کنید.
✍️مرحله 3: تنظیم مدل:
-انتخاب پارامترهای تنظیم: پارامترهایی مانند نرخ یادگیری، تعداد epoch ها و اندازه دسته را انتخاب کنید.
-انتخاب تابع از دست دادن: تابعی را برای ارزیابی عملکرد مدل انتخاب کنید.
-انتخاب الگوریتم بهینه سازی: الگوریتمی را برای بهینه سازی پارامترهای مدل انتخاب کنید.
✍️مرحله 4: آموزش مدل:
-مدل را آموزش دهید: مدل را با استفاده از داده های آماده شده آموزش دهید.
-پیشرفت مدل را رصد کنید: پیشرفت مدل را در طول آموزش رصد کنید.
-در صورت نیاز تنظیمات را تغییر دهید: در صورت نیاز پارامترها و تنظیمات را تغییر دهید.
✍️مرحله 5: ارزیابی مدل:
-مدل را ارزیابی کنید: عملکرد مدل را بر روی داده های تست ارزیابی کنید.
-مدل را با مدل های دیگر مقایسه کنید: عملکرد مدل را با مدل های دیگر مقایسه کنید.
-در صورت نیاز مدل را دوباره آموزش دهید: در صورت نیاز مدل را با داده های بیشتر یا تنظیمات متفاوت دوباره آموزش دهید.
@BIMining
👍9❤2
This media is not supported in your browser
VIEW IN TELEGRAM
5 کاربرد خیلی مهم Apache Kafka :
آپاچی کافکا یک پلت فرم استریم توزیع شده منبع باز است که توان عملیاتی بالا، مقیاس پذیری، تحمل خطا و دوام آن را برای برنامه های داده بلادرنگ ایده آل می کند.
𝗗𝗮𝘁𝗮 𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴
پردازش و تجزیه و تحلیل سریع داده ها را در حین تولید امکان پذیر می کند.
𝗠𝗲𝘀𝘀𝗮𝗴𝗲 𝗾𝘂𝗲𝘂𝗶𝗻𝗴
کافکا توزیع پیام کارآمد را بدون گلوگاه تسهیل می کند. این امر کافکا را برای معماریهای میکروسرویسهای پیچیده ایدهآل میکند، که از پردازش دادههای با توان بالا و تحمل خطا پشتیبانی میکند.
𝗟𝗼𝗴 𝗮𝗻𝗮𝗹𝘆𝘀𝗶𝘀
پردازش متمرکز گزارشها از چندین منبع با استفاده از کافکا برای تجمیع گزارشها و تجزیه و تحلیل بلادرنگ امکانپذیر است.
𝗖𝗵𝗮𝗻𝗴𝗲 𝗱𝗮𝘁𝗮 𝗰𝗮𝗽𝘁𝘂𝗿
معماریهای دادههای مدرن اغلب به CDC از طریق ابزاری مانند کافکا نیاز دارند، زیرا سیستم را همگام نگه میدارد و عملکرد منبع را حفظ میکند.
سازگاری را تضمین می کند و برنامه های کاربردی رویداد محور را با داده های فعلی تسهیل می کند.
𝗘𝘃𝗲𝗻𝘁 𝘀𝗼𝘂𝗿𝗰𝗶𝗻𝗴
کافکا قابلیت حسابرسی، پخش مجدد رویدادها و سادگی ساخت سیستم پیچیده را دارد.
@BIMining
آپاچی کافکا یک پلت فرم استریم توزیع شده منبع باز است که توان عملیاتی بالا، مقیاس پذیری، تحمل خطا و دوام آن را برای برنامه های داده بلادرنگ ایده آل می کند.
𝗗𝗮𝘁𝗮 𝘀𝘁𝗿𝗲𝗮𝗺𝗶𝗻𝗴
پردازش و تجزیه و تحلیل سریع داده ها را در حین تولید امکان پذیر می کند.
𝗠𝗲𝘀𝘀𝗮𝗴𝗲 𝗾𝘂𝗲𝘂𝗶𝗻𝗴
کافکا توزیع پیام کارآمد را بدون گلوگاه تسهیل می کند. این امر کافکا را برای معماریهای میکروسرویسهای پیچیده ایدهآل میکند، که از پردازش دادههای با توان بالا و تحمل خطا پشتیبانی میکند.
𝗟𝗼𝗴 𝗮𝗻𝗮𝗹𝘆𝘀𝗶𝘀
پردازش متمرکز گزارشها از چندین منبع با استفاده از کافکا برای تجمیع گزارشها و تجزیه و تحلیل بلادرنگ امکانپذیر است.
𝗖𝗵𝗮𝗻𝗴𝗲 𝗱𝗮𝘁𝗮 𝗰𝗮𝗽𝘁𝘂𝗿
معماریهای دادههای مدرن اغلب به CDC از طریق ابزاری مانند کافکا نیاز دارند، زیرا سیستم را همگام نگه میدارد و عملکرد منبع را حفظ میکند.
سازگاری را تضمین می کند و برنامه های کاربردی رویداد محور را با داده های فعلی تسهیل می کند.
𝗘𝘃𝗲𝗻𝘁 𝘀𝗼𝘂𝗿𝗰𝗶𝗻𝗴
کافکا قابلیت حسابرسی، پخش مجدد رویدادها و سادگی ساخت سیستم پیچیده را دارد.
@BIMining
👍8❤1👏1
معرفی چند #افزونه #هوش_مصنوعی در گوگل کروم
1. Gemini for Google
🔗 لینک : https://lnkd.in/dvjvzJkm
معرفی افزونه Gemini for Google:
این افزونهی باحال، پاسخهای Gemini (هوش مصنوعی خفن گوگل) رو در کنار نتایج موتورهای جستجو مثل گوگل نمایش میده.
2. Sidebar AI(Google Gemini/Copilot/ChatGPT)
🔗 لینک : https://lnkd.in/dUbtP_NA
معرفی افزونه Sidebar AI:
گشت و گذار توی اینترنت با هوش مصنوعی جذابتر کن! با یه کلیک به هوش مصنوعی جمینای، چت جی پی تی و بقیهی هوش مصنوعی های باحال تو نوار کناری کروم دسترسی داشته باش و خیلی راحت تو همون صفحه ازشون کمک بگیر!
3. ChatGPT Sidebar & GPT-4 Vision Gemini
🔗 لینک : https://lnkd.in/dTcUkD4v
با کمک این افزونه در هر جای وب، پرواز کنید! ✈️
معرفی افزونه ChatGPT Sidebar:
فرض کن در حال خواندن یک مقاله هستی و ناگهان سوالی به ذهنتون خطور میکند؛ یا در حال نوشتن یک ایمیل مهم هستید و به دنبال کلمات مناسب میگردید.
ChatGPT Sidebar اینجاست تا به شما کمک کنه!
@BIMining
1. Gemini for Google
🔗 لینک : https://lnkd.in/dvjvzJkm
معرفی افزونه Gemini for Google:
این افزونهی باحال، پاسخهای Gemini (هوش مصنوعی خفن گوگل) رو در کنار نتایج موتورهای جستجو مثل گوگل نمایش میده.
2. Sidebar AI(Google Gemini/Copilot/ChatGPT)
🔗 لینک : https://lnkd.in/dUbtP_NA
معرفی افزونه Sidebar AI:
گشت و گذار توی اینترنت با هوش مصنوعی جذابتر کن! با یه کلیک به هوش مصنوعی جمینای، چت جی پی تی و بقیهی هوش مصنوعی های باحال تو نوار کناری کروم دسترسی داشته باش و خیلی راحت تو همون صفحه ازشون کمک بگیر!
3. ChatGPT Sidebar & GPT-4 Vision Gemini
🔗 لینک : https://lnkd.in/dTcUkD4v
با کمک این افزونه در هر جای وب، پرواز کنید! ✈️
معرفی افزونه ChatGPT Sidebar:
فرض کن در حال خواندن یک مقاله هستی و ناگهان سوالی به ذهنتون خطور میکند؛ یا در حال نوشتن یک ایمیل مهم هستید و به دنبال کلمات مناسب میگردید.
ChatGPT Sidebar اینجاست تا به شما کمک کنه!
@BIMining
lnkd.in
LinkedIn
This link will take you to a page that’s not on LinkedIn
❤6👍4