مهندسی و علم داده
4K subscribers
379 photos
174 videos
169 files
113 links
در مورد ادمین کانال :
- محمد عالیشاهی
- دکترای هوش مصنوعی دانشگاه تهران
-رئیس هیات مدیره شرکت فناوران هوش مصنوعی
- مدیر ارشد پروژه های هوش مصنوعی و علم داده
Download Telegram
رونمایی از پایگاه داده Oracle 23 AI :
✍️یکی از مهمترین ویژگی که آقای لری الیسون مدیرعامل کمپانی اوراکل در مورد این پایگاه داده جدید به آن اشاره کرد جستجوی برداری هوش مصنوعی (AI Vector Search) است که در این پایگاه داده رونمایی شده است این قابلیت به شما امکان می‌دهد تا با استفاده از الگوهای مشابه بجای کلیدواژه‌های دقیق، به داده‌ها دسترسی پیدا کنید. این امر می‌تواند برای یافتن روابط پنهان در داده‌ها و تجزیه و تحلیل‌های پیچیده‌تر مفید باشد.
در این روش، به جای اینکه به دنبال تطابق کلمات کلیدی باشید، می‌توانید به دنبال الگوهای مشابه در بردارها باشید. این امر می‌تواند برای یافتن نتایج مرتبط‌تر، به خصوص زمانی که به دنبال مفاهیم پیچیده یا ظریف هستید، مفید باشد.
کاربردها :
✍️جستجوی معنایی: یافتن اسناد یا وب‌سایت‌هایی که با یک موضوع یا ایده خاص مرتبط هستند، حتی اگر کلمات کلیدی دقیقی را در عنوان یا محتوای خود نداشته باشند.
✍️توصیه محتوا: پیشنهاد فیلم‌ها، موسیقی، کتاب‌ها یا محصولات دیگر بر اساس علایق کاربر.
✍️تجزیه و تحلیل احساسات: تعیین اینکه یک متن یا سخنرانی چه احساسی را (مثبت، منفی، خنثی) منتقل می‌کند.
@BIMining
👍175👏1
This media is not supported in your browser
VIEW IN TELEGRAM
مقایسه Data Warehouse و Data Lake و Date lakehouse بصورت شماتیک

@BIMining
👍93
استخدام مهندس داده با شرایط ذیل در یک شرکت معتبر بانکی با شرایط پرداخت حقوق و مزایای مناسب و عالی :

@BIMining

1- مسلط به ابزار دیتابیس Click House
2-آشنایی با ابزار Apache Redis
3-آشنا با اکوسیستم های بیگ دیتا و NO SQL مانند Hadoop و Hive و SPARK SQL

✍️حداقل داشتن مدرک کارشناسی در رشته مهندسی کامپیوتر،علوم کامپیوتر یا مهندسی صنایع و رشته های مرتبط
✍️درصورت تمایل به همکاری رزومه خود را به ایمیل ذیل ارسال نمائید:
aalishahi.m@ut.ac.ir
👍14
روند توسعه و تکامل اکوسیستم های کلان داده از 20 سال پیش تاکنون در یک نگاه

@BIMining
👍7
کاربرد کتابخانه های پایتون


@BIMining
👍14👌31
This media is not supported in your browser
VIEW IN TELEGRAM
مقایسه دو روش پردازش داده، یعنی "پردازش دسته‌ای" (Batch Processing) و "پردازش جریانی" (Stream Processing) :

1. جمع‌آوری داده‌ها:
• پردازش دسته‌ای: داده‌ها را در طول زمان جمع‌آوری می‌کند.
• پردازش جریانی: داده‌ها را به محض ورود پردازش می‌کند.
2. مدیریت داده‌ها:
• پردازش دسته‌ای: به پردازش دسته‌های بزرگ داده می‌پردازد.
• پردازش جریانی: رکوردهای فردی یا میکرو دسته‌ها را مدیریت می‌کند.
3. پردازش داده:
• پردازش دسته‌ای: بر روی تمامی یا اکثر داده‌ها پردازش انجام می‌دهد.
• پردازش جریانی: بر روی داده‌ها در یک پنجره متحرک یا داده‌های اخیر پردازش می‌کند.
4. عملکرد:
• پردازش دسته‌ای: تأخیر بین دقیقه تا ساعت دارد.
• پردازش جریانی: تأخیر بین ثانیه تا میلی‌ثانیه دارد.
5. هدف:
• پردازش دسته‌ای: برای حجم‌های بزرگ داده که زمان حساس نیستند، طراحی شده است.
• پردازش جریانی: برای داده‌های حساس به زمان که نیاز به نتایج فوری دارند، استفاده می‌شود.


@BIMining
👍103
بهترین ابزارهای Data Science بدون کدنویسی:
✍️ابزار Gigasheet:
- ابزاری بدون کد مبتنی بر مرورگر برای تجزیه و تحلیل داده‌ها در مقیاس بزرگ.
- از هوش مصنوعی برای انجام تجزیه و تحلیل داده‌ها استفاده می‌کند.
- شبیه ترکیبی از Excel و Pandas بدون محدودیت‌های مقیاس.
- تجزیه و تحلیل تا ۱ میلیارد رکورد
✍️ابزار Mito:
- ایجاد یک رابط صفحه‌گسترده در Jupyter Notebook.
- از هوش مصنوعی Mito برای انجام تجزیه و تحلیل داده‌ها استفاده می‌کند.
- به‌طور خودکار کد پایتون برای هر تجزیه و تحلیل تولید می‌کند.
✍️ابزار PivotTableJS
- ایجاد جداول محوری، تجمیع‌ها و نمودارها
✍️ ابزار Drawdata
- ایجاد هر مجموعه داده پراکنده ۲ بعدی با کشیدن ماوس.
✍️ابزار PyGWalker
- تجزیه و تحلیل یک DataFrame همانند Tableau.
✍️ابزار Visual Python
- تولیدکننده کد پایتون مبتنی بر GUI.
✍️ ابزار Tensorflow Playgroun
- تغییر داده‌ها، معماری مدل، هایپرپارامترها و غیره با کلیک بر روی دکمه‌ها.
✍️ابزار ydata-profilingا
- اطلاعاتی درباره مقادیر گمشده، آمار داده‌ها، همبستگی، تعاملات داده را پوشش می‌دهد.
@BIMining
👍101
سخنرانی اینجانب در دانشگاه تربیت مدرس با موضوع کاربرد هوش مصنوعی در صنعت بانکی ایران
زمان: سه شنبه مورخ 1403/07/17
ساعت ۱۳-۱۵
لینک مجازی :https://vclass4.modares.ac.ir/rooms/xor-jsf-qhf-gh0/join
@BIMining
👍74
PRESENTAION_AI.pdf
2.2 MB
لینک سخنرانی با موضوع "کاربرد هوش مصنوعی در صنعت بانکی ایران" در دانشگاه تربیت مدرس.
بهمراه فایل ارائه.
امیدوارم مفید باشه.

https://vclass4.modares.ac.ir/playback/presentation/2.3/4ce64d2c1848a76c81bdad8e54c630dda276cf6f-1728380537414




@BIMining
14👍4🙏1
شش سبک معماری API و زمان استفاده از هر کدام:
1.SOAP مناسب برای برنامه‌های سازمانی که به پروتکل استاندارد و امن نیاز دارند. ویژگی‌های قوی امنیتی و نوع‌دهی آن را برای محیط‌های پیچیده و تنظیم‌شده ایده‌آل می‌کند.
2.RESTful بر سادگی و مقیاس‌پذیری تمرکز دارد و برای خدمات وب، به ویژه برنامه‌های عمومی، مناسب است. طراحی بدون حالت و مبتنی بر منبع آن، ارتباط مؤثری بین مشتری و سرور امکان‌پذیر می‌سازد.
3.GraphQLبهترین گزینه برای سناریوهایی که نیاز به بازیابی داده‌های انعطاف‌پذیر دارند. مشتریان می‌توانند داده‌های دقیق مورد نیاز خود را مشخص کنند و از بارگیری بیش از حد یا کم‌تر از حد جلوگیری کنند.
4.gRPCبرای ارتباط با عملکرد بالا و تأخیر کم طراحی شده است و معمولاً در معماری‌های میکروسرویس‌ها استفاده می‌شود. این پروتکل از سریال‌سازی مؤثر و استریم دوطرفه پشتیبانی می‌کند.
5.WebSockets برای ارتباطات بلادرنگ و دوطرفه در برنامه‌هایی مانند چت و بازی‌های آنلاین عالی است. اتصالات پایدار به‌روزرسانی‌های فوری داده‌ها را ممکن می‌سازد.
6.Webhooks در سیستم‌های مبتنی بر رویداد که برای اعلان‌ها و اقدامات خودکار ایده‌آل است.


@BIMining
👍52
درک ساده‌ی ETL، ELT و EtLT
فرایندهای ETL، ELT و EtLT برای جمع‌آوری، پردازش و ذخیره‌سازی داده‌ها هستند. این روش‌ها برای آماده‌سازی داده‌ها برای تحلیل و تصمیم‌گیری استفاده می‌شوند.

روش ETL (Extract, Transform, Load) در این روش، ابتدا داده‌ها از منابع مختلف استخراج می‌شوند، سپس تبدیل شده و در نهایت به یک انبار داده بارگذاری می‌شوند. به عبارت ساده، داده‌ها قبل از ذخیره‌سازی پردازش کامل می‌شوند.
روش ELT (Extract, Load, Transform) برعکس ETL، در این روش داده‌ها ابتدا به صورت خام به انبار داده منتقل شده و سپس در آنجا پردازش می‌شوند. این روش انعطاف‌پذیری بیشتری برای تغییرات آینده دارد.
روشEtLT (Extract, (small transform), Load, Transform) این روش ترکیبی از ETL و ELT است. بخشی از پردازش داده‌ها قبل از بارگذاری و بخشی دیگر بعد از آن انجام می‌شود.

@BIMining
👍19
حضور دکتر عالیشاهی در برنامه پرسشگر شبکه آموزش .
شروع برنامه ساعت ۱۰ شب پخش زنده

لینک برنامه ضبط شده:
https://telewebion.com/episode/0xff9b5bc
👍122👌1
ما دراینجا به بررسی عمیق نحوه مدیریت میلیون‌ها پیام در ثانیه توسط Kafka می پردازیم. این معماری شامل اجزای اصلی ذیل است:
1. لایه شبکه
پذیرنده Threade: مدیریت اتصالات ورودی
پردازشگر Threade: مدیریت درخواست‌های مشتری به‌طور مؤثر
کانال درخواست: مسیر ارتباطی مرکزی

2. لایه API
بخش Threade API : پردازش عملیات مشتری
درخواست Purgatory: مدیریت درخواست‌های معلق
اطلاعات رپلیکیشن: پیگیری سازگاری داده‌ها

3.زیرسیستم لاگ
لاگ‌های پارتیشن: محل واقعی داده‌ها
مدیر لاگ: هماهنگی عملیات لاگ
ادغام سیستم فایل: تضمین دوام

4. زیرسیستم رپلیکیشن:
مدیر رپلیکا: هماهنگی کپی‌های داده
رپلیکیشن Threade: مدیریت همگام‌سازی داده
کنترل‌کننده رپلیکیشن: حفظ سازگاری

@BIMining
👍2
مقایسه روش‌های HTTP GET و POST در ۱۰ ثانیه:

فراخوانیGET و POST از روش‌های پرکاربرد پروتکل HTTP هستند که هر یک اهداف خاصی دارند.GET عمدتاً برای دریافت داده‌ها از سرور استفاده می‌شود. در این روش، پارامترها به صورت رشته‌های کوئری در URL گنجانده می‌شوند، که برای بازیابی داده بدون تأثیر بر وضعیت سرور مناسب است.

ویژگی‌هایGET
۱. داده‌های قابل مشاهده: پارامترها در URL قابل مشاهده‌اند و برای اطلاعات حساس مناسب نیستند.
۲. ایدمپوتنت: تکرار درخواست GET وضعیت سرور را تغییر نمی‌دهد.
۳. قابلیت کش: مرورگرها می‌توانند درخواست‌های GET را کش کنند.
۴. محدودیت طول: URLها محدودیت اندازه دارند.POST برای ارسال داده به سرور طراحی شده و داده‌ها در بدنه درخواست قرار دارند.

ویژگی‌های POST
۱. داده‌های پنهان: پارامترها در بدنه درخواست قرار دارند و امنیت بیشتری فراهم می‌کنند.
۲. غیر ایدمپوتنت: هر درخواست POST ممکن است منابع را ایجاد یا تغییر دهد.
۳. غیر قابل کش به طور پیش‌فرض: پاسخ‌های POST نیاز به پیکربندی صریح دارند.
۴. بارهای انعطاف‌پذیر: POST از بارهای بزرگ‌تر و انواع محتوای مختلف مانند JSON و XML پشتیبانی می‌کند.
@BIMining
👍2
با افزایش مدل‌های زبانی بزرگ (LLMs)، فاین‌تیونینگ برای وظایف خاص بیش از پیش اهمیت یافته است :
روش LoRA (Low-Rank Adaptation) :با افزودن ماتریس‌های تطبیق کم‌رتبه، تعداد پارامترهای قابل آموزش را کاهش می‌دهد و فاین‌تیونینگ را سریع‌تر و بهینه‌تر می‌کند.
روش LoRA-FA : (LoRA with Feature Augmentation) این روش LoRA را با تقویت ویژگی‌های خارجی ترکیب می‌کند و ویژگی‌های خاص وظیفه را به مدل اضافه می‌کند تا عملکرد را با حداقل بار اضافی افزایش دهد.
روش Vera: (Virtual Embedding Regularization Adaptation) Vera به تنظیم نمایه‌های مدل در حین فاین‌تیونینگ کمک می‌کند و از بیش‌برازش جلوگیری کرده و تعمیم‌پذیری را در حوزه‌های مختلف بهبود می‌بخشد.
روش Delta LoRA :این روش به‌روزرسانی فقط لایه‌های مهم‌تر را هدف قرار می‌دهد و هزینه‌های محاسباتی را کاهش می‌دهد در حالی که اثربخشی فاین‌تیونینگ حفظ می‌شود.
روش : Prefix Tuning به‌جای تغییر وزن‌های مدل، این تکنیک توکن‌های پیشوند خاص وظیفه را یاد می‌گیرد که خروجی مدل را هدایت می‌کند و امکان سازگاری مؤثر با وظایف جدید را فراهم می‌آورد.

@BIMining
👍72
تفاوت APIو SDK
روش API ها (رابط‌های برنامه‌نویسی کاربردی) و SDKها (مجموعه‌های توسعه نرم‌افزار) ابزارهای ضروری برای توسعه نرم‌افزار هستند، اما اهداف متفاوتی دارند:
شرح 𝗔𝗣𝗜
تعریف :API مجموعه‌ای از قوانین و پروتکل‌هاست که به برنامه‌های نرم‌افزاری و خدمات مختلف اجازه می‌دهد با یکدیگر ارتباط برقرار کرده و داده‌ها را به اشتراک بگذارند.
1- رابط استانداردی برای تعامل اجزا تعریف می‌کند.
2- امکان یکپارچه‌سازی بین نرم‌افزارهای نوشته‌شده در زبان‌ها و چارچوب‌های مختلف را فراهم می‌آورد.
3-معمولاً نقاط انتهایی برای درخواست و ارائه داده‌ها فراهم می‌کند.

شرح 𝗦𝗗𝗞
تعریف :SDK یک بسته جامع از ابزارها، کتابخانه‌ها، کد نمونه و مستندات است که ساخت برنامه‌ها را بر روی یک پلتفرم خاص ساده‌تر می‌کند.
1- انتزاعات سطح بالاتری را برای تسهیل توسعه ارائه می‌دهد.
2- برای یکپارچگی با پلتفرم زیرین طراحی شده است.
3- به قابلیت‌ها و ویژگی‌های خاص پلتفرم دسترسی می‌دهد که پیاده‌سازی آن‌ها از صفر ممکن است پیچیده باشد.

@BIMining
👍64
هایپرپارامترهای یادگیری ماشین
هایپرپارامترها پارامترهایی در مدل‌های یادگیری ماشین هستند که از داده‌های آموزشی یاد گرفته نمی‌شوند و قبل از شروع فرآیند یادگیری تنظیم می‌شوند. این پارامترها رفتار کلی، ساختار و عملکرد الگوریتم یادگیری ماشین را کنترل می‌کنند
- رگرسیون خطی و لجستیک: کنترل پیچیدگی با منظم‌سازی (مجازات L1/L2)، انتخاب حل‌کننده‌های بهینه‌سازی و تنظیم وزن‌های کلاس.
- بیز ساده: استفاده از هموارسازی (آلفا) ، کنترل پیش‌فرض‌ها و باینری کردن داده‌ها.
- درخت تصمیم و جنگل تصادفی: مدیریت رشد درخت با معیار، عمق حداکثر و آستانه‌های تقسیم. جنگل تصادفی پارامترهای خاص خود را اضافه می‌کند.
- درختان تقویت‌شده گرادیان: ترکیب پارامترهای خاص درخت با نرخ یادگیری.
- تحلیل مولفه‌های اصلی (PCA): تعریف تعداد مولفه‌ها و انتخاب روش‌های محاسباتی.
-نزدیک‌ترین همسایگان (KNN): K- تنظیم تعداد همسایگان و تأثیر آن‌ها بر پیش‌بینی‌ها.
- اK-Meansتعیین تعداد خوشه‌ها، روش اولیه‌سازی و محدودیت‌های تکرار.
- شبکه‌های عصبی متراکم: تنظیم دقیق با اندازه لایه‌های پنهان، توابع فعال‌سازی، Dropout برای منظم‌سازی و تنظیمات خاص آموزش.
@BIMining
👍15
برگزاری وبینار معماری کلاستر کلیک هاوس در سازمانهای بزرگ

-تحول عظیم در سرعت پردازش و محاسبات توزیع شده و موازی داده های ساخت یافته و نیمه ساخت یافته
- ارائه تجربه موفق در پیاده سازی این معماری در یکی از بانکهای بزرگ کشور


جزئیات و ثبت نام رایگان:

https://evnd.co/Gqr6k


@BIMining
👍9
در اینجا مراحل ساده و مستقیم برای کار با Git را بررسی می‌کنیم:
1. وضعیت اولیه
- شما یک مخزن (Repository) از راه دور بر روی یک سرور دارید که شامل فایل README.md است.
- در ماشین محلی شما هنوز هیچ فایل پروژه‌ای وجود ندارد.
2. دستور git clone <repository>
- با این دستور، کل مخزن از راه دورشامل فایل (README.md) به ماشین محلی شما کپی می‌شود.
- یک مخزن محلی نیز ایجاد می‌شود که به مخزن راه دور متصل است.
3. ایجاد یک فایل جدید
- شما یک فایل جدید به نام newfile.txt در دایرکتوری کاری محلی خود ایجاد می‌کنید.
- در این مرحله، این فایل توسط Git پیگیری نمی‌شود (untracked).
4. دستور git add .
- با اجرای این دستور، تمامی تغییرات (شامل فایل جدید) در دایرکتوری کاری آماده می‌شوند.
- این تغییرات برای درج در کمیت بعدی (commit) آماده می‌شوند.
5. دستور git commit -m "<message>"
- این دستور یک عکس‌برداری از تغییرات آماده شده می‌گیرد.
- یک کمیت جدید در مخزن محلی شما ایجاد می‌شود که شامل تغییرات و پیام کمیت شما است.
6. دستور git push
- با استفاده از این دستور، تمامی کمیت‌های محلی شما به مخزن راه دور بارگذاری می‌شوند.
@BIMining
👍5👌21