مهندسی و علم داده
3.98K subscribers
388 photos
174 videos
169 files
112 links
در مورد ادمین کانال :
- محمد عالیشاهی
- دکترای هوش مصنوعی دانشگاه تهران
-نائب رئیس هیات مدیره شرکت فناوران هوش مصنوعی
- مدیر ارشد پروژه های هوش مصنوعی و علم داده
-دبیر شورای حکمرانی داده انجمن هوش مصنوعی ایران
Download Telegram
درک ساده‌ی ETL، ELT و EtLT
فرایندهای ETL، ELT و EtLT برای جمع‌آوری، پردازش و ذخیره‌سازی داده‌ها هستند. این روش‌ها برای آماده‌سازی داده‌ها برای تحلیل و تصمیم‌گیری استفاده می‌شوند.

روش ETL (Extract, Transform, Load) در این روش، ابتدا داده‌ها از منابع مختلف استخراج می‌شوند، سپس تبدیل شده و در نهایت به یک انبار داده بارگذاری می‌شوند. به عبارت ساده، داده‌ها قبل از ذخیره‌سازی پردازش کامل می‌شوند.
روش ELT (Extract, Load, Transform) برعکس ETL، در این روش داده‌ها ابتدا به صورت خام به انبار داده منتقل شده و سپس در آنجا پردازش می‌شوند. این روش انعطاف‌پذیری بیشتری برای تغییرات آینده دارد.
روشEtLT (Extract, (small transform), Load, Transform) این روش ترکیبی از ETL و ELT است. بخشی از پردازش داده‌ها قبل از بارگذاری و بخشی دیگر بعد از آن انجام می‌شود.

@BIMining
👍19
حضور دکتر عالیشاهی در برنامه پرسشگر شبکه آموزش .
شروع برنامه ساعت ۱۰ شب پخش زنده

لینک برنامه ضبط شده:
https://telewebion.com/episode/0xff9b5bc
👍122👌1
ما دراینجا به بررسی عمیق نحوه مدیریت میلیون‌ها پیام در ثانیه توسط Kafka می پردازیم. این معماری شامل اجزای اصلی ذیل است:
1. لایه شبکه
پذیرنده Threade: مدیریت اتصالات ورودی
پردازشگر Threade: مدیریت درخواست‌های مشتری به‌طور مؤثر
کانال درخواست: مسیر ارتباطی مرکزی

2. لایه API
بخش Threade API : پردازش عملیات مشتری
درخواست Purgatory: مدیریت درخواست‌های معلق
اطلاعات رپلیکیشن: پیگیری سازگاری داده‌ها

3.زیرسیستم لاگ
لاگ‌های پارتیشن: محل واقعی داده‌ها
مدیر لاگ: هماهنگی عملیات لاگ
ادغام سیستم فایل: تضمین دوام

4. زیرسیستم رپلیکیشن:
مدیر رپلیکا: هماهنگی کپی‌های داده
رپلیکیشن Threade: مدیریت همگام‌سازی داده
کنترل‌کننده رپلیکیشن: حفظ سازگاری

@BIMining
👍21
مقایسه روش‌های HTTP GET و POST در ۱۰ ثانیه:

فراخوانیGET و POST از روش‌های پرکاربرد پروتکل HTTP هستند که هر یک اهداف خاصی دارند.GET عمدتاً برای دریافت داده‌ها از سرور استفاده می‌شود. در این روش، پارامترها به صورت رشته‌های کوئری در URL گنجانده می‌شوند، که برای بازیابی داده بدون تأثیر بر وضعیت سرور مناسب است.

ویژگی‌هایGET
۱. داده‌های قابل مشاهده: پارامترها در URL قابل مشاهده‌اند و برای اطلاعات حساس مناسب نیستند.
۲. ایدمپوتنت: تکرار درخواست GET وضعیت سرور را تغییر نمی‌دهد.
۳. قابلیت کش: مرورگرها می‌توانند درخواست‌های GET را کش کنند.
۴. محدودیت طول: URLها محدودیت اندازه دارند.POST برای ارسال داده به سرور طراحی شده و داده‌ها در بدنه درخواست قرار دارند.

ویژگی‌های POST
۱. داده‌های پنهان: پارامترها در بدنه درخواست قرار دارند و امنیت بیشتری فراهم می‌کنند.
۲. غیر ایدمپوتنت: هر درخواست POST ممکن است منابع را ایجاد یا تغییر دهد.
۳. غیر قابل کش به طور پیش‌فرض: پاسخ‌های POST نیاز به پیکربندی صریح دارند.
۴. بارهای انعطاف‌پذیر: POST از بارهای بزرگ‌تر و انواع محتوای مختلف مانند JSON و XML پشتیبانی می‌کند.
@BIMining
👍2
با افزایش مدل‌های زبانی بزرگ (LLMs)، فاین‌تیونینگ برای وظایف خاص بیش از پیش اهمیت یافته است :
روش LoRA (Low-Rank Adaptation) :با افزودن ماتریس‌های تطبیق کم‌رتبه، تعداد پارامترهای قابل آموزش را کاهش می‌دهد و فاین‌تیونینگ را سریع‌تر و بهینه‌تر می‌کند.
روش LoRA-FA : (LoRA with Feature Augmentation) این روش LoRA را با تقویت ویژگی‌های خارجی ترکیب می‌کند و ویژگی‌های خاص وظیفه را به مدل اضافه می‌کند تا عملکرد را با حداقل بار اضافی افزایش دهد.
روش Vera: (Virtual Embedding Regularization Adaptation) Vera به تنظیم نمایه‌های مدل در حین فاین‌تیونینگ کمک می‌کند و از بیش‌برازش جلوگیری کرده و تعمیم‌پذیری را در حوزه‌های مختلف بهبود می‌بخشد.
روش Delta LoRA :این روش به‌روزرسانی فقط لایه‌های مهم‌تر را هدف قرار می‌دهد و هزینه‌های محاسباتی را کاهش می‌دهد در حالی که اثربخشی فاین‌تیونینگ حفظ می‌شود.
روش : Prefix Tuning به‌جای تغییر وزن‌های مدل، این تکنیک توکن‌های پیشوند خاص وظیفه را یاد می‌گیرد که خروجی مدل را هدایت می‌کند و امکان سازگاری مؤثر با وظایف جدید را فراهم می‌آورد.

@BIMining
👍73
تفاوت APIو SDK
روش API ها (رابط‌های برنامه‌نویسی کاربردی) و SDKها (مجموعه‌های توسعه نرم‌افزار) ابزارهای ضروری برای توسعه نرم‌افزار هستند، اما اهداف متفاوتی دارند:
شرح 𝗔𝗣𝗜
تعریف :API مجموعه‌ای از قوانین و پروتکل‌هاست که به برنامه‌های نرم‌افزاری و خدمات مختلف اجازه می‌دهد با یکدیگر ارتباط برقرار کرده و داده‌ها را به اشتراک بگذارند.
1- رابط استانداردی برای تعامل اجزا تعریف می‌کند.
2- امکان یکپارچه‌سازی بین نرم‌افزارهای نوشته‌شده در زبان‌ها و چارچوب‌های مختلف را فراهم می‌آورد.
3-معمولاً نقاط انتهایی برای درخواست و ارائه داده‌ها فراهم می‌کند.

شرح 𝗦𝗗𝗞
تعریف :SDK یک بسته جامع از ابزارها، کتابخانه‌ها، کد نمونه و مستندات است که ساخت برنامه‌ها را بر روی یک پلتفرم خاص ساده‌تر می‌کند.
1- انتزاعات سطح بالاتری را برای تسهیل توسعه ارائه می‌دهد.
2- برای یکپارچگی با پلتفرم زیرین طراحی شده است.
3- به قابلیت‌ها و ویژگی‌های خاص پلتفرم دسترسی می‌دهد که پیاده‌سازی آن‌ها از صفر ممکن است پیچیده باشد.

@BIMining
👍65
هایپرپارامترهای یادگیری ماشین
هایپرپارامترها پارامترهایی در مدل‌های یادگیری ماشین هستند که از داده‌های آموزشی یاد گرفته نمی‌شوند و قبل از شروع فرآیند یادگیری تنظیم می‌شوند. این پارامترها رفتار کلی، ساختار و عملکرد الگوریتم یادگیری ماشین را کنترل می‌کنند
- رگرسیون خطی و لجستیک: کنترل پیچیدگی با منظم‌سازی (مجازات L1/L2)، انتخاب حل‌کننده‌های بهینه‌سازی و تنظیم وزن‌های کلاس.
- بیز ساده: استفاده از هموارسازی (آلفا) ، کنترل پیش‌فرض‌ها و باینری کردن داده‌ها.
- درخت تصمیم و جنگل تصادفی: مدیریت رشد درخت با معیار، عمق حداکثر و آستانه‌های تقسیم. جنگل تصادفی پارامترهای خاص خود را اضافه می‌کند.
- درختان تقویت‌شده گرادیان: ترکیب پارامترهای خاص درخت با نرخ یادگیری.
- تحلیل مولفه‌های اصلی (PCA): تعریف تعداد مولفه‌ها و انتخاب روش‌های محاسباتی.
-نزدیک‌ترین همسایگان (KNN): K- تنظیم تعداد همسایگان و تأثیر آن‌ها بر پیش‌بینی‌ها.
- اK-Meansتعیین تعداد خوشه‌ها، روش اولیه‌سازی و محدودیت‌های تکرار.
- شبکه‌های عصبی متراکم: تنظیم دقیق با اندازه لایه‌های پنهان، توابع فعال‌سازی، Dropout برای منظم‌سازی و تنظیمات خاص آموزش.
@BIMining
👍15
برگزاری وبینار معماری کلاستر کلیک هاوس در سازمانهای بزرگ

-تحول عظیم در سرعت پردازش و محاسبات توزیع شده و موازی داده های ساخت یافته و نیمه ساخت یافته
- ارائه تجربه موفق در پیاده سازی این معماری در یکی از بانکهای بزرگ کشور


جزئیات و ثبت نام رایگان:

https://evnd.co/Gqr6k


@BIMining
👍9
در اینجا مراحل ساده و مستقیم برای کار با Git را بررسی می‌کنیم:
1. وضعیت اولیه
- شما یک مخزن (Repository) از راه دور بر روی یک سرور دارید که شامل فایل README.md است.
- در ماشین محلی شما هنوز هیچ فایل پروژه‌ای وجود ندارد.
2. دستور git clone <repository>
- با این دستور، کل مخزن از راه دورشامل فایل (README.md) به ماشین محلی شما کپی می‌شود.
- یک مخزن محلی نیز ایجاد می‌شود که به مخزن راه دور متصل است.
3. ایجاد یک فایل جدید
- شما یک فایل جدید به نام newfile.txt در دایرکتوری کاری محلی خود ایجاد می‌کنید.
- در این مرحله، این فایل توسط Git پیگیری نمی‌شود (untracked).
4. دستور git add .
- با اجرای این دستور، تمامی تغییرات (شامل فایل جدید) در دایرکتوری کاری آماده می‌شوند.
- این تغییرات برای درج در کمیت بعدی (commit) آماده می‌شوند.
5. دستور git commit -m "<message>"
- این دستور یک عکس‌برداری از تغییرات آماده شده می‌گیرد.
- یک کمیت جدید در مخزن محلی شما ایجاد می‌شود که شامل تغییرات و پیام کمیت شما است.
6. دستور git push
- با استفاده از این دستور، تمامی کمیت‌های محلی شما به مخزن راه دور بارگذاری می‌شوند.
@BIMining
👍6👌21
همایش کاربرد هوش مصنوعی در بازنگری هوشمندانه و روش های نوین فرآیندهای اقتصادی

@BIMining
2👍2
5 تکنیک برای بهینه‌سازی LLMها:
1) LoRA
- دو ماتریس کم‌رتبه، A و B، را به همراه ماتریس‌های وزن W که شامل پارامترهای قابل آموزش هستند، بروزرسانی کنید.
2) LoRA-FA
- در حالی که LoRA به طور قابل توجهی تعداد کل پارامترهای قابل آموزش را کاهش می‌دهد، هنوز هم نیاز به حافظه فعال بالا برای به‌روزرسانی وزن‌های کم‌رتبه دارد.
- LoRA-FA (FA مخفف Frozen-A) ماتریس A را قفل می‌کند و فقط ماتریس B را به‌روزرسانی می‌کند.

3) VeRA
- در LoRA، هر لایه یک جفت متفاوت از ماتریس‌های کم‌رتبه A و B دارد و هر دو ماتریس آموزش داده می‌شوند.
- اما در VeRA، ماتریس‌های A و B قفل شده، تصادفی و در تمام لایه‌های مدل مشترک هستند.
4) Delta-LoRA
- در اینجا، علاوه بر آموزش ماتریس‌های کم‌رتبه، ماتریس W نیز تنظیم می‌شود اما نه به روش سنتی.
- بلکه تفاوت (یا دلتا) بین حاصل‌ضرب ماتریس‌های کم‌رتبه A و B در دو مرحله آموزشی متوالی به W اضافه می‌شود.
5) LoRA+
- در LoRA، هر دو ماتریس A و B با همان نرخ یادگیری به‌روزرسانی می‌شوند.
- نویسندگان دریافتند که تنظیم نرخ یادگیری بالاتر برای ماتریس B منجر به همگرایی بهینه‌تر می‌شود.
👍81🙏1👌1
عملیات اصلی – بهینه‌سازی ساخت و شکل‌دهی مؤثر در پایتون

-دستور append(item)— افزودن یک عنصر به انتهای لیست.
-د remove(item) — حذف اولین مورد از یک مقدار خاص.

-د insert(index, item) — قرار دادن یک عنصر در موقعیت خاصی در لیست. → زمانی که ترتیب عناصر حیاتی است، کاربرد دارد.

-دpop([index]) — حذف و بازگشت یک عنصر با استفاده از اندیس آن. → معمولاً با append() در الگوریتم‌های مبتنی بر پشته همراه است.

-د count(item) — تعداد دفعاتی که یک مقدار در لیست ظاهر می‌شود را برمی‌گرداند.

-دindex(item[, start[, end]]) — اولین موقعیت یک مقدار را پیدا می‌کند. → ضروری برای پیاده‌سازی جستجو یا منطق اعتبارسنجی.

-د sort(key=None, reverse=False)— مرتب‌سازی عناصر در محل، با قوانین سفارشی اختیاری.

-د reverse() — ترتیب لیست را معکوس می‌کند. → معمولاً در مکانیزم‌های لغو یا ویژگی‌های بازگشت استفاده می‌شود.

-د copy() — یک کپی سطحی از لیست ایجاد می‌کند. → از تغییرات ناخواسته هنگام انتقال لیست‌ها بین توابع جلوگیری می‌کند.

-د clear() — لیست را به‌طور کامل خالی می‌کند. → ایده‌آل برای بازنشانی ذخیره‌سازی موقت یا
ساختارهای کش.
👏7👍21
سخنرانی در سمینار کاربرد و چالش های هوش مصنوعی در بازارهای مالی و بانکی
-ارائه آخرین اطلاعات از کاربردهای هوش مصنوعی و چالشهای آن در صنعت بانکی و مالی ایران و دنیا
- ارائه تجربه ۱۵ ساله در بیش از ۵۷ پروژه بزرگ در بانکهای ایران

@BIMining
👍2👌1
ویژگی‌های ACID چیست؟
ویژگی‌های ACID اساس سیستم‌های پردازش تراکنش قابل اعتماد را تشکیل می‌دهند و از یکپارچگی و سازگاری داده‌ها اطمینان حاصل می‌کنند. در اینجا توضیحات واضحی ارائه شده است:
1- اتمیک بودن (Atomicity)
تراکنش به عنوان یک واحد غیرقابل تقسیم در نظر گرفته می‌شود: یا همه مراحل موفقیت‌آمیز هستند یا هیچ‌کدام اعمال نمی‌شوند. اگر خطایی رخ دهد، سیستم تمام تغییرات را به حالت اولیه برمی‌گرداند و پایگاه داده بدون تغییر باقی می‌ماند.
-2-سازگاری (Consistency)
تراکنش‌ها اطمینان حاصل می‌کنند که قوانین و محدودیت‌های یکپارچگی داده‌ها در تمام اوقات حفظ شوند. به عنوان مثال، یک سیستم بانکی از برداشت‌هایی که منجر به موجودی منفی می‌شوند، جلوگیری می‌کند.
-3- جداسازی (Isolation)
هر تراکنش به‌طور مستقل اجرا می‌شود، حتی زمانی که چندین تراکنش به‌طور همزمان رخ می‌دهند. این امر از بروز تضادها جلوگیری می‌کند، مانند دو عملیاتی که سعی دارند همزمان یک حساب را تغییر دهند.
-4- دوام (Durability)
پس از تأیید، تغییرات دائمی هستند و حتی در صورت بروز خطا در سیستم، باقی می‌مانند.

@BIMining
👍51
در این وبینار، دکتر محمد عالیشاهی، متخصص برجسته حوزه هوش مصنوعی و داده با سابقه ارزشمند در صنعت بانکی، به معرفی کلیک‌هاوس (ClickHouse) به عنوان یکی از قدرتمندترین موتورهای پایگاه داده برای پردازش داده‌های بزرگ و تحلیل‌های بلادرنگ می‌پردازد.

لینک ثبت نام


@BIMining
لینک ویدئو :
http://www.aparat.com/nemoudar
http://youtube.com/@nemoudarbi
👍6
انبار داده (1980-2010): یک مخزن بزرگ و سازمان‌یافته که برای تحلیل بهینه‌سازی شده است، نه برای تراکنش‌ها. این مرکز فرماندهی هوش تجاری شماست - به دقت سازماندهی شده و بهینه‌سازی شده برای کوئری‌های پیچیده، اما نیاز به داده‌های ساختار یافته و طراحی طرح اولیه قابل توجهی دارد و می‌تواند بسیار پرهزینه باشد.

دریاچه داده (2010-2020): جایگزین انعطاف‌پذیر برای انبارهای داده. یک مخزن ذخیره‌سازی عظیم که داده‌های خام و بدون پردازش را در قالب خود ذخیره می‌کند تا زمانی که نیاز باشد. مناسب برای سازمان‌هایی که با حجم زیادی از انواع مختلف داده‌ها سروکار دارند، اما بدون مدیریت مناسب می‌تواند به باتلاق داده تبدیل شود.

دیتالیک هاوس(2020 تا کنون): یک معماری ترکیبی که بهترین ویژگی‌های هر دو جهان را ارائه می‌دهد. این معماری انعطاف‌پذیری و کارایی اقتصادی دریاچه‌های داده را با قابلیت اطمینان و عملکرد انبارهای داده ترکیب می‌کند. این را می‌توانید به عنوان توانایی ذخیره‌سازی هر چیزی و ساختار آن برای تحلیل هر چیزی تصور کنید.
@BIMining
👍9🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
🔴#پرسشگر
🟡#شبکه_آموزش_سیما
🔹#یکشنبه ۱۴۰۳/۱۲/۲۶
🔸موضوع:هوش مصنوعی؛‌ بانکداری نوین
🔺مجری: #میترا_بهرامی
مهمانان
🔺دکتر محمد صبری
دکترای مهندسی کامپیوتر گرایش هوش مصنوعی، مدرس دانشگاه، مدیرعامل شرکت دانش بنیان
🔺دکترمحمد عالیشاهی
دکترای مهندسی کامپیوتر رئیس هیئت مدیره شرکت دانش بنیان
🔺سردبیر و مجری طرح: #مهدی_برومند
🔺تهیه کننده: #مریم_فیروزی

انجمن ملی هوش مصنوعی ایران حامی علمی و محتوی برنامه پرسشگر

@BIMining
👍4👌2
This media is not supported in your browser
VIEW IN TELEGRAM
1️⃣4️⃣0️⃣4️⃣
سلام و عرض ارادت
🌷فرا رسیدن نوروز باستانی و بهار دلنشین بر شما مبارک باد. امیدوارم سالی سرشار از امید، آرامش درونی، آگاهی به داشته‌ها، تلاش، موفقیت، برکت، لبخند و تندرستی داشته باشید.
ارادتمند شما هستم
عالیشاهی

@BIMining
8👍2
هوش مصنوعی سلسله‌مراتبی از روش‌هاست که هر لایه قابلیت‌های پیشرفته‌تری را ممکن می‌سازد. این تمایز برای درک وضعیت کنونی و مسیر آینده هوش مصنوعی حیاتی است.
1-هوش مصنوعی (AI): گسترده‌ترین دسته شامل اتوماسیون، استدلال و تصمیم‌گیری؛ امروز عمدتاً مبتنی بر داده‌هاست.
2-یادگیری ماشین (ML): هوش مصنوعی که الگوها را از داده‌ها بدون برنامه‌نویسی صریح یاد می‌گیرد.
3-شبکه‌های عصبی (NN): زیرمجموعه‌ای از ML که تحت تأثیر مغز انسان طراحی شده است.
4-یادگیری عمیق (DL): شبکه‌های عصبی چندلایه که پیشرفت‌هایی مانند شناسایی تصویر و پردازش گفتار را ممکن کرده‌اند.
5-ترانسفورمرها: معماری انقلابی گوگل در ۲۰۱۷ برای درک و تولید زبان.
6-هوش مصنوعی مولد (GenAI): هوش مصنوعی که علاوه بر تحلیل داده، تولید محتوا انجام می‌دهد.
7-دGPT: زیرمجموعه‌ای از GenAI برای تولید متن با ترانسفورمرها.
8-مدل‌های زبانی بزرگ (LLM): مدل‌های عظیم آموزش‌دیده بر داده‌های گسترده برای درک و تولید زبان انسانی.
9د-GPT-4: یکی از پیشرفته‌ترین LLMها برای تولید پاسخ‌های مشابه انسان.
🔟 ChatGPT: کاربرد خاص GPT-4 برای مکالمات تعاملی و هوش مصنوعی مکالمه‌ای.
👍12
دنیای داده بسیار گسترده است، اما دانستن تفاوت این نقش‌ها می‌تواند سردرگمی را دور کند :

۱. تحلیل‌گر داده (Data Analyst)
شما داده‌های خام را به بینش‌های واضح برای تصمیم‌گیری تبدیل می‌کنید.
مناسب برای: افراد کنجکاوی که به الگوها و داشبوردها علاقه دارند.

۲. دانشمند داده (Data Scientist)
شما مدل‌های پیش‌بینی می‌سازید و روندها را با استفاده از آمار و یادگیری ماشین کشف می‌کنید.
مناسب برای: حل‌کنندگان مسئله که به کدنویسی و ریاضیات علاقه دارند.

۳. تحلیل‌گر کسب‌وکار (Business Analyst)
شما پل ارتباطی بین داده و اهداف کسب‌وکار هستید.
مناسب برای: ارتباط‌گیرندگانی که از تحلیل و استراتژی لذت می‌برند.

۴. مهندس یادگیری ماشین (ML Engineer)
شما مدل‌های یادگیری ماشین را در مقیاس وسیع و به‌صورت قابل اطمینان پیاده‌سازی می‌کنید.
مناسب برای: برنامه‌نویسانی که عاشق اتوماسیون، سیستم‌ها و بهره‌وری هستند.

۵. مهندس GenAI
شما اپلیکیشن‌های مبتنی بر هوش مصنوعی را برای خلاقیت، اتوماسیون و شخصی‌سازی کاربر توسعه می‌دهید.
مناسب برای: جویندگان ماجراجو که مشتاق ساخت آینده با هوش مصنوعی هستند.
@BIMining
👍92🙏1