Data world with Mina
4.13K subscribers
374 photos
62 videos
169 files
401 links
minarabti32@gmail.com
منبع مطالب يادگيري ماشين،پايتون ،داده كاوي ،هوش مصنوعي، دانلود داده، فيلم هاي آموزشي رايگان، داده
ارتباط با ادمین
@Datalook_mina
اینستاگرام:mina.rabti
Download Telegram
Forwarded from Data world with Mina (Mina Ra)
چرا پیرسون برای روابط غیرخطی مناسب نیست؟

همبستگی پیرسون تنها تغییرات خطی را اندازه‌گیری می‌کند. اگر داده‌ها دارای رابطه غیرخطی باشند، پیرسون نمی‌تواند آن را به درستی تشخیص دهد، زیرا این روش بر اساس محاسبه میانگین و انحراف معیار عمل می‌کند. در مقابل، همبستگی اسپیرمن که بر اساس رتبه‌بندی داده‌ها است، می‌تواند روابط غیرخطی را نیز به خوبی شناسایی کند.

به عنوان مثال اگر رابطه بین رشد جمعیت و مصرف انرژی که به صورت نمایی و لگاریتمی است را بررسی کنیم، همبستگی اسپیرمن مناسب تر است
👍194👌4
گاهی می‌بینم دوستانی که تازه وارد مسیر دیتا ساینس می‌شوند، برای مشاوره و منتورینگ سراغ هر کسی می‌روند؛ فقط چون خوب حرف می‌زند، یا محتوای زیادی تولید می‌کند.
اما واقعیت این است که در این حوزه، حرف کافی نیست. تجربه‌ عملی‌ست که شخصیت یک منتور را می‌سازد.

اگر می‌خواهید وقت و انرژی‌تان تلف نشود، فقط به یک نکته دقت کنید:
منتوری را انتخاب کنید که حداقل یک کار Production واقعی انجام داده باشد.
منظورم یک کار اجرایی درست است؛ پروژه‌ای که خروجی داشته و واقعاً در یک سازمان، محصول یا سرویس استفاده شده باشد.

آدمی که سال‌هاست فقط وقت دارد هر روز مشاوره بدهد، لایو برود، محتوا تولید کند و در عمل درگیر هیچ پروژه واقعی نیست… طبیعی است که نمی‌تواند تجربه‌ای را منتقل کند که خودش لمس نکرده باشد.

دیتا ساینس دنیای تئوری‌ها نیست؛
دنیای کار اجرایی، پیاده‌سازی، خطا، اصلاح، Production، و نتایج واقعی است.

اگر دنبال پیشرفتید،
منتوری را انتخاب کنید که رد پایش در یک پروژه واقعی دیده شود. همین.
34👏14👌8👍3
یلداتون مبارک 🌼🌻هر بهانه ای که باعث بشه قسمت‌های قشنگ فرهنگ ایران عزیزمون زنده باشه زیباست❤️❤️❤️ عمرتون و شادی هاتون طولانی
43🙏5🔥2
ما در هلدینگ ماموت به دنبال جذب یک کارشناس هوش تجاری (Business Intelligence) توانمند هستیم تا در طراحی و توسعه داشبوردهای مدیریتی و تحلیل داده‌ها در کنار تیم ما فعالیت کند.
اگر به ابزارهای هوش تجاری در اکوسیستم مایکروسافت مانند SSIS و SSAS تسلط دارید، سابقه طراحی داشبورد با Power BI را دارید و به یکپارچه‌سازی داده‌ها از منابع مختلف علاقه‌مند هستید، این موقعیت شغلی می‌تواند برای شما مناسب باشد.
ما به دنبال فردی هستیم که از مواجهه با چالش‌های فنی متنوع و مسائل پیچیده داده‌ای استقبال کند، رویکرد تحلیلی داشته باشد و بتواند راه‌حل‌های مؤثر و قابل اجرا ارائه دهد.
در صورتیکه تمایل به همکاری دارید خوشحال میشیم شما رو در تیم خودمون داشته باشیم. لطفا رزومه خود را به Minarabti32@gmail.com
ارسال کنید.
🔥2👌2
Data world with Mina pinned «گاهی می‌بینم دوستانی که تازه وارد مسیر دیتا ساینس می‌شوند، برای مشاوره و منتورینگ سراغ هر کسی می‌روند؛ فقط چون خوب حرف می‌زند، یا محتوای زیادی تولید می‌کند. اما واقعیت این است که در این حوزه، حرف کافی نیست. تجربه‌ عملی‌ست که شخصیت یک منتور را می‌سازد. اگر…»
Forwarded from Mohammad Discovery
منم همین چند ساعت پیش متوجه شدم که سایت متمم چند هفته ای هست که فیلتر شده،
برام ناراحت کننده و تاسف آور بود،
همون روزای اول ١٧-١٨ م نگران متمم هم بودم ولی کلا دیگه بعد از قطع اینترنت یادم رفت،
متمم، محل توسعه مهارت های من نیست، محل رشد و توسعه ایران(+فارسی زبانان)هست،
همین چند روز پیش داشتم به سایت هایی مثل متمم فکر می کردم،
متمم چه باشه، چه نباشه، چه فیلتر باشه چه نباشه،
اثر خودش رو توی این کشور گذاشته، جریان فکری رو ایجاد کرد که همیشه زنده می مونه، متمم اون محتوای همیشه سبز نیست، اون نوع نگاه به مفاهیم و مهارت ها و یادگیری بود که جریانش رو ساخت،
کلیدواژه هایی مثل تفکر سیستمی، مدل ذهنی، تصمیم گیری و صدها کلیدواژه دیگه رو معرفی کرد، دقیق تعریف کرد و فهموند.
متمم برای خیلی از ایرانیا که دسترسی به خیلی از امکانات آموزشی و ارتباطی رو نداشتن یه مرجع قدرتمند و با کیفیت بوده و هست،
از متمم دوس دارم بیشتر بنویسم و می نویسم،
دوس داشتم فقط در شروع چند جمله ای گفته باشم.
👍1611
درود به اعضای کانال 💫

امیدوارم اینترنت داشته باشید و در سلامت پیامم رو ببینید 🥺❤️

ممنون میشم با ری اکشن و ایموجی از خودتون و سالم بودنتون خبر بدید.

تو پیام رسان "بله" کانال زدم که تو شرایط قطعی نت بتونیم باهم در ارتباط باشیم ،گرچه این روزها هممون تاب آوری و بقا رو تمرین میکنیم.
«هوش مصنوعی و یادگیری ماشین»

🆔 شناسه:
https://ble.ir/ai_with_mina

به امید دیدار تو روزهای سپید 💫✌️
33
اگر هم سوالی، مشاوره ای داشتید میتونید با شماره

09029070835

در ارتباط باشید.
🙏5
Data world with Mina pinned «درود به اعضای کانال 💫 امیدوارم اینترنت داشته باشید و در سلامت پیامم رو ببینید 🥺❤️ ممنون میشم با ری اکشن و ایموجی از خودتون و سالم بودنتون خبر بدید. تو پیام رسان "بله" کانال زدم که تو شرایط قطعی نت بتونیم باهم در ارتباط باشیم ،گرچه این روزها هممون تاب…»
با توجه به خبرهای منتشر شده

فعلا برنامه ای برای باز کردن نت بین الملل نیست

@datalook_ir
🔻دسترسی به تعدادی از سایت‌ها و سرویس‌های بین‌المللی که عموما مورد نیاز توسعه‌دهندگان و دانشجویان هستند، برقرار شده است.

🔻سایت‌ letsencrypt.org که برای صدور گواهی SSL ضروری است، نیز در دسترس قرار گرفته‌اند.

🔻فهرست سایت‌هایی که دسترسی به آن‌ها میسر شده است:

https://letsencrypt.org/
https://react.dev
https://vercel.com
https://ubuntu.com/
https://nextjs.org
https://www.python.org/
https://link.springer.com
https://pubmed.ncbi.nlm.nih.gov
https://www.digicert.com/
https://www.sciencedirect.com/
https://www.certum.eu/en/
https://sourceforge.net/
https://pypi.org/
https://crates.io
https://www.ieee.org


https://xn--r1a.website/datalook_ir
7
هفت پروژه مهندسی داده بسیار کاربردی (سناریوهای واقعی، نه Kaggle 👇🏻)

۱. پایپ‌لاین API به انبار داده

(API-to-Warehouse Pipeline)
دریافت داده از یک API عمومی (مثل OpenWeather یا Spotify).
مدیریت بارگذاری تدریجی (Incremental Loading) در Postgres.
⚙️ تکنولوژی‌ها: Python، dlt، Postgres، Docker

https://dlthub.com/docs/intro


۲. انبار داده مدرن با dbt

لود کردن دیتاست نمونه Jaffle Shop در Postgres.
ساخت مدل‌ها از لایه staging به marts به همراه تست‌ها، مستندسازی و اسنپ‌شات‌های SCD2.
⚙️ تکنولوژی‌ها: dbt Core، SQL، Postgres، Git

🔗 https://docs.getdbt.com/guides/manual-install



۳. پروژه DAG Airflow با سنسورها و backFills

زمان‌بندی دریافت روزانه داده از دیتاست شکایات NYC 311.

اضافه کردن سنسورها، شاخه‌بندی (branching) و تلاش مجدد (retry) با backoff.

⚙️ تکنولوژی‌ها: Apache Airflow، Python، Docker

🔗 آموزش Airflow:
https://airflow.apache.org/docs/apache-airflow/stable/tutorial/



۴. استریم رویداد با Kafka

اجرای Kafka به صورت لوکال و تولید داده‌های مصنوعی (مثل کلیک و سفارش) با Python و Faker.
ساخت یک consumer که داده‌ها را به صورت real-time تجمیع کرده و در Postgres ذخیره کند.

تکنولوژی‌ها: Kafka، Python، Faker، Docker

🔗 مبانی Kafka:

https://developer.confluent.io/courses/apache-kafka/events/




۵. پردازش دسته‌ای با PySpark

(PySpark Batch Processing)
پردازش داده‌های یک ماه از GitHub Archive (حدود ۵۰ گیگابایت رویداد) به‌صورت محلی با PySpark.

تمرین پارتیشن‌بندی (partitioning)، اتصال‌ها (joins) و نوشتن داده.

⚙️ تکنولوژی‌ها: PySpark، Parquet، Python، Docker
🔗 GH Archive:
https://www.gharchive.org/

۶. لیک‌هاوس مدالیون (Medallion Lakehouse)

دریافت داده‌های سفر تاکسی نیویورک در لایه‌های برنز → نقره → طلا با استفاده از فرمت جدول باز.
بهره‌مندی از تکامل اسکیمای داده (schema evolution) و قابلیت time travel به‌صورت پیش‌فرض.
⚙️ تکنولوژی‌ها: Postgres، Apache Iceberg، Parquet، Python
🔗 معرفی Iceberg:
https://iceberg.apache.org/spark-quickstart/


۷. چارچوب کیفیت داده (Data Quality Framework)

گسترش DAG در Airflow از پروژه ۳ با افزودن بررسی‌های خودکار برای: مقادیر خالی (null)، بازه‌ها (ranges)، اسکیمای داده و به‌روز بودن (freshness).

⚙️ تکنولوژی‌ها: Great Expectations، Python، Airflow
🔗 Great Expectations:
https://docs.greatexpectations.io/docs/

https://xn--r1a.website/datalook_ir

کانال من در بله :

https://ble.ir/ai_with_mina
👍3👌21🤩1
Forwarded from Data world with Mina
درود به اعضای کانال 💫

امیدوارم اینترنت داشته باشید و در سلامت پیامم رو ببینید 🥺❤️

ممنون میشم با ری اکشن و ایموجی از خودتون و سالم بودنتون خبر بدید.

تو پیام رسان "بله" کانال زدم که تو شرایط قطعی نت بتونیم باهم در ارتباط باشیم ،گرچه این روزها هممون تاب آوری و بقا رو تمرین میکنیم.
«هوش مصنوعی و یادگیری ماشین»

🆔 شناسه:
https://ble.ir/ai_with_mina

به امید دیدار تو روزهای سپید 💫✌️
33👎5
🎯 چطور فریمورک مناسب برای Agentهای هوش مصنوعی رو انتخاب کنیم؟

خیلی‌ها فکر می‌کنن این ابزارها رقیب هم هستن، ولی واقعیت اینه:
👉 این‌ها فقط کتابخانه‌های مختلف پایتون هستن، مثل مقایسه NumPy و Pandas!

پس سوال درست اینه:
«من دارم چی می‌سازم؟»
هر فریمورک برای یک سطح از پیچیدگی و یک نوع مسئله طراحی شده.
---
🔥 ۵ فریمورک مهم برای AI Agentها:
---
🧠 1. کتابخانه LangGraph
📌 مناسب برای:


- کنترل کامل روی state ایجنت
- ورک‌فلوهای پیچیده (loop، شرط، شاخه‌بندی)
- سیستم‌های production

💡 کاربردها:

- تشخیص پزشکی مرحله‌ای
- بررسی اسناد با تصمیم‌گیری شرطی
- کشف تقلب مالی با reasoning چندمرحله‌ای

⚠️ کنترل بسیار بالا، ولی منحنی یادگیری سخت‌تر

---

🤖 2. کتابخانه CrewAI
📌 مناسب برای:

- سیستم‌های چند ایجنتی (multi-agent)
- معماری role-based و خوانا
- توسعه سریع و prototype

💡 کاربردها:

- تیم تحقیقاتی (یک ایجنت جستجو، یکی تحلیل)
- تولید محتوا (نویسنده، ویراستار، ناشر)
- اتوماسیون فروش

🚀 سریع‌ترین راه برای ساخت سیستم multi-agent

---

📊 3. فریمورک PydanticAI
📌 مناسب برای:

- خروجی‌های ساختاریافته
- نیاز جدی به اعتبارسنجی داده
- ادغام با پروژه‌های Python موجود

💡 کاربردها:

- پردازش گزارش‌های مالی
- ایجنت‌های API-based
- سیستم‌های حساس به صحت داده

ولیدیشن در سطح core (نه یه ویژگی اضافه)

---

⚙️ 4. کتابخانه OpenAI Swarm
📌 مناسب برای:

- یادگیری عمیق نحوه کار ایجنت‌ها
- حداقل abstraction
- درک واقعی handoff بین ایجنت‌ها

💡 کاربردها:

- پروژه‌های آموزشی
- پروتوتایپ سریع سیستم‌های سبک
- تحلیل رفتار ایجنت‌ها

🪶 سبک‌ترین و شفاف‌ترین گزینه برای یادگیری

---

🔗 5. فریمورک MCP (Model Context Protocol)
📌 مناسب برای:


- اتصال ایجنت‌ها به ابزارهای خارجی
- یکپارچه‌سازی بین فریمورک‌ها
- کار با سیستم‌های واقعی

💡 کاربردها:

- اتصال به دیتابیس‌ها بدون کدنویسی اضافی
- دسترسی استاندارد به فایل سیستم
- اتصال به APIها

این یک فریمورک نیست، یک پروتکل است (Glue Layer)

---

📌 جمع‌بندی سریع (Decision Matrix):

✔️ منطق پیچیده → LangGraph
✔️ سیستم چند ایجنتی → CrewAI
✔️ خروجی ساختاریافته → PydanticAI
✔️ یادگیری عمیق → Swarm
✔️ اتصال به ابزارهای خارجی → MCP



💬 در نهایت:
«کتابخانه‌های متفاوت، عمق‌های متفاوت، ولی یک هدف مشترک: ساخت Agentهای کاربردی»
👍75👎2👌1
«مهندس هوش مصنوعی» در حال تبدیل شدن به یکی از بدفهمیده‌ترین(اصطلاح بهتر پیدا نکردم:)) عناوین شغلی در دنیای فناوری است.

🔍وقتی مردم این عنوان را می‌شنوند، تصور می‌کنند منظور کسی است که مدل‌های زبانی بزرگ را از صفر آموزش می‌دهد.

🔑اما واقعیت چیست؟


حداقل 4 نقش متفاوت زیر این عنوان قرار می‌گیرند که کاملاً با هم فرق دارند:


1_مهندس یادگیری ماشین / مهندس مدل
🔬 ML / Model Engineer


✔️پیش‌آموزش (Pre-training)
✔️فاین‌تیون (Fine-tuning)
✔️رویکرد RLHF (یادگیری تقویتی از بازخورد انسانی)
✔️ ارزیابی مدل‌ها (Evals)

این افراد مستقیماً با وزن‌های مدل کار می‌کنند.
این نقش از همه به حوزه تحقیق نزدیک‌تر است. نیازمند ریاضیات عمیق، CUDA و دانش سیستم های توزیع شده است.


2_مهندس استنتاج Inference engineer

مدل آموزش دیده است. حالا سؤال این است:
چطور آن را برای 10 میلیون کاربر با تأخیر کم و هزینه پایین سرویس‌دهی کنیم؟
وظایف اصلی:
✔️رویکرد Quantization (کوانتیزه‌سازی)
✔️رویکرد Speculative Decoding
بهینه‌سازی KV-Cache
✔️کرنل‌های سفارشی GPU

این نقش تخصصی و بسیار اثرگذار است که تا 3 سال پیش تقریباً وجود نداشت.

🏗️ مهندس زیرساخت هوش مصنوعی / MLOps

وظایف:

✔️مدیریت کلاسترهای GPU
✔️پایپ‌لاین استقرار مدل
✔️مقیاس‌پذیری خودکار زیرساخت سرویس‌دهی
✔️مانیتورینگ هزینه‌ها
✔️فرآیند CI/CD برای پروژه‌های ML

این همان نقش «چراغ‌ها را روشن نگه دار» است؛ نقشی که باعث می‌شود همه بخش‌های دیگر کار کنند.

🛠️ مهندس اپلیکیشن LLM

محصولاتی را بر پایه مدل‌ها و از طریق APIها می‌سازد.

حوزه‌های کاری:

🔺پایپ‌لاین‌های RAG
🔺ورک‌فلوهای Agentic
🔺استفاده از ابزارها (Tool Use)
🔺طراحی پرامپت
🔺ارزیابی رفتار اپلیکیشن


این نقش معمولاً هیچ کاری با وزن‌های مدل یا زیرساخت GPU ندارد.

حقیقت ناراحت‌کننده این است:

بیشتر آگهی‌های شغلی با عنوان AI Engineer در واقع به دنبال دسته چهارم هستند.
اما بیشتر داوطلبان (و حتی مدیران استخدام) فکر می‌کنند منظور دسته اول است.

اگر در حال استخدام هستید:
دقیق مشخص کنید کدام نوع مهندس هوش مصنوعی را می‌خواهید.

منبع مطالب تحلیل داده، هوش مصنوعی، هوش تجاری و یادگیری ماشین
ارتباط با ادمین در بله
@minaDataScience

شناسه کانال در بله

@ai_with_mina
16🔥2👎1
چند وقت پیش یک تصویر جالب دیدم با عنوان How to Duplicate Yourself into Claude؛ یعنی چطور یک نسخه از خودت را وارد هوش مصنوعی کنی.

شاید در نگاه اول تبلیغاتی به نظر برسد، اما پشت این ایده یک مفهوم واقعی و مهم وجود دارد: اینکه بتوانی سبک فکر کردن، لحن نوشتن، ترجیحات، ارزش‌ها و روش تصمیم‌گیری خودت را به یک مدل هوش مصنوعی منتقل کنی تا مثل یک دستیار شخصی حرفه‌ای کنارت کار کند.

منظور از «کپی کردن خودت» این نیست که واقعاً انسان دیگری ساخته می‌شود. منظور ساختن یک نسخه دیجیتالی از ذهن و سبک کاری توست. یعنی دیگر لازم نباشد هر بار از صفر برای AI توضیح بدهی که چگونه می‌نویسی، چه چیزهایی را دوست داری، چه چیزهایی را قبول نداری یا خروجی را با چه استانداردی می‌خواهی. یک بار این اطلاعات را ساختارمند می‌کنی و بعد مدل می‌تواند بسیار هماهنگ‌تر با تو کار کند.

مراحلی که در تصویر(در ادامه گذاشتم) برای Claude گفته شده هم جالب بود. ابتدا باید Claude را نصب کنی و حالت Cowork Mode را فعال کنی؛ حالتی که مدل را بیشتر شبیه همکار هوشمند می‌کند. سپس یک پوشه برای «صدای شخصی» خودت می‌سازی؛ یعنی جایی که نمونه نوشته‌ها، لحن، طرز فکر و قواعد شخصی تو در آن ذخیره شود.

بعد از آن مدل Opus انتخاب می‌شود و گزینه Extended Thinking فعال می‌شود تا مدل زمان و عمق بیشتری برای استدلال و تحلیل داشته باشد. سپس پیشنهاد شده به جای تایپ کردن، با مدل صحبت کنی و به مجموعه‌ای از سؤالات پاسخ بدهی؛ سؤالاتی درباره سبک کار، سلیقه، روش تصمیم‌گیری، چیزهایی که دوست داری، چیزهایی که قبول نداری و حتی عبارت‌هایی که هیچ‌وقت استفاده نمی‌کنی. این بخش در واقع مرحله استخراج شخصیت حرفه‌ای توست.

در ادامه این اطلاعات خام فشرده و ساختارمند می‌شود و به شکل یک فایل متنی ذخیره می‌شود؛ چیزی شبیه پروفایل ذهنی تو. بعد این فایل در یک گفت‌وگوی جدید تست می‌شود تا مشخص شود مدل چقدر توانسته لحن و تفکر تو را بازسازی کند. سپس می‌توان آن را در ابزارهایی مثل Obsidian مدیریت کرد، و حتی به مدل‌های دیگر مثل ChatGPT، Gemini یا Grok هم منتقل کرد.

نکته هوشمندانه تصویر این بود که قبل از این فرآیند، کاربر زمان زیادی صرف نوشتن و توضیح دادن می‌کند و مدل کمتر فکر می‌کند. اما بعد از ساخت این نسخه شخصی‌سازی‌شده، تو کمتر تایپ می‌کنی و بیشتر نقش هدایت‌گر را داری، در حالی که مدل بخش سنگین فکر کردن و تولید خروجی را انجام می‌دهد.

از نگاه تخصصی، این موضوع ترکیبی از مفاهیمی مثل Prompt Engineering، Persona Modeling، AI Memory و Personal Knowledge Base است. آینده استفاده حرفه‌ای از AI فقط سؤال پرسیدن نیست؛ بلکه ساختن سیستم‌هایی است که تو را بشناسند و در امتداد توانایی‌هایت عمل کنند.
اگر بخواهم در یک جمله بگویم:
آینده متعلق به کسانی است که فقط از AI استفاده نمی‌کنند، بلکه نسخه‌ای از تخصص و ذهن خودشان را روی AI سوار می‌کنند.


#هوش_مصنوعی #Claude #ChatGPT #DigitalTwin #AI #Productivity #FutureOfWork #فناوری
11🔥2
18👍1