هوش مصنوعی و علم داده به فارسی
6.08K subscribers
980 photos
262 videos
316 files
1.05K links
🗨 ارتباط با ما (تبلیغات، سوال، پیشنهاد و انتقاد):
📩 @Contact2Mebot

💯 کانال دوم ما:
@Datascientists_Files

💎 در پیام‌رسان بله(آپدیت اتومات):
https://ble.ir/dataplusscience

💡 در پیام‌رسان ایتا(آپدیت اتومات):
https://eitaa.com/DataPlusScience
Download Telegram
پایگاه‌های داده برداری

این تصویر، سامانه‌های Vector Database و پایگاه‌های دادهٔ پشتیبان Vector Search را در چهار رده نشان می‌دهد:

۱) اختصاصی متن‌باز:
ابزارهایی مانند Chroma، Vespa، LanceDB، Marqo، Qdrant و Milvus که به‌طور ویژه برای ذخیره‌سازی و بازیابی برداری طراحی شده‌اند.

۲) عمومی متن‌باز با جستجوی برداری:
شامل OpenSearch، ClickHouse، PostgreSQL و Cassandra که این قابلیت را به‌صورت ماژولی ارائه می‌کنند.

۳) اختصاصی تجاری
: Weaviate و Pinecone که خدمات سازمانی و مدیریت‌شده فراهم می‌سازند.

۴) عمومی تجاری با پشتیبانی برداری:
Elasticsearch، Redis، Rockset و SingleStore که امکان جستجوی برداری را در کنار دادهٔ سنتی فراهم می‌کنند.

مطالعه بیشتر


برای آموزش علم داده به جمع ما بپیوندید: 👇

📊👨‍🏫 @DataPlusScience | @DataScience
1
آشنایی با ترنسفومر

تولید شده توسط مدل Gemini 3 Nano Banana pro!


برای آموزش علم داده به جمع ما بپیوندید: 👇

📊👨‍🏫 @DataPlusScience | @DataScience
بر اساس نتایج مطالعه‌ اخیر Gartner که بر مبنای نظرسنجی از گروهی از مدیران ارشد فناوری اطلاعات انجام شده است، الگوی تغییر بودجه‌ فناوری از سال ۲۰۲۵ تا ۲۰۲۶ نسبتاً روشن است. بیشترین رشد بودجه به حوزه‌های هوش مصنوعی مولد، هوش مصنوعی و هوش تجاری و تحلیل داده‌ها اختصاص دارد؛ به‌طوری‌که بیش از ۸۰ درصد پاسخ‌دهندگان در این حوزه‌ها از افزایش بودجه خبر داده‌اند و میانگین رشد به‌ترتیب حدود ۳۸، ۳۶ و ۲۵ درصد گزارش شده است!



برای آموزش علم داده به جمع ما بپیوندید: 👇

📊👨‍🏫 @DataPlusScience | @DataScience
🤖🧠 شورای LLM | اجماع چندمدلی برای پاسخ‌های دقیق‌تر

رویکرد LLM Council به‌جای تکیه بر یک مدل زبانی، چند LLM را هم‌زمان وارد بازی می‌کند تا مثل یک «شورای کارشناسی هوش مصنوعی» روی یک سؤال فکر کنند، پاسخ بدهند و خطای همدیگر را بگیرند.

فرآیند سه‌مرحله‌ای است:

1️⃣ هر مدل به‌طور مستقل پاسخ خودش را تولید می‌کند.
2️⃣ مدل‌ها به‌صورت ناشناس پاسخ‌های بقیه را از نظر دقت، انسجام و عمق تحلیل ارزیابی و رتبه‌بندی می‌کنند.
3️⃣ یک مدل به‌عنوان «رئیس شورا» بهترین بخش‌ها را ترکیب می‌کند و یک پاسخ نهایی منسجم و بهینه می‌سازد.

کاربرد این رویکرد برای سناریوهای تصمیم‌گیری حساس، تحلیل‌های علمی و مسائل پیچیده است؛ جایی که یک خروجی واحد کافی نیست و نیاز به چند دیدگاه الگوریتمی وجود دارد.


برای آموزش علم داده به جمع ما بپیوندید: 👇

📊👨‍🏫 @DataPlusScience | @DataScience
🧠 مراحل ایجاد سیستم RAG: هشت گام ضروری

تصویر بالا، ۸ گام کلیدی سیستم RAG (تولید تقویت‌شده با بازیابی) را نشان می‌دهد که دانش LLM را به‌روز و تقویت می‌کند:

🗂 جمع‌آوری داده‌ها: دریافت داده‌های متنوع (API، وب، ETL) برای ایجاد مخزن دانش اولیه.

🧹 پاک‌سازی و پیش‌پردازش: حذف PII، استانداردسازی و اجرای OCR برای افزایش کیفیت و اعتبار داده‌ها.

✂️ قطعه‌بندی و ساختاربندی: تقسیم اسناد به قطعات (Chunks) با اندازه بهینه، جهت حفظ بافت و بازیابی دقیق‌تر.

🧬 تولید امبدینگ: تبدیل متون به بردارهای عددی (Vector) توسط مدل‌های ترنسفورمر برای درک معنایی.

🗃 پایگاه داده وکتور: ذخیره و سازماندهی بردارها در دیتابیس‌های تخصصی (Pinecone) برای جستجوی سریع.

🔍 بازیابی و رتبه‌بندی: یافتن مرتبط‌ترین بردارها با جستجوی هیبرید و رتبه‌بندی مجدد (Re-ranking) برای دقت نهایی.

📝 ارکستراسیون و پرامپت‌سازی: تزریق قطعات بازیابی شده به پرامپت و هدایت LLM برای تولید پاسخ دقیق.

📊 ارزیابی و نظارت: سنجش عملکرد با معیارهای کمی و بازخورد انسانی، جهت شناسایی توهم (Hallucination) و بهبود.



📊👨‍🏫 @DataPlusScience | @DataScience
@DataPlusScience -Agentic AI Cheat Sheet.pdf
71.1 KB
🚀 خلاصه‌برگ Agentic AI


در این فایل یک مرور بسیار خلاصه از مبانی هوش مصنوعی عامل‌محور ارائه شده است.


چرخه عامل: Reasoning → Action → Feedback
🧩 اجزای اصلی: مغز LLM، حافظه، ابزارها، برنامه‌ریزی
🔬 معماری‌ها: ReAct، Plan-and-Solve، Reflexion
🤝 سیستم‌های چندعاملی (MAS) و الگوهای همکاری
🛠 فریم‌ورک‌ها: LangGraph، AutoGen، CrewAI
⚠️ چالش‌ها و معیارهای ارزیابی


برای آموزش علم داده به جمع ما بپیوندید: 👇

📊👨‍🏫 @DataPlusScience | @DataScience
@DataPlusScience -Gen-AI Interviews.pdf
3.3 MB
🎯 راهنمای جامع مصاحبه‌های شغلی هوش مصنوعی مولد (Generative AI)

💼 این فایل به عنوان یک منبع کاربردی، شما را برای موفقیت در مصاحبه‌های شغلی مرتبط با هوش مصنوعی مولد آماده می‌کند.

📋 در این راهنما، مجموعه‌ای از سوالات فنی پرتکرار، از مفاهیم پایه‌ای تا مباحث پیشرفته مانند معماری Transformer، مدل‌های Diffusion و تکنیک‌های Fine-tuning، پوشش داده شده است.

💡 مطالعه این منبع به تمام علاقه‌مندان و متخصصانی که قصد ورود به این حوزه را دارند، جهت کسب آمادگی و افزایش تسلط بر مفاهیم کلیدی توصیه می‌شود.


برای آموزش علم داده به جمع ما بپیوندید: 👇

📊👨‍🏫 @DataPlusScience | @DataScience
معرفی کتابخانه PandasAI 🐼: آینده تحلیل داده با هوش مصنوعی

این کتابخانه پایتون به شما اجازه می‌دهد که با استفاده از زبان طبیعی (مثل انگلیسی) با دیتافریم‌های pandas خود کار کنید. این ابزار به عنوان یک مکمل برای pandas عمل می‌کند و با کمک مدل‌های زبانی بزرگ (LLMs)، تحلیل داده را به یک گفتگوی ساده تبدیل می‌کند.

ویژگی‌های کلیدی:
📊 پرسش و پاسخ با زبان طبیعی
📈 رسم نمودار و مصورسازی
🔗 کار با چندین دیتافریم

این کتابخانه ابزاری قدرتمند برای تمام متخصصان داده، تحلیلگران و هر کسی است که می‌خواهد سریع‌تر و هوشمندانه‌تر با داده‌ها کار کند.

🔗 برای شروع و مشاهده مثال‌های بیشتر، به مخزن گیت‌هاب این پروژه سر بزنید:
https://github.com/sinaptik-ai/pandas-ai



برای آموزش علم داده به جمع ما بپیوندید: 👇

📊👨‍🏫 @DataPlusScience | @DataScience
📊 آنتروپیک، رهبر جدید بازار Enterprise LLM

بازار مدل‌های زبانی بزرگ در سال ۲۰۲۵ وارد فاز تازه‌ای شد. Anthropic با تصاحب ۴۰٪ سهم بازار Enterprise، جایگاه نخست را از OpenAI گرفت.

در همین حال، سهم OpenAI از ۵۰٪ به ۲۷٪ کاهش یافت و Google با رشدی چشمگیر از ۷٪ به ۲۱٪ رسید. اکنون این سه بازیگر، ۸۸٪ بازار Enterprise را در اختیار دارند.

برتری Anthropic در حوزه Coding چشمگیر است: ۵۴٪ سهم بازار و تبدیل شدن Claude Code به یک Game Changer واقعی؛ مدلی که ۱۸ ماه متوالی صدرنشین LLM Leaderboards بوده است.

در واقع تمرکز استراتژیک بر Code Generation، عامل کلیدی موفقیت Anthropic در بازار Enterprise بوده است.

📌 Menlo Ventures, 2025


برای آموزش علم داده به جمع ما بپیوندید: 👇

📊👨‍🏫 @DataPlusScience | @DataScience
@DataPlusScience_Deep_Dive_to_Legendary_Self_Attention_Mechanism.pdf
16.9 MB
📘مکانیزم Self-Attention در مدل‌های زبانی بزرگ

در این ارائه ابتدا محدودیت‌های معماری‌های بازگشتی (RNN و LSTM) و چالش وابستگی‌های بلندمدت تحلیل می‌شود.
سپس گذار مفهومی به Transformer و منطق حذف محاسبات ترتیبی تشریح می‌گردد.
در ادامه بردارهای Query، Key و Value و نقش آن‌ها در محاسبه توجه بررسی می‌شوند.
همچنین فرآیند ریاضی Scaled Dot-Product و Softmax به‌صورت گام‌به‌گام توضیح داده شده است.
در نهایت مفاهیم Multi-Head Attention، Positional Encoding و جریان تولید متن مرور می‌شوند.

این فایل برای دانشجویان و متخصصان علوم داده و یادگیری عمیق که به دنبال درک دقیق سازوکار توجه هستند، مناسب است.

🔗 Lhuqita Fazry



📊👨‍🏫 @DataPlusScience | @DataScience
@DataPlusScience -Statistics Notes.pdf
4.7 MB
📘 یادداشت‌های آمار: راهنمای جامع مباحث آماری

💡 این فایل شامل مفاهیم پایه و پیشرفته آماری است که به صورت ساده و کاربردی توضیح داده شده‌اند. مباحث شامل انواع داده‌ها، آزمون‌های آماری و تکنیک‌های تحلیل داده است که برای دانشجویان و محققین مفید است.


📊 مفاهیم پایه: شامل آمار توصیفی (Descriptive Statistics) و استنباطی (Inferential Statistics).
📌 اندازه‌گیری گرایش مرکزی: میانگین (Mean)، میانه (Median) و مد (Mode).
📏 اندازه‌گیری پراکندگی: واریانس (Variance) و انحراف معیار (Standard Deviation).
🗂 انواع داده‌ها و مقیاس‌ها: داده‌های اسمی (Nominal)، ترتیبی (Ordinal)، فاصله‌ای (Interval) و نسبتی (Ratio).
🧪 آزمون‌های آماری: آزمون Z، آزمون T، آزمون خی دو (Chi-Square)، و تحلیل واریانس (ANOVA).
📈 توزیع‌های احتمالی: توزیع نرمال (Normal Distribution)، دوجمله‌ای (Binomial) و پواسون (Poisson).
🧮 قضیه حد مرکزی (Central Limit Theorem): تحلیل توزیع نمونه‌ها با اندازه‌های بزرگ.
🔗 تحلیل داده‌های پراکنده: کوواریانس (Covariance) و همبستگی (Correlation).


📊👨‍🏫 @DataPlusScience | @DataScience
📊 پنج سطح بلوغ هوش مصنوعی ایجنتیک | چارچوبی کاربردی برای درک و پیاده‌سازی سیستم‌های خودمختار

🔹 سطح ۱ | ربات وظیفه‌ای قطعی
اجرای اقدامات از پیش تعریف‌شده و محدود
مثال: بازنشانی رمز عبور، فرم‌های ساده

🔹 سطح ۲ | عامل آماده‌ساز
پیش‌نویس و اجرای جزئی وظایف چندمرحله‌ای
نیاز: بازبینی اجباری انسانی
مثال: پیش‌نویس قرارداد، گزارش‌های هفتگی

🔹 سطح ۳ | اپراتور تخصصی
مدیریت کامل گردش‌کاری روتین
نظارت: بررسی نمونه‌ای
مثال: پاسخ تیکت‌ها، گزارش‌گیری خودکار

🔹 سطح ۴ | متخصص نیمه‌خودمختار
عملکرد صحیح در ~۹۸٪ موارد
نظارت: تأیید فقط در مواقع استثنا
مثال: مدیریت قیمت، سفارش‌گذاری با بودجه

🔹 سطح ۵ | حل‌کننده مستقل مسئله
تجزیه مسائل نوین و تولید دانش
وضعیت: فعلاً غیرقابل دسترسی برای تولید


📚 Cal Al-Dhubaib & Ivan Lee | ODSC


📊👨‍🏫 @DataPlusScience | @DataScience
کیفیت، امنیت و حکمرانی؛ مقدم بر نوآوری‌های داده و هوش مصنوعی

نتایج گزارش BARC Data, BI & Analytics Trend Monitor 2026 نشان می‌دهد که در افق ۲۰۲۶، «زیرساخت اعتماد» یعنی کیفیت داده، امنیت/حریم خصوصی و حکمرانی داده، همچنان بر موج‌های نوظهور فناوری تقدم دارد. این گزارش که با حمایت MicroStrategy و به‌صورت پایش روند تکرارشونده منتشر شده، بر پایه ۱,۵۷۹ پاسخ معتبر تهیه شده است.

در صدر اولویت‌ها، کیفیت داده و امنیت با امتیاز ۷.۹ قرار دارند که بیانگر تمرکز سازمان‌ها بر اتکاپذیری، کاهش ریسک و انطباق است. پس از آن، فرهنگ داده‌محور، حکمرانی داده و هوش مصنوعی و سواد داده اهمیت بالایی یافته‌اند. در مقابل، GenAI و Agentic AI عمدتاً پس از تثبیت این بنیان‌ها دنبال می‌شوند.

توضیحات بیشتر:
https://zaya.io/4972p

📊👨‍🏫 @DataPlusScience | @DataScience
🎓 مجموعه دروس تخصصی دانشگاه Stanford برای تسلط بر LLMs

📑 بخش اول: مبانی و معماری ـ جلسه ۱: مفهوم Transformer ـ جلسه ۲: مدل‌ها و متدهای بهینه‌سازی ـ جلسه ۳: گذار به مدل‌های زبانی بزرگ

⚙️ بخش دوم: توسعه و آموزش ـ جلسه ۴: استراتژی‌های Training ـ جلسه ۵: تکنیک‌های Fine-tuning

🧠 بخش سوم: استدلال و عاملیت ـ جلسه ۶: مکانیسم‌های Reasoning ـ جلسه ۷: بررسی Agentic LLMs

📊 بخش چهارم: ارزیابی و ترندها ـ جلسه ۸: متدولوژی Evaluation ـ جلسه ۹: تحلیل Current Trends



برای آموزش علم داده به جمع ما بپیوندید: 👇

📊👨‍🏫 @DataPlusScience | @DataScience
📊 تحلیل ۱۰۰ تریلیون توکن؛ واقعیت استفاده از مدل‌های بزرگ زبانی

در این اینفوگرافی، مهم‌ترین نتایج گزارش «State of AI» را می‌بینید؛ گزارشی که توسط OpenRouter منتشر شده و بر پایه‌ی تحلیل بیش از ۱۰۰ تریلیون توکن واقعی از تعامل کاربران با مدل‌های زبانی بزرگ در دنیای واقعی تهیه شده است.

این نتایج نشان می‌دهند که:
🤖 اکوسیستم LLMها چندمدلی شده
💻 برنامه‌نویسی به کاربرد غالب تبدیل شده
🧠 استنتاج عامل‌محور (Agentic) به حالت پیش‌فرض رسیده
🌍 مدل‌های متن‌باز و به‌ویژه مدل‌های چینی نقش کلیدی دارند
📈 کیفیت و حل مسئله مهم‌تر از قیمت هستند

این اینفوگرافی، خلاصه‌ای دقیق از الگوهای واقعی استفاده از هوش مصنوعی در سال ۲۰۲۵ است؛ نه بر اساس دمو یا بنچمارک، بلکه بر اساس داده‌های واقعی.

دسترسی به نسخه کامل گزارش

📊👨‍🏫 @DataPlusScience | @DataScience
@DataPlusScience -AI Agent Trends.pdf
13.2 MB
ترندهای کلیدی AI Agent در افق ۲۰۲۶ | Google Cloud

گزارش AI Agent Trends 2026 گوگل کلاد نشان می‌دهد سازمان‌ها از استفاده ابزاری از AI به سمت سیستم‌های عامل هوشمند (Agentic Systems) در حال حرکت‌اند. این گزارش بر پایه تحلیل داده‌های سازمانی، مصاحبه با رهبران AI و نتایج کمی ROI of AI 2025 تدوین شده است.

۵ ترند اصلی گزارش:

👤 Agents for every employee
ایجنت‌ها به دستیار دائمی کارکنان تبدیل می‌شوند و نقش انسان به تعریف هدف، تصمیم‌گیری و نظارت راهبردی ارتقا می‌یابد.

⚙️ Agents for every workflow
فرآیندهای سازمانی به گردش‌کارهای چندایجنتی end-to-end و پیوسته تبدیل می‌شوند.

🤝 Agents for customers
تجربه مشتری از پاسخ‌های قاعده‌محور به تعاملات شخصی‌سازی‌شده و مبتنی بر داده‌های واقعی ارتقا می‌یابد.

🛡 Agents for security

امنیت از مدیریت هشدارها به تحلیل، اولویت‌بندی و اقدام نیمه‌خودکار منتقل می‌شود.

📈 Agents for scale

ایجاد ارزش در مقیاس بیش از فناوری، به توسعه مهارت‌های انسانی برای مدیریت ایجنت‌ها وابسته است.

📊👨‍🏫 @DataPlusScience
میلاد با سعادت امیرالمؤمنین علی علیه‌السلام و روز مرد را تبریک و تهنیت عرض می‌نماییم.


📊👨‍🏫 @DataPlusScience | @DataScience
📊 گزارش فعالیت کانال در سال ۲۰۲۵

🔁 در سال ۲۰۲۵، تعداد ۱۰۳ پست در کانال منتشر شد. این مطالب در مجموع بیش از ۱۶۵٬۳۰۳ بازدید داشته و بیش از ۶٬۳۱۰ بار بازنشر شده‌اند.

در این بازه، ۱٬۰۰۹ نفر به اعضای کانال اضافه شدند که نشان‌دهنده رشد تدریجی و اعتماد مخاطبان به محتوای کانال است.

امیدواریم در سال جدید با افزایش تعداد پست‌ها و تداوم فعالیت، حضور پررنگ‌تری در کانال داشته باشیم.

📩 در صورت داشتن هرگونه پیشنهاد یا انتقاد، می‌توانید پیام خود را به این آیدی ارسال کنید:
👉 @Contact2Mebot

🙏 سپاس از همراهی شما

📊👨‍🏫 @DataPlusScience | @DataScience
هوش مصنوعی و علم داده به فارسی
📊 گزارش فعالیت کانال در سال ۲۰۲۵ 🔁 در سال ۲۰۲۵، تعداد ۱۰۳ پست در کانال منتشر شد. این مطالب در مجموع بیش از ۱۶۵٬۳۰۳ بازدید داشته و بیش از ۶٬۳۱۰ بار بازنشر شده‌اند. در این بازه، ۱٬۰۰۹ نفر به اعضای کانال اضافه شدند که نشان‌دهنده رشد تدریجی و اعتماد مخاطبان…
با سلام و احترام خدمت مخاطبان گرامی کانال

پس از ماه‌ها عدم فعالیت و محدودیت در دسترسی به اینترنت بین‌المللی، اکنون امکان آغاز مجدد فعالیت کانال فراهم شده است.

در این مدت، برنامه‌ریزی برای ارتقای کیفیت و توسعه فعالیت‌های کانال انجام شده و با طراحی سازوکاری جدید، فرآیند تولید و پیشنهاد محتوای کانال با بهره‌گیری از فناوری‌های هوش مصنوعی انجام خواهد شد.

هدف از این مسیر، تبدیل کانال به مرجعی تخصصی برای انتشار اخبار، تحولات، آموزش‌ها و ابزارهای حوزه هوش مصنوعی و علم داده به زبان فارسی است.

امید است با توکل بر خدا و همراهی شما مخاطبان گرامی، فصل جدید فعالیت کانال با کیفیتی بالاتر و محتوایی کاربردی‌تر ادامه یابد.


📊 DataScience — هوش مصنوعی و علم داده به فارسی
شهادت رهبر معظم انقلاب اسلامی، حضرت آیت‌الله سیدعلی حسینی خامنه‌ای، و جمعی از فرماندهان و هم‌میهنان عزیزمان در پی تجاوز وحشیانه آمریکایی-صهیونیستی را تسلیت عرض می‌کنیم. 🏴

#تا‌پای‌جان‌برای‌ایران

📊 DataScience — هوش مصنوعی و علم داده به فارسی