هوش مصنوعی و علم داده به فارسی
6.08K subscribers
982 photos
266 videos
318 files
1.06K links
🗨 ارتباط با ما (تبلیغات، سوال، پیشنهاد و انتقاد):
📩 @Contact2Mebot

💯 کانال دوم ما:
@Datascientists_Files

💎 در پیام‌رسان بله(آپدیت اتومات):
https://ble.ir/dataplusscience

💡 در پیام‌رسان ایتا(آپدیت اتومات):
https://eitaa.com/DataPlusScience
Download Telegram
سیر تحول از LLM تا Agentic AI

📝 مدل‌های زبانی (LLM): تنها بر پیش‌بینی توکن متکی‌اند؛ ساده و سریع، اما فاقد درک عمیق زمینه.
📚 بازیابی‌تقویت‌شده (RAG): با اتصال به پایگاه‌های دانش خارجی دقت پاسخ را افزایش می‌دهد، هرچند وابسته به کیفیت داده است.
🛠 عامل هوشمند (AI Agent): لایه‌های حافظه، استدلال، برنامه‌ریزی و ابزار را می‌افزاید و برای وظایف چندمرحله‌ای و خودکارسازی جریان‌کار مناسب است.
🌐 هوش عاملی (Agentic AI): ساختاری چندعاملی با حافظه و هماهنگی مشترک است که توانایی حل مسائل پیچیده و مقیاس‌پذیر را دارد، اما طراحی و کنترل آن دشوارتر است.

📌 این گذار به معنای جانشینی نیست، بلکه افزودن قابلیت‌های جدید بر لایه‌های پیشین است؛ با هر مرحله قدرت بیشتر و در عین حال ریسک، پیچیدگی و عدم قطعیت افزایش می‌یابد.


برای آموزش علم داده به جمع ما بپیوندید: 👇

📊👨‍🏫 @DataPlusScience | @DataScience
هوش مصنوعی و علم داده به فارسی
📌 آشنایی با ۸ معماری RAG در هوش مصنوعی در این تصویر، هشت معماری برتر RAG (Retrieval-Augmented Generation) معرفی شده‌اند که هر یک رویکرد متفاوتی برای ترکیب بازیابی داده‌ها و تولید محتوا توسط مدل‌های زبانی ارائه می‌دهند: 🛠 معماری Naive RAG – استفاده ساده از…
📌 ۱۰ ابزار برتر هوش مصنوعی عامل‌محور (Agentic AI Tools)

🤝 ابزار n8n – اتوماسیون گردش‌کار کم‌کد (Low-code workflow automation)، مناسب برای چندعاملی.

⚙️ ابزار Make.com – اتوماسیون بدون‌کد (No-code automation)، ویژه تیم‌های غیر فنی.

🧩 ابزار LangChain – فریم‌ورک ساخت برنامه‌های LLM و ابزارهای RAG پیچیده.

🤖 ابزار AutoGen – ارکستراسیون چندعاملی (Multi-agent orchestration) و همکاری انسان–هوش مصنوعی.

🔗 ابزار LangGraph – گردش‌کار مبتنی بر گراف، مسیردهی و ارکستراسیون پیشرفته.

🪄 ابزار Flowise – ابزار کشیدن و رها کردن (Drag-and-drop) برای ساخت سریع پایپ‌لاین‌های RAG.

👥 ابزار CrewAI – تیم‌های چندعاملی تخصصی با مدیریت نقش‌ها.

🌐 ابزار OpenAI Agentic Stack – یکپارچه در اکوسیستم ChatGPT، مناسب برای استقرار سریع.

📚 ابزار LlamaIndex – اتصال LLM به داده‌های خصوصی و حافظه بلندمدت.

🧠 ابزار Semantic Kernel – SDK توسعه ایجنت با اتصال‌گرهای داخلی (Built-in connectors).



برای آموزش علم داده به جمع ما بپیوندید: 👇

📊👨‍🏫 @DataPlusScience | @DataScience
@DataPlusScience__The Big Book of Generative AI.pdf
5.1 MB
📌 کتابچه جامع هوش مصنوعی مولد (The Big Book of Generative AI)
🔖 منتشرشده توسط Databricks

📖 این کتابچه یک راهنمای تخصصی و مرحله‌به‌مرحله برای ساخت و استقرار برنامه‌های GenAI است و مباحث کلیدی زیر را پوشش می‌دهد:

🔹 مدل‌های پایه (Foundation Models) – معرفی و مقایسه مدل‌های متن‌باز و تجاری مانند GPT و LLaMA.
🔹 مهندسی پرامپت (Prompt Engineering) – طراحی ورودی‌های بهینه برای بهبود دقت و کارایی LLMها.
🔹 بازیابی تقویت‌شده (RAG: Retrieval-Augmented Generation) – ارتقای کیفیت پاسخ‌ها با داده‌های ساخت‌یافته و غیرساخت‌یافته.
🔹 فاین‌تیون (Fine-Tuning) – شخصی‌سازی مدل‌ها با داده‌های سازمانی، شامل تکنیک‌های LoRA و QLoRA.
🔹 پیش‌آموزش (Pretraining) – آموزش مدل‌های زبانی از صفر برای دامنه‌های خاص.
🔹 ارزیابی LLMها (LLM Evaluation) – روش‌های سنجش کیفیت، دقت و قابلیت اعتماد مدل‌ها.

💡 کتاب شامل مطالعات موردی (Use Cases) و نمونه کدهای عملی است، از جمله:

تحلیل خودکار نظرات کاربران با LLMها
بهبود عملکرد RAG با داده‌های زنده
ساخت مدل اختصاصی برای مستندسازی خودکار



آموزش علم داده: 👇

📊👨‍🏫 @DataPlusScience
@DataPlusScince__A visual Intoroduction to Deep Learning.pdf
5.3 MB
🌟آموزش بصری یادگیری عمیق

📘 این کتاب به شما کمک می‌کند تا به صورت بصری و بدون استفاده از فرمول‌های پیچیده ریاضی و کدنویسی، مفاهیم یادگیری عمیق را درک کنید.

🔍 مباحث شامل: شبکه‌های عصبی، رگرسیون خطی و غیرخطی، طبقه‌بندی دودویی و چندکلاسه، و...

👨‍💻 نویسنده: معر عامر، دانش‌آموخته‌ی امپریال کالج لندن و متخصص یادگیری عمیق.


#یادگیری_عمیق #کتاب_الکترونیک #یادگیری_ماشین #هوش_مصنوعی #آموزش


برای آموزش علم داده به جمع ما بپیوندید: 👇

📊👨‍🏫 @DataPlusScience | @DataScience
سرمایه‌گذاری و شراکت غول‌های مشاوره در دنیای عامل‌های هوش مصنوعی

این نقشه نشان می‌دهد که شرکت‌های بزرگ مشاوره‌ای مثل Accenture، Deloitte، KPMG، PwC، EY، McKinsey، BCG و Bain از سال ۲۰۲۳ تاکنون بیش از صد مورد شراکت، سرمایه‌گذاری و خرید در استارتاپ‌های مرتبط با AI Agents داشته‌اند.

برای آشنایی بیشتر با اینکه چگونه این موج تازه، مدل سنتی صنعت مشاوره را دگرگون می‌کند، این مطلب را بخوانید.



برای آموزش علم داده به جمع ما بپیوندید: 👇

📊👨‍🏫 @DataPlusScience | @DataScience
📊 ماتریس مهارت‌های کلیدی در نقش‌های نوین هوش مصنوعی

این ماتریس نشان می‌دهد نقش‌های مختلف در اکوسیستم AI به مجموعه‌های متفاوتی از توانمندی‌ها نیاز دارند:

🤖 مهندس یادگیری ماشین (ML Engineer) و دانشمند داده (Data Scientist) بیشترین بار مهارتی را دارند؛ از الگوریتم‌های یادگیری ماشین و تحلیل آماری تا Deep Learning و MLOps.

📝 مهندس مدل‌های زبانی (LLM Engineer) و مهندس پرامپت (Prompt Engineer) بر مهارت‌های نوظهور مانند LLMs، RAG و Prompt Engineering متمرکز هستند.

🏗 معمار هوش مصنوعی (AI Architect) و مهندس تصمیم (Decision Engineer) باید توانایی بالایی در System Design & Architecture و طراحی سامانه‌های تصمیم‌یار داشته باشند.

دیگر نقش‌ها مانند مدیر مدل‌سازی (Model Manager) یا مهندس تحلیلی (Analytics Engineer) نیز به ترکیبی از مهارت‌های داده‌ای، مدل‌سازی و رهبری نیاز دارند.

🔑 پیام اصلی این ماتریس این است که آینده شغلی در AI تنها با یک ابزار یا زبان برنامه‌نویسی ساخته نمی‌شود؛ بلکه نیازمند ترکیب چندلایه‌ای از مهارت‌های فنی، داده‌ای، معماری و اخلاقی است که هر نقش را متمایز می‌کند.

📊👨‍🏫 @DataPlusScience
هوش مصنوعی و علم داده به فارسی
📌 ۱۰ ابزار برتر هوش مصنوعی عامل‌محور (Agentic AI Tools) 🤝 ابزار n8n – اتوماسیون گردش‌کار کم‌کد (Low-code workflow automation)، مناسب برای چندعاملی. ⚙️ ابزار Make.com – اتوماسیون بدون‌کد (No-code automation)، ویژه تیم‌های غیر فنی. 🧩 ابزار LangChain – فریم‌ورک…
🧠 نقشه‌ راه توسعه عامل‌های هوشمند (AI Agents)

این اینفوگرافی، ساختار هفت‌مرحله‌ای طراحی یک AI Agent را تبیین می‌کند:

1️⃣ تعریف System Prompt – تعیین Goals، Roles و Instructions به‌منظور تعریف رفتار و محدوده تصمیم‌گیری عامل.
2️⃣ مدل زبانی (LLM) – انتخاب مدل زبانی پایه و تنظیم Parameters جهت تطبیق با نیاز مسئله.
3️⃣ ابزارها (Tools) – یکپارچه‌سازی ابزارها، APIs و MCP Servers برای دسترسی به داده‌ها و اکشن‌های محیطی.
4️⃣ حافظه (Memory) – طراحی ساختارهای حافظه (Episodic، Vector DB، SQL DB و File Store) برای نگهداری دانش و زمینه.
5️⃣ ارکستراسیون (Orchestration) – مدیریت Workflows، Triggers، Message Queues و تعامل Agent2Agent به‌صورت پویا.
6️⃣ رابط کاربری (UI) – طراحی لایه‌ی تعامل کاربر با عامل برای مشاهده، هدایت و کنترل رفتار.
7️⃣ ارزیابی هوشمند (AI Evals) – ارزیابی و بهبود مستمر از طریق Performance Metrics و تحلیل تطبیقی خروجی‌ها.



برای آموزش علم داده به جمع ما بپیوندید: 👇

📊👨‍🏫 @DataPlusScience | @DataScience
@DataPlusScience - Hands-On Generative AI.pdf.pdf
21.8 MB
🤖 هوش‌ مصنوعی‌ مولد در عمل (Hands-On Generative AI)

📘 کتابی از انتشارات O’Reilly (۲۰۲۵) که به‌صورت کاربردی نحوه‌ی درک و پیاده‌سازی مدل‌های مولد (Generative Models) را آموزش می‌دهد. نویسندگان با تکیه بر تجربه‌های واقعی، روش استفاده از مدل‌های باز برای تولید متن، تصویر و صدا را شرح داده و ملاحظات اخلاقی را برجسته می‌کنند.

🧩 بخش نخست (Leveraging Open Models) به مفاهیم مدل‌های مولد، سازوکار ترنسفورمرها (Transformers)، فشرده‌سازی با VAE و ساخت مدل‌های Stable Diffusion و CLIP می‌پردازد.

🧠 بخش دوم (Transfer Learning) آموزش Fine-Tuning مدل‌های زبانی و تصویری را با ابزارهایی چون DreamBooth، LoRA و Quantization توضیح می‌دهد.

🎨 بخش پایانی (Going Further) کاربردهای خلاقانه‌ی Text-to-Image و Audio Generation را بررسی کرده و حوزه‌های نوینی چون 3D Vision، Video Generation و Multimodal AI را معرفی می‌کند.


برای آموزش علم داده به جمع ما بپیوندید: 👇

📊👨‍🏫 @DataPlusScience | @DataScience
🎓 دوره تخصصی Building Agentic AI Systems — with Andrew Ng

🔹 این دوره‌ی رایگان توسط Andrew Ng، از بنیان‌گذاران Google Brain و Coursera، ارائه شده و به آموزش طراحی و توسعه‌ی سامانه‌های Agentic AI می‌پردازد.

سرفصل‌های اصلی این دوره:
1️⃣ مقدمه بر هوش مصنوعی عاملی (Introduction to Agentic AI) — آشنایی با مفهوم iterative multi-step workflows و مزایای آن نسبت به مدل‌های سنتی.
2️⃣ الگوی بازتاب (Reflection Pattern) — طراحی سازوکارهایی برای self-critique و output improvement.
3️⃣ الگوی استفاده از ابزارها (Tool Use Pattern) — اتصال مدل به APIs, databases و محیط‌های code execution.
4️⃣ نکات عملی در پیاده‌سازی (Practical Implementation) — evaluation metrics, error analysis و system optimization.
5️⃣ برنامه‌ریزی و چندعاملی (Planning & Multi-Agent Systems) — ساخت autonomous agents و هماهنگی بین چند عامل هوشمند.

🧠 پروژه نهایی: توسعه‌ی یک Research Agent خودکار برای جمع‌آوری داده، تحلیل و تولید گزارش پژوهشی.

🔗 ثبت‌نام : https://zaya.io/a8r0a

برای آموزش علم داده به جمع ما بپیوندید: 👇

📊👨‍🏫 @DataPlusScience
@DataPlusScience -Advanced-RAG-Techniques.pdf
13.1 MB
🧠 تکنیک‌های پیشرفته‌ی RAG

📘 این کتابچه راهنمایی برای بهینه‌سازی سامانه‌های تولید مبتنی بر بازیابی (Retrieval-Augmented Generation) است؛ مدلی که دقت و واقع‌گرایی پاسخ‌های مدل‌های زبانی بزرگ (LLMs) را با اتصال به پایگاه دانش بیرونی افزایش می‌دهد.

📊 کتاب چهار مرحله‌ی اصلی RAG را پوشش می‌دهد:

🔹 نمایه‌سازی (Indexing): شامل پیش‌پردازش داده و استراتژی‌های تقسیم‌بندی (Chunking) برای بهبود ساختار و جست‌وجو
🔹 پیش‌بازیابی (Pre-Retrieval): بازنویسی و مسیردهی هوشمند پرسش‌ها با کمک مدل‌های زبانی بزرگ
🔹 بازیابی (Retrieval): استفاده از فیلتر متادیتا، جست‌وجوی ترکیبی (Hybrid Search) و فاین‌تیون مدل‌های Embedding
🔹 پس‌بازیابی (Post-Retrieval): باز‌رتبه‌بندی (Re-ranking)، فشرده‌سازی متن و مهندسی پرامپت (Prompt Engineering) برای افزایش کیفیت پاسخ

این منبع برای پژوهشگران و توسعه‌دهندگانی مناسب است که می‌خواهند عملکرد سیستم‌های RAG و Chatbot خود را بهبود دهند.



برای آموزش علم داده به جمع ما بپیوندید: 👇

📊👨‍🏫 @DataPlusScience | @DataScience
📊 نقشه مهارت‌های علم داده (Data Science Competency Map)

🧠 این نمودار چارچوب مهارتی علم داده را نشان می‌دهد؛ ترکیبی از دانش ریاضی، آماری و فنی برای تحلیل، مدل‌سازی و استقرار سامانه‌های هوشمند داده‌محور.

📐 ریاضیات: جبر خطی، بهینه‌سازی و کاهش بُعد برای پایه‌گذاری الگوریتم‌های تحلیلی

💻 برنامه‌نویسی: تسلط بر Python، R و پایگاه‌های داده (SQL، MongoDB)

🎲 احتمال و آمار: توزیع‌ها، آزمون فرض و رگرسیون برای اعتبارسنجی نتایج

⚙️ مهندسی ویژگی: انتخاب و تولید ویژگی‌های مؤثر در یادگیری مدل

🤖 یادگیری ماشین: آموزش، ارزیابی و بهینه‌سازی مدل‌ها با رویکرد داده‌محور

🧬 یادگیری عمیق: طراحی شبکه‌های عصبی با TensorFlow و PyTorch

💬پردازش زبان NLP: تحلیل متون و بردارهای معنایی واژه‌ها

📊 بصری‌سازی داده: Tableau، Power BI و Qlik برای تحلیل تصویری

☁️ استقرار مدل: Azure، Flask و Django برای پیاده‌سازی عملیاتی

تلفیق این مهارت‌ها زیربنای نقش دانشمند داده (Data Scientist) را می‌سازد.


برای آموزش علم داده به جمع ما بپیوندید: 👇

📊👨‍🏫 @DataPlusScience | @DataScience
@DataPlusScience - AI Engineering.pdf
31.9 MB
🧠 کتاب مهندسی هوش مصنوعی (AI Engineering)

📘 این کتاب تازه منتشر شده مجموعه‌ای ساختارمند از مبانی و فناوری‌های کلیدی مهندسی هوش مصنوعی است؛ مسیری از طراحی مدل تا استقرار سیستم‌های هوشمند در مقیاس صنعتی.

⚙️ مهندسی داده (Data Engineering): شامل جمع‌آوری، یکپارچه‌سازی و پاک‌سازی داده‌ها برای ساخت پایگاه دانشی قابل‌اتکا جهت مدل‌های یادگیری.

🧩 یادگیری ماشین (Machine Learning): فرآیند انتخاب الگوریتم، تنظیم ابرپارامترها، و ارزیابی عملکرد مدل‌ها بر پایه‌ی داده‌های تجربی.

🧬 یادگیری عمیق (Deep Learning): توسعه‌ی شبکه‌های عصبی پیچیده با چارچوب‌های TensorFlow و PyTorch برای تحلیل داده‌های غیرخطی و چندبعدی.

🧠 عملیات یادگیری ماشینی (MLOps): خودکارسازی چرخه‌ی آموزش، ارزیابی، نسخه‌بندی و استقرار مدل‌ها در مقیاس سازمانی.

☁️ استقرار و نظارت (Deployment & Monitoring): طراحی معماری‌های ابری، پایش مستمر عملکرد و تضمین پایداری و اخلاق مدل در محیط تولید.



برای آموزش علم داده به جمع ما بپیوندید: 👇

📊👨‍🏫 @DataPlusScience | @DataScience
1
🎓 هفته رایگان DataCamp

از ۱۲ تا ۱۸ آبان، فرصت دارید به تمام دوره‌های آموزشی DataCamp به‌صورت کامل و رایگان دسترسی داشته باشید.
در این بازه می‌توانید مهارت‌های داده‌محور مورد علاقه‌تان را یاد بگیرید، پروژه‌های عملی انجام دهید و حتی گواهی پایان‌دوره معتبر دریافت کنید.

🔗 لینک دسترسی: datacamp.com


برای آموزش علم داده به جمع ما بپیوندید: 👇

📊👨‍🏫 @DataPlusScience | @DataScience
1
جی‌پی‌تی (GPT) شبیه چه کسی است؟!

در پژوهشی از دانشگاه هاروارد، پاسخ‌های GPT به مجموعه‌ای از شاخص‌های روان‌شناختی و ارزش‌های اجتماعی (با تکیه بر داده‌های World Values Survey از ۹۴ هزار نفر) با پاسخ‌های مردم ۶۵ کشور مقایسه شده است. یافته‌ها نشان می‌دهند که GPT شباهت زیادی به جوامع غربی (Western)، تحصیل‌کرده (Educated)، صنعتی (Industrialized)، ثروتمند (Rich) و دموکراتیک (Democratic) (که با اصطلاح WEIRD شناخته می‌شوند) دارد و در مقابل، فاصله زیادی با جوامعی مانند اتیوپی، پاکستان یا قرقیزستان.

در واقع، GPT بیشتر شبیه ساکنان جوامع WEIRD است: فردگرا (individualistic)، و دارای سبک تفکر تحلیلی (analytic thinking). وقتی از GPT می‌پرسند "انسان معمولی کیست؟"، تصویری که ارائه می‌دهد با خودپنداره‌ی رابطه‌محور (relational self-concept) که در بسیاری از فرهنگ‌ها رایج است، فاصله دارد. این یعنی GPT نه تنها از دیدگاه خاصی به جهان نگاه می‌کند، بلکه تصورش از "انسان عادی" هم WEIRD است.

متن کامل مقاله را اینجا بخوانید


برای آموزش علم داده به جمع ما بپیوندید: 👇
📊👨‍🏫 @DataPlusScience | @DataScience
1
@DataPlusScience_AI Agents Basics.pdf
3.9 MB
📌 آشنایی با عامل‌های هوش مصنوعی (AI Agents)
🔹 یک راهنمای جامع برای درک عامل‌های هوش مصنوعی و نحوه عملکرد آن‌ها

این داکیومنت توسط گوگل منتشر شده و به بررسی مفهوم عامل‌های هوش مصنوعی (AI Agents) می‌پردازد. عامل‌ها می‌توانند از مدل‌های زبانی استفاده کنند، داده‌ها را پردازش کنند، ابزارهای مختلف را به کار گیرند و تصمیم‌گیری‌های هوشمندانه‌ای انجام دهند.

📝 سرفصل‌ مطالب:
معرفی عامل‌های هوش مصنوعی و تفاوت آن‌ها با مدل‌های زبانی (Language Models)
بررسی معماری شناختی (Cognitive Architecture) عامل‌ها
استفاده از ابزارها (Tools) برای تعامل با داده‌های واقعی
پیاده‌سازی عامل‌های هوش مصنوعی با LangChain و Vertex AI
نمونه‌کدهای کاربردی برای استفاده از عامل‌ها در محیط‌های تولیدی

📌 این مستند برای توسعه‌دهندگان، پژوهشگران و علاقه‌مندان به هوش مصنوعی که می‌خواهند با عامل‌های هوش مصنوعی کار کنند، بسیار مفید است.


برای آموزش علم داده به جمع ما بپیوندید: 👇

📊👨‍🏫 @DataPlusScience | @DataScience
پایگاه‌های داده برداری

این تصویر، سامانه‌های Vector Database و پایگاه‌های دادهٔ پشتیبان Vector Search را در چهار رده نشان می‌دهد:

۱) اختصاصی متن‌باز:
ابزارهایی مانند Chroma، Vespa، LanceDB، Marqo، Qdrant و Milvus که به‌طور ویژه برای ذخیره‌سازی و بازیابی برداری طراحی شده‌اند.

۲) عمومی متن‌باز با جستجوی برداری:
شامل OpenSearch، ClickHouse، PostgreSQL و Cassandra که این قابلیت را به‌صورت ماژولی ارائه می‌کنند.

۳) اختصاصی تجاری
: Weaviate و Pinecone که خدمات سازمانی و مدیریت‌شده فراهم می‌سازند.

۴) عمومی تجاری با پشتیبانی برداری:
Elasticsearch، Redis، Rockset و SingleStore که امکان جستجوی برداری را در کنار دادهٔ سنتی فراهم می‌کنند.

مطالعه بیشتر


برای آموزش علم داده به جمع ما بپیوندید: 👇

📊👨‍🏫 @DataPlusScience | @DataScience
1
آشنایی با ترنسفومر

تولید شده توسط مدل Gemini 3 Nano Banana pro!


برای آموزش علم داده به جمع ما بپیوندید: 👇

📊👨‍🏫 @DataPlusScience | @DataScience
بر اساس نتایج مطالعه‌ اخیر Gartner که بر مبنای نظرسنجی از گروهی از مدیران ارشد فناوری اطلاعات انجام شده است، الگوی تغییر بودجه‌ فناوری از سال ۲۰۲۵ تا ۲۰۲۶ نسبتاً روشن است. بیشترین رشد بودجه به حوزه‌های هوش مصنوعی مولد، هوش مصنوعی و هوش تجاری و تحلیل داده‌ها اختصاص دارد؛ به‌طوری‌که بیش از ۸۰ درصد پاسخ‌دهندگان در این حوزه‌ها از افزایش بودجه خبر داده‌اند و میانگین رشد به‌ترتیب حدود ۳۸، ۳۶ و ۲۵ درصد گزارش شده است!



برای آموزش علم داده به جمع ما بپیوندید: 👇

📊👨‍🏫 @DataPlusScience | @DataScience
🤖🧠 شورای LLM | اجماع چندمدلی برای پاسخ‌های دقیق‌تر

رویکرد LLM Council به‌جای تکیه بر یک مدل زبانی، چند LLM را هم‌زمان وارد بازی می‌کند تا مثل یک «شورای کارشناسی هوش مصنوعی» روی یک سؤال فکر کنند، پاسخ بدهند و خطای همدیگر را بگیرند.

فرآیند سه‌مرحله‌ای است:

1️⃣ هر مدل به‌طور مستقل پاسخ خودش را تولید می‌کند.
2️⃣ مدل‌ها به‌صورت ناشناس پاسخ‌های بقیه را از نظر دقت، انسجام و عمق تحلیل ارزیابی و رتبه‌بندی می‌کنند.
3️⃣ یک مدل به‌عنوان «رئیس شورا» بهترین بخش‌ها را ترکیب می‌کند و یک پاسخ نهایی منسجم و بهینه می‌سازد.

کاربرد این رویکرد برای سناریوهای تصمیم‌گیری حساس، تحلیل‌های علمی و مسائل پیچیده است؛ جایی که یک خروجی واحد کافی نیست و نیاز به چند دیدگاه الگوریتمی وجود دارد.


برای آموزش علم داده به جمع ما بپیوندید: 👇

📊👨‍🏫 @DataPlusScience | @DataScience
🧠 مراحل ایجاد سیستم RAG: هشت گام ضروری

تصویر بالا، ۸ گام کلیدی سیستم RAG (تولید تقویت‌شده با بازیابی) را نشان می‌دهد که دانش LLM را به‌روز و تقویت می‌کند:

🗂 جمع‌آوری داده‌ها: دریافت داده‌های متنوع (API، وب، ETL) برای ایجاد مخزن دانش اولیه.

🧹 پاک‌سازی و پیش‌پردازش: حذف PII، استانداردسازی و اجرای OCR برای افزایش کیفیت و اعتبار داده‌ها.

✂️ قطعه‌بندی و ساختاربندی: تقسیم اسناد به قطعات (Chunks) با اندازه بهینه، جهت حفظ بافت و بازیابی دقیق‌تر.

🧬 تولید امبدینگ: تبدیل متون به بردارهای عددی (Vector) توسط مدل‌های ترنسفورمر برای درک معنایی.

🗃 پایگاه داده وکتور: ذخیره و سازماندهی بردارها در دیتابیس‌های تخصصی (Pinecone) برای جستجوی سریع.

🔍 بازیابی و رتبه‌بندی: یافتن مرتبط‌ترین بردارها با جستجوی هیبرید و رتبه‌بندی مجدد (Re-ranking) برای دقت نهایی.

📝 ارکستراسیون و پرامپت‌سازی: تزریق قطعات بازیابی شده به پرامپت و هدایت LLM برای تولید پاسخ دقیق.

📊 ارزیابی و نظارت: سنجش عملکرد با معیارهای کمی و بازخورد انسانی، جهت شناسایی توهم (Hallucination) و بهبود.



📊👨‍🏫 @DataPlusScience | @DataScience