هوش مصنوعی و علم داده به فارسی
6.08K subscribers
980 photos
262 videos
316 files
1.05K links
🗨 ارتباط با ما (تبلیغات، سوال، پیشنهاد و انتقاد):
📩 @Contact2Mebot

💯 کانال دوم ما:
@Datascientists_Files

💎 در پیام‌رسان بله(آپدیت اتومات):
https://ble.ir/dataplusscience

💡 در پیام‌رسان ایتا(آپدیت اتومات):
https://eitaa.com/DataPlusScience
Download Telegram
🤖 LLMها در پیش‌بینی اکتشافات علمی ناتوانند

‏تحقیقات جدیدی از دانشگاه آکسفورد، استنفورد و موسسه آلن نشان می‌دهد که مدل‌های زبانی بزرگ (LLM) فعلی در پیش‌بینی اکتشافات علمی آینده عملکرد ضعیفی دارند. این مدل‌ها که بر اساس داده‌های موجود آموزش دیده‌اند، در پاسخ به سوالات درباره رویدادهای آینده، اغلب با اتکا به دانش گذشته، پاسخ‌های نادرستی ارائه می‌دهند.

⚡️ برای ارزیابی دقیق‌تر، بنچمارک CUSP (مخفف عبارت انگلیسی) طراحی شده است که مدل‌ها را مجبور می‌کند تا بر اساس اطلاعات موجود تا یک تاریخ مشخص، آینده را پیش‌بینی کنند. در این بنچمارک، مدل‌هایی مانند GPT-4.5 و Claude Sonnet 4.5 در انتخاب جهت‌گیری‌های فنی احتمالی عملکرد نسبتاً خوبی داشتند (حدود ۸۲٪ دقت)، اما در پیش‌بینی وقوع یا عدم وقوع یک دستاورد خاص، دقت آن‌ها به حد شانس (۴۵-۵۲٪) کاهش یافت.

🟡 Arxiv
📊 DataScience — هوش مصنوعی و علم داده به فارسی
📩 ارتباط با ما


#پژوهش #LLM
🚀 نقشه راه جامع مهندسی هوش مصنوعی

‏این نقشه راه ۸ مرحله‌ای، مسیر یادگیری مهندسی هوش مصنوعی را از مبانی برنامه‌نویسی تا استقرار مدل‌ها و ساخت پروژه‌های واقعی پوشش می‌دهد. مراحل شامل یادگیری زبان پایتون، ساختار داده، الگوریتم‌ها، کار با داده، یادگیری ماشین، یادگیری عمیق، هوش مصنوعی مولد (Generative AI)، اتوماسیون و عامل‌های هوشمند، و در نهایت استقرار و MLOps است.

🔹 مرحله ۱: مبانی برنامه‌نویسی با پایتون، ساختار داده، الگوریتم‌ها، APIها، JSON و مفاهیم شی‌گرایی (OOP) آغاز می‌شود. ابزارهای کلیدی شامل Visual Studio Code، Git و GitHub هستند.
🔸 مرحله ۲: پردازش و تحلیل داده شامل پاکسازی داده، بصری‌سازی، مهندسی ویژگی (Feature Engineering) و مبانی SQL است. کتابخانه‌های مهم عبارتند از Pandas، NumPy و Matplotlib.
💡 مرحله ۳: یادگیری ماشین به یادگیری نظارت‌شده (Supervised Learning)، نظارت‌نشده (Unsupervised Learning)، آموزش مدل و ارزیابی آن می‌پردازد. چارچوب‌های اصلی Scikit-learn و XGBoost هستند.
🧠 مرحله ۴: یادگیری عمیق شامل شبکه‌های عصبی، CNN، RNN، ترنسفورمرها (Transformers) و تنظیم دقیق مدل‌ها (Fine-Tuning) است. چارچوب‌های کلیدی TensorFlow، PyTorch و Keras می‌باشند.
🚀 مرحله ۵: هوش مصنوعی مولد و LLMها بر مهندسی پرامپت (Prompt Engineering)، چت‌بات‌های هوش مصنوعی، کاربردهای RAG (Retrieval-Augmented Generation) و عامل‌های هوش مصنوعی تمرکز دارد. ابزارهای مهم شامل ChatGPT، LangChain، LlamaIndex و Hugging Face Transformers هستند.
⚡️ مرحله ۶: اتوماسیون و عامل‌های هوش مصنوعی شامل اتوماسیون گردش کار، سیستم‌های هوش مصنوعی خودکار، فراخوانی ابزار (Tool Calling) و سیستم‌های چندعاملی (Multi-Agent Systems) است. پلتفرم‌های یادگیری شامل n8n، CrewAI و AutoGen هستند.
☁️ مرحله ۷: استقرار و MLOps به توسعه API، Docker، Kubernetes، مبانی CI/CD و استقرار در ابر (Cloud Deployment) می‌پردازد. پلتفرم‌های کلیدی FastAPI، Docker، Kubernetes و AWS هستند.
🎯 مرحله ۸: ساخت پروژه‌های واقعی مهندسی هوش مصنوعی برای تقویت مهارت‌ها با پروژه‌هایی مانند تحلیلگر رزومه، ربات پشتیبانی مشتری، محصول SaaS مبتنی بر هوش مصنوعی، دستیار صوتی و سیستم اتوماسیون گردش کار.


🔹 ابزارهای برنامه‌نویسی مانند Visual Studio Code برای ویرایش کد و Git/GitHub برای مدیریت نسخه ضروری هستند.
🔸 کتابخانه‌های کلیدی علم داده شامل Pandas برای دستکاری داده، NumPy برای محاسبات عددی و Matplotlib برای بصری‌سازی است.
💡 چارچوب‌های یادگیری عمیق مانند TensorFlow و PyTorch امکان ساخت و آموزش شبکه‌های عصبی پیچیده را فراهم می‌کنند.
🧠 ابزارهای هوش مصنوعی مولد مانند LangChain و LlamaIndex به توسعه برنامه‌های مبتنی بر LLM کمک می‌کنند.
🚀 پلتفرم‌های اتوماسیون مانند CrewAI و AutoGen برای ساخت سیستم‌های چندعاملی کارآمد هستند.
☁️ ابزارهای استقرار مانند Docker و Kubernetes برای بسته‌بندی و مدیریت برنامه‌های هوش مصنوعی در محیط‌های مختلف حیاتی‌اند.



📊 DataScience — هوش مصنوعی و علم داده به فارسی


#آموزش #Transformers
🤖 SkillOpt مایکروسافت: بهینه‌سازی مهارت ایجنت‌ها بدون تغییر مدل

‏مایکروسافت SkillOpt را معرفی کرده، روشی برای آموزش مهارت‌های ایجنت‌های هوش مصنوعی بدون نیاز به بازآموزی مدل پایه. این رویکرد، فایل دستورالعمل‌های ایجنت را به عنوان آرتیفکتی قابل آموزش در نظر می‌گیرد.

💡 به جای دستکاری مدل، یک مدل بهینه‌ساز مجزا تغییرات دقیقی را در سند مهارت پیشنهاد می‌دهد. این تغییرات تنها در صورت بهبود عملکرد بر روی مجموعه اعتبارسنجی پذیرفته می‌شوند.

📊 نتایج نشان داد که SkillOpt بر روی 6 بنچمارک، 7 مدل و 3 حالت کاری (direct chat, Codex, Claude Code) آزمایش شد و در تمام 52 مورد بررسی شده، بهترین یا هم‌رده بهترین عملکرد را داشت.

arxiv.org/abs/2605.23904


📊 DataScience — هوش مصنوعی و علم داده به فارسی
📩 ارتباط با ما


#محصول #AgentAI
🤖 رشد ارجاع‌های ساختگی در مقالات علمی

بررسی ۲.۵ میلیون مقاله نشان داد که در سال ۲۰۲۵ حدود ۱۴۷,۰۰۰ ارجاع به مطالعات غیرموجود منتشر شد. این ارجاعات توسط سیستم‌های هوش مصنوعی ساخته‌شده و بدون کشف به متون علمی اضافه شده‌اند. نرخ وقوع این پدیده از یک بار در هر ۲,۸۲۸ مقاله در ۲۰۲۳ به پیش‌بینی یک بار در هر ۲۷۷ مقاله تا اوایل ۲۰۲۶ ارتقا یافته است.


🔹 آمار کل: حدود ۱۴۷,۰۰۰ ارجاع ساختگی در سال ۲۰۲۵ ثبت شد.
🔸 منشأ: تولید خودکار توسط سامانه‌های AI بدون کنترل کیفیت.
💡 روند افزایشی: از ۱/۲,۸۲۸ (۲۰۲۳) به ۱/۲۷۷ (۲۰۲۶) پیشروی کرده و شتابی افزایشی دارد.


📊 DataScience — هوش مصنوعی و علم داده به فارسی
📩 ارتباط با ما


#خبر #RLHF
🚀 دوره متن‌باز مهندسی هوش مصنوعی

🔹 دوره شامل 435 درس (پوشش کامل مبانی تا پیشرفته) و بیش از 320 ساعت محتوا است که هم‌زمان با مثال‌های عملی ارائه می‌شود.
🔸 محور یادگیری در این مسیر، استفاده از Python، TypeScript و Rust برای ساخت AI agents، سرورهای MCP، پرامپت‌ها و مهارت‌های هوش مصنوعی است.
💡 پلتفرم به‌عنوان یک نقشه راه جامع، تمام مباحث مهندسی AI را از صفر تا استقرار واقعی پوشش می‌دهد.

GitHub Repository


🔹 زبان‌ها: ترکیب Python برای علم داده، TypeScript برای برنامه‌نویسی وب، و Rust برای بهینه‌سازی سیستمی.


📊 DataScience — هوش مصنوعی و علم داده به فارسی
📩 ارتباط با ما


#آموزش #AgentAI
🤖 ۱ مخزن Transformer برای Vision، Audio و Agents

🔹 این مخزن (transformers-the-definitive-guide) پیاده‌سازی‌های جامع Transformer را برای کاربردهای بینایی ماشین، پردازش صوتی و عوامل هوش مصنوعی فراهم می‌کند.
💡 شامل مثال‌ها و اسکریپت‌های آماده است که می‌توانند به‌سرعت در پروژه‌های تحقیقاتی یا تولیدی ادغام شوند.


🔸 Vision: مدل‌های Vision Transformer (ViT) برای تشخیص تصویر و طبقه‌بندی ارائه شده‌اند.
🔹 Audio: پیاده‌سازی‌های Whisper و مدل‌های توجه‌پراکنده برای پردازش گفتار موجود‌اند.
💡 Agents: چارچوب‌های RLHF (آموزش تقویتی با بازخورد انسانی) برای ساخت عوامل تعاملی تعبیه شده‌اند.


📊 DataScience — هوش مصنوعی و علم داده به فارسی
📩 ارتباط با ما


#معرفی #Transformers
🤖 معماری جدید توسعه نرم‌افزار با هوش مصنوعی از نگاه اسبربانک
‏تحلیل عمیق وایت‌پیپر 337 هزار کاراکتری "AI-Disrupt PDLC" اسبربانک، معماری واقعی گذار به توسعه مبتنی بر عامل (agent-based development) را آشکار می‌کند و بر تغییر پارادایم از کدنویسی به تعریف قصد (intent) تمرکز دارد.

🔹 تغییر پارادایم: تمرکز اصلی بر گذار از نوشتن کد به تعریف قصد است، جایی که کد به یک مصنوع ثانویه تبدیل می‌شود و مشخصات اولیه اهمیت می‌یابند.
🔸 شکاف اکتشاف (Discovery Gap): صرفاً تطبیق فرآیندهای قدیمی با ابزارهای جدید، تنها رشد خطی 11 تا 25 درصدی را به همراه دارد.

📊 DataScience — هوش مصنوعی و علم داده به فارسی 🇮🇷
📩 ارتباط با ما


#مقاله #AgentAI
🤖 رشد شگفت‌انگیز Anthropic به ۹۶۵ میلیارد دلار

🔹 Anthropic در آخرین دور سرمایه‌گذاری ۶۵ میلیارد دلار جذب کرد و پس از آن ارزش کل شرکت به ۹۶۵ میلیارد دلار رسید.
🔸 این افزایش ارزش نسبت به سه ماه پیش که تنها ۳۰ میلیارد دلار با ارزش ۳۸۰ میلیارد دلاری داشت، بیش از ۲٫۵  برابر است.
💡 Claude (مدل زبانی Anthropic) نقش کلیدی در این رشد داشته و درآمد سالیانه شرکت از پلتفرم‌های هوش مصنوعی به بیش از ۴۷ میلیارد دلار رسیده است.


🔹 سرمایه‌گذاران استراتژیک: سامسونگ، SK Hynix و Micron به عنوان شرکای زیرساختی مشارکت کردند؛ این نشان می‌دهد رقابت هوش مصنوعی به فقط مدل‌ها محدود نیست بلکه به دسترسی به حافظه، GPU و دیتاسنترها هم گسترش یافته است.


📊 DataScience — هوش مصنوعی و علم داده به فارسی 🇮🇷
📩 ارتباط با ما


#خبر #Anthropic
💰 Anthropic با ارزش‌گذاری 965 میلیارد دلاری 65 میلیارد دلار جذب کرد

💡 شرکت Anthropic با جذب سرمایه 65 میلیارد دلاری و رسیدن به ارزش‌گذاری 965 میلیارد دلاری، رسماً از OpenAI پیشی گرفت. درآمد سالانه تکرارشونده (ARR) این شرکت نیز در ماه جاری از مرز 47 میلیارد دلار عبور کرده است.


🔹 ارزش‌گذاری: Anthropic اکنون با ارزش 965 میلیارد دلار، از نظر مالی بزرگتر از OpenAI محسوب می‌شود.
🔸 درآمد: درآمد سالانه تکرارشونده (ARR) این شرکت به بیش از 47 میلیارد دلار رسیده است.


📊 DataScience — هوش مصنوعی و علم داده به فارسی 🇮🇷
📩 ارتباط با ما


#خبر #Anthropic
This media is not supported in your browser
VIEW IN TELEGRAM
🛡️ دفاع سایبری هوش مصنوعی گوگل

‏گوگل از راه‌اندازی «Google AI threat defense» خبر داد، یک راه‌حل امنیت سایبری جدید مبتنی بر هوش مصنوعی که برای نظارت مستمر و توقف تهدیدات سایبری تقویت‌شده با AI، قبل از تأثیرگذاری بر کسب‌وکارها، طراحی شده است.


🔹 این سیستم با ترکیب فناوری‌هایی مانند Wiz (پلتفرم مدیریت ریسک ابری)، مدل‌های هوش مصنوعی پیشرفته Gemini و سایر مدل‌های پیشرو هوش مصنوعی (frontier AI models)، امنیت را تقویت می‌کند.
🔸 همچنین، CodeMender (ابزاری برای ترمیم خودکار کد) و ایجنت‌های امنیتی خودکار (autonomous security agents) نیز بخشی از این راه‌حل هستند.
💡 هدف اصلی این سیستم اولویت‌بندی ریسک‌ها، اسکن برنامه‌ها، شناسایی آسیب‌پذیری‌ها و تسریع فرآیند رفع اشکالات امنیتی است.


📊
DataScience
— هوش مصنوعی و علم داده به فارسی
📩
ارتباط با ما


#خبر #Google
🤖 پلتفرم AI برای کشف دارو در چین

🔹 چین یک پلتفرم هوش مصنوعی برای کشف دارو راه‌اندازی کرده که کتابخانه‌های بزرگ ترکیبات شیمیایی را در ثانیه‌ها اسکن می‌کند؛ زمان غربالگری اولیه که پیشتر ماه‌ها یا سال‌ها طول می‌کشید، به چند ثانیه کاهش یافته است.
🔸 این پیشرفت نشانگر تغییر اساسی در زمان‌بندی پژوهش‌های زیست‌فناورانه در اواخر دهه ۲۰۲۰ است و نشان می‌دهد ابزارهای مبتنی بر AI می‌توانند فرایندهای پیش‌دارویی را به‌صورت لحظه‌ای انجام دهند.
💡 با ادغام گسترده هوش مصنوعی در بیوتکنولوژی، انتظار می‌رود سرعت توسعهٔ داروها به‌طور چشمگیری افزایش یابد.

📊 DataScience — هوش مصنوعی و علم داده به فارسی
📩 ارتباط با ما


#خبر #DrugDiscovery
🤖 مدل 8B پارامتری MoE برای اجرا روی دستگاه‌های معمولی

‏شرکت Liquid AI مدل LFM2.5-8B-A1B را معرفی کرده است؛ یک مدل Mixture-of-Experts (MoE) با 8 میلیارد پارامتر که تنها 1.5 میلیارد پارامتر آن در هر مرحله فعال است. این مدل برای اجرا روی دستگاه‌هایی مانند تلفن‌های همراه، لپ‌تاپ‌ها و ربات‌ها بهینه‌سازی شده است.

این معماری هیبریدی MoE از خط تولید LFM2.5 بهره می‌برد و دارای پنجره زمینه (context window) 128 هزار توکن است. مدل بر روی 38 تریلیون توکن پیش‌آموزش دیده و سپس با استفاده از یادگیری تقویتی (RL) تقویت شده است.

📊 DataScience — هوش مصنوعی و علم داده به فارسی
📩 ارتباط با ما


#خبر #LiquidAI
This media is not supported in your browser
VIEW IN TELEGRAM
ابزاری برای عبور از محدودیت‌های توکن در مدل‌های زبانی بزرگ

‏این ابزار یک افزونه مرورگر است که به کاربران اجازه می‌دهد مکالمات خود را با مدل‌های زبانی بزرگ مانند ChatGPT، Gemini و Claude بین اکانت‌های مختلف منتقل کنند. این قابلیت به طور چشمگیری در مصرف توکن صرفه‌جویی کرده و از نیاز به کپی دستی پرامپت‌ها و پاسخ‌ها جلوگیری می‌کند.


🔹 قابلیت‌ها: این افزونه قادر است مکالمات را بین اکانت‌ها منتقل کرده، زمینه، نتایج و داده‌های مهم را حفظ کند و کار با مدل‌ها را پس از رسیدن به محدودیت توکن، تسهیل نماید.
🔸 کاربرد: برای افرادی که به طور مداوم با مدل‌های زبانی کار می‌کنند، این ابزار یک راهکار کارآمد برای حفظ پیوستگی مکالمات و جلوگیری از اتلاف وقت در کپی دستی محسوب می‌شود.


📊 DataScience — هوش مصنوعی و علم داده به فارسی
📩 ارتباط با ما
🛠 بهینه‌سازی توکنایزر Unigram توسط Perplexity AI

‏شرکت Perplexity AI یک پیاده‌سازی جدید و متن‌باز از توکنایزر Unigram را منتشر کرده است که توانسته مصرف CPU را تا 5-6 برابر در محیط عملیاتی کاهش دهد. این بهبود عمدتاً به دلیل رفع گلوگاه‌های موجود در بخش توکنیزاسیون بوده است، نه خود مدل.

🔹 توکنیزاسیون CPU، نه مدل، گلوگاه اصلی بود، به خصوص برای مدل‌های کوچک‌تر که زمان پردازش GPU آن‌ها بسیار کوتاه است.
🔸 پیاده‌سازی مرجع دارای الگوهای پرهزینه‌ای بود: بیش از 7000 تخصیص حافظه (heap allocation) برای هر encode و استفاده از HashMap در هر گره از ساختار Trie که منجر به افزایش نرخ miss در کش L2 می‌شد.
💡 با رفع مشکل تخصیص حافظه قبل از هرگونه تغییر در ساختار Trie، زمان پردازش از 326 میکروثانیه به 155 میکروثانیه کاهش یافت.
سه بهینه‌سازی کلیدی منجر به نتیجه نهایی شدند: استفاده از Double-array trie، بسته‌بندی داده‌ها با Bitmap و cache-line packing، و استفاده از huge pages (2MB) برای کاهش دسترسی به حافظه.
🚀 در نهایت، توکنایزر جدید Perplexity با حدود 63 میکروثانیه و بدون تخصیص حافظه، عملکردی 3.5 برابر بهتر نسبت به پیاده‌سازی Hugging Face (349 میکروثانیه و 7295 تخصیص) در پردازش 514 توکن نشان داد.


📌 جزئیات فنی: پیاده‌سازی جدید از ساختار Double-array trie استفاده می‌کند که به جای 4 بار بارگذاری وابسته در هر بایت، تنها به 2 بار خواندن آرایه و 1 اضافه کردن نیاز دارد.
📌 بهینه‌سازی حافظه: استفاده از 2MB huge pages باعث می‌شود کل Trie (50MB) در 25 صفحه قرار گیرد، در حالی که حالت قبل در 12000 صفحه پخش می‌شد و کاملاً در TLB (Translation Lookaside Buffer) جای می‌گیرد.
📌 مقایسه عملکرد: در تست با 514 توکن روی پردازنده Intel Xeon Platinum 8488C، توکنایزر Perplexity (حدود 63 میکروثانیه) از SentencePiece (128 میکروثانیه) و IREE (112 میکروثانیه) نیز سریع‌تر عمل کرد.


🔗 تحلیل کامل
🔗 مخزن GitHub
🔗 جزئیات فنی Perplexity

📊 DataScience — هوش مصنوعی و علم داده به فارسی
📩 ارتباط با ما


#خبر #PerplexityAI
🤖 ساخت مدل زبانی بزرگ (LLM) از ابتدا

‏این مجموعه ویدئویی شامل ۴۳ سخنرانی است که نحوه ساخت یک مدل زبانی بزرگ (LLM) را از ابتدا آموزش می‌دهد. هدف آن روشن کردن عملکرد داخلی مدل‌هایی مانند ChatGPT است.
این دوره مفاهیم کلیدی مانند معماری Transformer، ساختار داخلی GPT، Tokenization و BPE (Byte Pair Encoding)، مکانیزم‌های Attention (توجه) و فرآیند آموزش LLM را به صورت گام به گام و با پیاده‌سازی کامل در Python توضیح می‌دهد.

https://www.youtube.com/playlist?list=PLPTV0NXA_ZSgsLAr8YCgCwhPIJNNtexWu

📊 DataScience — هوش مصنوعی و علم داده به فارسی
📩 ارتباط با ما


#آموزش #Transformer
Media is too big
VIEW IN TELEGRAM
💻 کنترل ویندوز با ChatGPT ممکن شد

‏اکنون با استفاده از اپلیکیشن ChatGPT، امکان کنترل کامپیوترهای ویندوزی از راه دور فراهم شده است. این قابلیت به کاربران اجازه می‌دهد تا وظایف کدنویسی را روی رایانه شخصی خود از راه دور آغاز، نظارت و تنظیم کنند.

🔹 کاربرد: این ویژگی جدید برای پشتیبانی از کاربرانی طراحی شده که روی وظایف کدنویسی به صورت ریموت کار می‌کنند و اطمینان می‌دهد که کار روی کامپیوتر در حالی که دستورات از دستگاه دیگری صادر می‌شود، ادامه یابد.
🔸 مدیریت وظایف: کاربران می‌توانند شروع، پیگیری و تنظیم وظایف برنامه‌نویسی را مستقیماً از طریق اپلیکیشن موبایل ChatGPT مدیریت کنند.

📊 DataScience — هوش مصنوعی و علم داده به فارسی
📩 ارتباط با ما


#خبر #AgentAI
انویدیا میلیاردها دلار صرف جایگزینی مس با نور در مراکز داده هوش مصنوعی می‌کند

🚀 انویدیا با تعهد بیش از ۶.۵ میلیارد دلار در حوزه فوتونیک (تکنولوژی انتقال داده با نور به جای سیگنال‌های الکتریکی از طریق کابل‌های مسی)، به دنبال غلبه بر محدودیت‌های فیزیکی سیم‌کشی مسی در خوشه‌های عظیم هوش مصنوعی است. این سرمایه‌گذاری شامل قراردادهای قابل توجهی با شرکت‌هایی مانند Coherent، Lumentum، Corning و Marvell Technology و همچنین مشارکت در Ayar Labs می‌شود.

📊 DataScience — هوش مصنوعی و علم داده به فارسی
📩 ارتباط با ما


#خبر #Nvidia