Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.4K subscribers
2.5K photos
127 videos
68 files
4.96K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
DS в 2026-м: от обучения моделей к управлению сотрудниками на ИИ

Просто обучить Transformer уже недостаточно. Тренд года — создание мультиагентных систем, где каждый агент выполняет свою роль: аналитик, кодер, критик.

На курсе по AI-агентам мы научим вас дирижировать этим оркестром:

— паттерн ReAct: как заставить модель рассуждать логически;
— оркестрация в n8n: автоматизация пайплайнов без лишнего кода;
— протокол MCP: новый стандарт взаимодействия между LLM;
— продвинутый RAG: создание баз знаний нового поколения.

Выныривайте из праздников в мир автономных систем.

🎁 До 12 января акция «3 в 1» — курс по ИИ-агентам + 2 курса в подарок.

Спроектировать будущее
😁7🤔41
🚀 Auto-Analyst — AI, который автоматизирует Data Science

Auto-Analyst — полностью open-source систему для автоматизации всего data science-пайплайна: от очистки данных и статистики до ML-моделей и визуализации.

Полностью open source
MIT-лицензия — можно использовать, модифицировать и встраивать без ограничений.

LLM-agnostic
Работает с любыми API: OpenAI, Anthropic, DeepSeek, Groq и др.

Bring Your Own API Key
Никакого vendor lock-in — платите только за свои запросы.

UI для дата-сайентистов
Фокус не на «чатике», а на реальной аналитической работе.

Надёжные и интерпретируемые ответы
Встроенные guardrails для контроля качества вывода.

Модульная агентная архитектура
Легко добавлять и кастомизировать агентов через DSPy.

📱 Github

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
5🎉2
👌 SKOPS — как делиться sklearn-моделями без pickle и боли

Если вы работаете со scikit-learn и вам нужно сохранять, передавать и выкладывать модели в прод, стоит посмотреть на skops.

skops — это библиотека, которая делает две очень полезные вещи:

1️⃣ Безопасное сохранение и загрузка sklearn-моделей без pickle.

skops. io позволяет сериализовать модели явно и безопасно — особенно полезно, если вы публикуете модели или загружаете их из внешних источников.

2️⃣ skops.card

Инструменты для создания model card — документа, который объясняет:
✔️ что делает модель
✔️ на каких данных она обучалась
✔️ как её правильно использовать
✔️ какие есть ограничения

Крутая фича: model card можно сразу сохранить как README. md на Hugging Face Hub, с уже подготовленными метаданными.

Установка:

python -m pip install skops


📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍1🎉1
🧠 Почему матрица Wₒ критически важна для Transformer’ов

👉 Короткий ответ: без Wₒ multi-head attention почти бесполезен.

В multi-head attention мы делим эмбеддинг на несколько голов:

head_dim = d_model / num_heads


Каждая голова считает внимание независимо:
— head₁ → output₁
— head₂ → output₂
— …
— headₙ → outputₙ

И вот тут важный момент. Если мы просто склеим (concat) эти выходы, то головы никак не будут делиться информацией.

Представьте:
— одна голова выучила синтаксис
— другая — сущности
— третья — логические связи

При обычной конкатенации всё это просто лежит рядом, но не взаимодействует.

Тут появляется Wₒ.

После конкатенации мы делаем:

output = Wₒ × concat(output₁, output₂, …, outputₙ)


Wₒ — это матрица размера d_model × d_model, и её главная задача — перемешать информацию между головами.

❗️ Без Wₒ: Головы — изолированные силосы. Каждая знает что-то своё, но модель не умеет это объединять.

❗️ С Wₒ: Каждый выходной вектор получает информацию из всех голов сразу: синтаксис, сущности, логика и дальние зависимости.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
👍73👾1
🧩 Универсальная структура для agent-проектов

Большинство agent-проектов рано или поздно превращаются в хаос: файлы разбросаны, логика смешана, тестов нет, деплой страшно трогать.

Эта проблема решается правильной структурой с самого начала.

Один cookiecutter — и проект сразу создаётся с продуманным каркасом:
🔹 CI / CD — автоматические сборки и тесты
🔹 Data — статические файлы и ресурсы
🔹 Notebooks — песочница для промптов и экспериментов
🔹 Agent Python Library — чистая архитектура
  (domain / application / infrastructure)
🔹 Tests — unit, integration и дальше по мере роста
🔹 Дополнительные файлы — Docker, Makefile, конфиги
🔹 README.md — обязательная документация с первого дня

Результат — чистый, расширяемый репозиторий, который не ломается при росте проекта и команды.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥51😢1🙏1
🆕 Свежие новости для дата‑сайентистов

20 лучших источников датасетов для ML в 2026
Хорошая подборка публичных и полу-публичных источников данных. Ничего магического, но полезно держать под рукой.

DeepSeek меняет работу residual connections
Новый архитектурный подход — Manifold-Constrained Hyper-Connections — решает тихую, но дорогую проблему градиентного взрыва в больших трансформерах.

NVIDIA Alpamayo — reasoning-first подход к автономному вождению
NVIDIA предлагает смотреть на автономное вождение не как на чистое предсказание, а как на задачу рассуждения. Особенно актуально для редких сценариев, где end-to-end модели всё ещё ломаются. Хороший пример, как reasoning выходит за пределы LLM.

Falcon-H1R: reasoning на уровне моделей в 7× больше
7B-модель, которая догоняет и обгоняет значительно более крупные аналоги за счёт архитектуры и обучения. Очередное напоминание, что «больше параметров» — далеко не единственный путь вперёд.

Пять трендов AI и Data Science на 2026
Фокус смещается от хайпа к организационной эффективности: AI как инструмент внутри компаний, а не витрина. Хорошо ложится на ощущение, что рынок начинает трезветь.

Deep Delta Learning — обобщение residual networks
Интересная архитектурная идея: один скалярный gate интерполирует между identity, projection и reflection. Пока больше похоже на исследовательский задел, но такие вещи часто «выстреливают» неожиданно.

ChatGPT Health — персонализированный медицинский режим
OpenAI запускает отдельный health-опыт с доступом к медданным и фитнес-приложениям. С точки зрения DS это огромный шаг в сторону контекстных моделей — и одновременно зона повышенной ответственности.

Lenovo Qira — кросс-девайс AI-ассистент
Ассистент, который живёт сразу на ПК и смартфоне и помнит контекст между устройствами. Всё больше похоже на движение к «ambient AI», который просто рядом, а не запускается по кнопке.

Karpathy про nanochat и масштабирование через глубину
Андрей показывает, что масштабирование — это не только ширина и параметры. Иногда достаточно аккуратно поиграть с глубиной, чтобы получить неожиданный эффект.

Gemini 3 приходит в Gmail
Резюме, Q&A по всему инбоксу и приоритизация писем для 3 млрд пользователей. Если LLM и становятся массовым продуктом, то именно так — встроенными в существующие привычки.

Alibaba выпускает Qwen3-VL для мультимодального поиска
Единые embeddings для текста, изображений и видео — ровно то, чего давно не хватает RAG-системам в реальном мире. Очень практичный релиз, если вы работаете с «грязными» мультимодальными данными.

OpenAI нанимает команду Convogo
OpenAI покупает не продукт, а команду — классический acqui-hire. Явный фокус на AI cloud и enterprise-направление, а не очередной consumer-фиче.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤‍🔥22🔥1🥰1😢1
This media is not supported in your browser
VIEW IN TELEGRAM
ℹ️ MCP и A2A — как агенты реально работают вместе

Если вы создаёте agentic-приложения, быстро понимаете: одного протокола мало. MCP и A2A решают разные задачи и отлично дополняют друг друга.

MCP можно представить как «руки» агента — доступ к инструментам и ресурсам. A2A же — это «общение», способ агентам договариваться и работать в команде. В стеке протоколов они находятся на разных уровнях, но работают вместе.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31😢1
👌 Keras упростил квантование

Теперь Keras умеет квантовать модели буквально одной строкой кода — и это очень приятное обновление.

Можно взять свою модель или любую предобученную из KerasHub и просто вызвать model.quantize(...). Без отдельных тулов, без сложных пайплайнов, без шаманства с экспортами.

Поддерживаются самые ходовые режимы: int4, int8, float8 и GPTQ. То есть и для инференса на проде, и для экспериментов с уменьшением модели — всё уже из коробки.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥31
✔️ pandas 3.0: чистые колонки без lambda и скобок

До pandas 3.0 создание новых колонок выглядело… терпимо, но не приятно. Либо квадратные скобки, которые ломают chaining и заставляют постоянно повторять имя DataFrame. Либо assign() с лямбдами — многословно и с классическими багами из-за замыканий.

Вот типичный старый стиль:

# Старый pandas: verbose lambda
df.assign(total=lambda df: df['x'] + df['y'])


А теперь — любимый всеми подводный камень:

# Lambda bug в циклах
for f in [10, 20, 30]:
results[f'x_{f}'] = lambda df: df['x'] * f

# x_10=30, x_20=30, x_30=30 <- сюрприз


Все колонки умножаются на последнее значение f. Классика Python: лямбда захватила переменную, а не её значение.

В pandas 3.0 это наконец-то исправили элегантно. Появились pd.col() — чистые выражения для работы со столбцами.

Теперь код читается почти как Polars:

# Новый pandas: читается как Polars
df.assign(total=pd.col('x') + pd.col('y'))


И тот же пример с циклом — но уже без магии и багов:

for f in [10, 20, 30]:
results[f'x_{f}'] = pd.col('x') * f

# x_10=10, x_20=20, x_30=30 <- как и ожидалось


Самое приятное здесь даже не синтаксис (хотя он стал заметно чище), а то, что pd.col() убирает целый класс ошибок с замыканиями. Больше не нужно помнить, как именно Python захватывает переменные в лямбдах — просто пишешь выражение.

👏 Небольшое изменение в API, но ощущается как серьёзный шаг вперёд в удобстве и читаемости pandas.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍127🔥1🥰1
От классического ML к Agentic AI: ваш технологический стек

Для Data Scientist переход к агентным архитектурам — это возможность создавать системы, которые не просто предсказывают, а совершают действия.

Ключевые этапы обучения:

— работа с LLM как с движком принятия решений;

— проектирование циклов Reasoning и управления состоянием;

— оптимизация RAG через агентный поиск;

— масштабирование мультиагентных систем.

Курс «Разработка ИИ-агентов» позволит вам освоить современные фреймворки и создать реальные AI-решения для бизнеса.

Изучить программу курса

Акция «3 в 1» до 19 января: заберите два дополнительных курса в подарок.
🛎 Google обновил MedGemma и выкатил MedASR — открытые модели для медицины нового поколения

Google продолжает активно пушить open-source AI в здравоохранении. Вышел MedGemma 1.5 (4B) — обновлённая версия медицинской мультимодальной модели, а вместе с ней — MedASR, открытая модель распознавания медицинской речи.

MedGemma 1.5 заметно прокачали под реальные клинические сценарии. Плюс — выросла точность по тексту, медицинским записям и 2D-изображениям по сравнению с версией 1.0.

➡️ Отдельно важный момент — размер. Версия на 4B параметров достаточно компактна, чтобы запускаться офлайн и служить хорошей отправной точкой для кастомных решений. Для более тяжёлых текстовых задач по-прежнему доступна модель на 27B параметров.

➡️ Вторая новость — MedASR. Это ASR-модель, дообученная специально под медицинскую диктовку. Она превращает речь врача в текст и отлично сочетается с MedGemma для дальнейшего анализа и reasoning’а.

➡️ И да, всё это по-прежнему бесплатно для research и коммерческого использования: модели доступны на Hugging Face и масштабируются через Vertex AI. Плюс Google запустил MedGemma Impact Challenge на Kaggle — ждём интересные кейсы от сообщества.

🖥 Почитать и узнать детали можно тут.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🎉1
➡️ Рисуешь схему — получаешь SQL

Вы когда-нибудь рисовали схему базы на доске или в FigJam, а потом убивали полдня, вручную превращая её в SQL?

Оказывается, это вообще не обязательный этап.

DrawDB позволяет делать ровно наоборот: вы сначала рисуете схему, а код получается автоматически. Таблицы, связи, ключи — всё собирается на визуальном канвасе, а на выходе вы сразу получаете готовый SQL под нужную БД.

Причём это не «игрушка для прототипов». DrawDB умеет экспортировать production-ready SQL для MySQL, PostgreSQL, SQLite, MariaDB, MSSQL и Oracle. Без регистрации, без подписки, без скрытых ограничений. Диаграммы можно сразу шарить с командой — просто ссылкой.

Отдельный плюс — проект полностью open source и бесплатный.

📱 Репозиторий — по ссылке: https://clc.to/oA9LsA

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍113🔥2🤩1
💫 Claude Code — но сразу с мозгами

Если вы пользуетесь Claude Code и каждый раз настраиваете агентов, команды и MCP руками — есть способ сильно упростить жизнь.

Claude Code Templates — это каталог готовых конфигураций для Claude: AI-агенты, кастомные команды, настройки, хуки, интеграции через MCP и шаблоны проектов. По сути, это «маркетплейс best practices» для Claude Code.

➡️ Вы заходите в веб-интерфейс, выбираете нужные компоненты и устанавливаете их к себе — без копипасты и долгой ручной сборки. Сейчас там уже больше 100 готовых шаблонов: от отдельных агентов под конкретные задачи до целых проектных сетапов.

✳️ Это не просто набор сниппетов, а структурированная экосистема. Можно быстро посмотреть, как другие люди настраивают Claude под реальные рабочие сценарии, и взять это как основу для своего пайплайна.

📱 Репозиторий — по ссылке: https://clc.to/sz5Rlw

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31
«Этот манёвр будет стоить нам 51 год...»

В Data Science время — это не только переменная в модели, но и ваш шанс занять место на рынке. Пока SOTA-модели выходят каждую неделю, единственный способ не отстать — системно изучать Math и LLM.

19 января в Proglib Academy вырастут цены. Забирайте базу сейчас:

— Математика для разработки AI-моделей
— ML для старта в Data Science
— Математика для Data Science
— Специалист по ИИ
— Алгоритмы и структуры данных
— Программирование на Python
— Основы IT для непрограммистов
— Архитектуры и шаблоны проектирования

Успеть до повышения

⚠️ Старые цены действуют до 19 января
😁1😢1
This media is not supported in your browser
VIEW IN TELEGRAM
😎 LangWatch: полный контроль над поведением LLM-агентов

Самая большая проблема с агентами сегодня не в том, чтобы их собрать.

➡️ Проблема — понять, что у них вообще происходит внутри, когда они начинают «тупить» в проде.

LangWatch решает именно это. Он показывает жизнь LLM-пайплайна под микроскопом: каждый шаг агента, каждый вызов, где теряется контекст, где ответ стал дороже или медленнее, где логика пошла не туда.

Работа превращается в нормальный инженерный цикл:
посмотрели трассу → нашли слабое место → проверили на датасете → поправили промпт или шаг агента → сразу увидели разницу.

➡️ Платформа не привязана ни к моделям, ни к фреймворкам — работает с любым современным стеком.

📱 Github

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥41👍1🥰1🙏1
📌 Шпаргалка по алгоритмам Machine Learning

Собрали в одном месте ключевые ML-алгоритмы с краткими пояснениями и ориентирами по применению.

📕 P.S. Файл в лучшем качестве прикреплён в комментарии.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍3🎉2👾1
🆕 Свежие новости для дата‑сайентистов

OpenAI усиливает ChatGPT Health через Torch Health
OpenAI добавляет Torch-технологии в ChatGPT Health, чтобы работать с долгосрочной медицинской историей как с единой системой, а не набором PDF-ок. Это ровно та точка, где health-AI обычно ломается: данные есть, но они фрагментированы. Подход с «постоянным контекстом» выглядит гораздо ближе к реальному клиническому использованию.

Google выпускает MedGemma 1.5
Новое поколение открытых медицинских моделей, заточенных не только под текст, но и под более сложные клинические сценарии. Google расширяет HAI-DEF, явно показывая, что healthcare-AI выходит за пределы экспериментов и становится инженерной задачей.

Ministral 3: технический отчёт
Семейство моделей (3B–14B) для low-resource окружений с поддержкой изображений и reasoning-вариантами. Интересен сам подход Cascade Distillation — итеративная дистилляция с прунингом, а не простое «обрежем потом».

Kaggle запускает Community Benchmarks
Теперь можно создавать и шарить собственные бенчмарки прямо на Kaggle. Хороший шаг от абстрактных leaderboard’ов к более прикладной и честной оценке моделей под конкретные задачи.

Миф о бесконечном масштабировании ИИ
Разбор того, где рост моделей перестаёт давать линейную пользу.

Разметка данных — самая дорогая часть ML
Напоминание, которое всегда неприятно, но необходимо: качество модели почти всегда упирается не в архитектуру, а в данные и людей, которые их размечают.

Функция потерь: как модель понимает, что ошиблась
Спокойное объяснение одной из самых фундаментальных частей ML. Полезно перечитать, чтобы напомнить себе, что оптимизирует модель на самом деле.

Как научить машину понимать смысл слов
Про эмбеддинги и представления, без лишней математики, но с понятной интуицией.

Machine Unlearning: зачем моделям уметь забывать
Первая часть большого разговора о «праве на забвение» для ML-моделей. Тема становится всё менее теоретической — особенно в regulated-доменах.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🥰1