Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.4K subscribers
2.5K photos
127 videos
68 files
4.96K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
ℹ️ MCP и A2A — как агенты реально работают вместе

Если вы создаёте agentic-приложения, быстро понимаете: одного протокола мало. MCP и A2A решают разные задачи и отлично дополняют друг друга.

MCP можно представить как «руки» агента — доступ к инструментам и ресурсам. A2A же — это «общение», способ агентам договариваться и работать в команде. В стеке протоколов они находятся на разных уровнях, но работают вместе.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31😢1
👌 Keras упростил квантование

Теперь Keras умеет квантовать модели буквально одной строкой кода — и это очень приятное обновление.

Можно взять свою модель или любую предобученную из KerasHub и просто вызвать model.quantize(...). Без отдельных тулов, без сложных пайплайнов, без шаманства с экспортами.

Поддерживаются самые ходовые режимы: int4, int8, float8 и GPTQ. То есть и для инференса на проде, и для экспериментов с уменьшением модели — всё уже из коробки.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥31
✔️ pandas 3.0: чистые колонки без lambda и скобок

До pandas 3.0 создание новых колонок выглядело… терпимо, но не приятно. Либо квадратные скобки, которые ломают chaining и заставляют постоянно повторять имя DataFrame. Либо assign() с лямбдами — многословно и с классическими багами из-за замыканий.

Вот типичный старый стиль:

# Старый pandas: verbose lambda
df.assign(total=lambda df: df['x'] + df['y'])


А теперь — любимый всеми подводный камень:

# Lambda bug в циклах
for f in [10, 20, 30]:
results[f'x_{f}'] = lambda df: df['x'] * f

# x_10=30, x_20=30, x_30=30 <- сюрприз


Все колонки умножаются на последнее значение f. Классика Python: лямбда захватила переменную, а не её значение.

В pandas 3.0 это наконец-то исправили элегантно. Появились pd.col() — чистые выражения для работы со столбцами.

Теперь код читается почти как Polars:

# Новый pandas: читается как Polars
df.assign(total=pd.col('x') + pd.col('y'))


И тот же пример с циклом — но уже без магии и багов:

for f in [10, 20, 30]:
results[f'x_{f}'] = pd.col('x') * f

# x_10=10, x_20=20, x_30=30 <- как и ожидалось


Самое приятное здесь даже не синтаксис (хотя он стал заметно чище), а то, что pd.col() убирает целый класс ошибок с замыканиями. Больше не нужно помнить, как именно Python захватывает переменные в лямбдах — просто пишешь выражение.

👏 Небольшое изменение в API, но ощущается как серьёзный шаг вперёд в удобстве и читаемости pandas.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍127🔥1🥰1
От классического ML к Agentic AI: ваш технологический стек

Для Data Scientist переход к агентным архитектурам — это возможность создавать системы, которые не просто предсказывают, а совершают действия.

Ключевые этапы обучения:

— работа с LLM как с движком принятия решений;

— проектирование циклов Reasoning и управления состоянием;

— оптимизация RAG через агентный поиск;

— масштабирование мультиагентных систем.

Курс «Разработка ИИ-агентов» позволит вам освоить современные фреймворки и создать реальные AI-решения для бизнеса.

Изучить программу курса

Акция «3 в 1» до 19 января: заберите два дополнительных курса в подарок.
🛎 Google обновил MedGemma и выкатил MedASR — открытые модели для медицины нового поколения

Google продолжает активно пушить open-source AI в здравоохранении. Вышел MedGemma 1.5 (4B) — обновлённая версия медицинской мультимодальной модели, а вместе с ней — MedASR, открытая модель распознавания медицинской речи.

MedGemma 1.5 заметно прокачали под реальные клинические сценарии. Плюс — выросла точность по тексту, медицинским записям и 2D-изображениям по сравнению с версией 1.0.

➡️ Отдельно важный момент — размер. Версия на 4B параметров достаточно компактна, чтобы запускаться офлайн и служить хорошей отправной точкой для кастомных решений. Для более тяжёлых текстовых задач по-прежнему доступна модель на 27B параметров.

➡️ Вторая новость — MedASR. Это ASR-модель, дообученная специально под медицинскую диктовку. Она превращает речь врача в текст и отлично сочетается с MedGemma для дальнейшего анализа и reasoning’а.

➡️ И да, всё это по-прежнему бесплатно для research и коммерческого использования: модели доступны на Hugging Face и масштабируются через Vertex AI. Плюс Google запустил MedGemma Impact Challenge на Kaggle — ждём интересные кейсы от сообщества.

🖥 Почитать и узнать детали можно тут.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🎉1
➡️ Рисуешь схему — получаешь SQL

Вы когда-нибудь рисовали схему базы на доске или в FigJam, а потом убивали полдня, вручную превращая её в SQL?

Оказывается, это вообще не обязательный этап.

DrawDB позволяет делать ровно наоборот: вы сначала рисуете схему, а код получается автоматически. Таблицы, связи, ключи — всё собирается на визуальном канвасе, а на выходе вы сразу получаете готовый SQL под нужную БД.

Причём это не «игрушка для прототипов». DrawDB умеет экспортировать production-ready SQL для MySQL, PostgreSQL, SQLite, MariaDB, MSSQL и Oracle. Без регистрации, без подписки, без скрытых ограничений. Диаграммы можно сразу шарить с командой — просто ссылкой.

Отдельный плюс — проект полностью open source и бесплатный.

📱 Репозиторий — по ссылке: https://clc.to/oA9LsA

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍113🔥2🤩1
💫 Claude Code — но сразу с мозгами

Если вы пользуетесь Claude Code и каждый раз настраиваете агентов, команды и MCP руками — есть способ сильно упростить жизнь.

Claude Code Templates — это каталог готовых конфигураций для Claude: AI-агенты, кастомные команды, настройки, хуки, интеграции через MCP и шаблоны проектов. По сути, это «маркетплейс best practices» для Claude Code.

➡️ Вы заходите в веб-интерфейс, выбираете нужные компоненты и устанавливаете их к себе — без копипасты и долгой ручной сборки. Сейчас там уже больше 100 готовых шаблонов: от отдельных агентов под конкретные задачи до целых проектных сетапов.

✳️ Это не просто набор сниппетов, а структурированная экосистема. Можно быстро посмотреть, как другие люди настраивают Claude под реальные рабочие сценарии, и взять это как основу для своего пайплайна.

📱 Репозиторий — по ссылке: https://clc.to/sz5Rlw

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31
«Этот манёвр будет стоить нам 51 год...»

В Data Science время — это не только переменная в модели, но и ваш шанс занять место на рынке. Пока SOTA-модели выходят каждую неделю, единственный способ не отстать — системно изучать Math и LLM.

19 января в Proglib Academy вырастут цены. Забирайте базу сейчас:

— Математика для разработки AI-моделей
— ML для старта в Data Science
— Математика для Data Science
— Специалист по ИИ
— Алгоритмы и структуры данных
— Программирование на Python
— Основы IT для непрограммистов
— Архитектуры и шаблоны проектирования

Успеть до повышения

⚠️ Старые цены действуют до 19 января
😁1😢1
This media is not supported in your browser
VIEW IN TELEGRAM
😎 LangWatch: полный контроль над поведением LLM-агентов

Самая большая проблема с агентами сегодня не в том, чтобы их собрать.

➡️ Проблема — понять, что у них вообще происходит внутри, когда они начинают «тупить» в проде.

LangWatch решает именно это. Он показывает жизнь LLM-пайплайна под микроскопом: каждый шаг агента, каждый вызов, где теряется контекст, где ответ стал дороже или медленнее, где логика пошла не туда.

Работа превращается в нормальный инженерный цикл:
посмотрели трассу → нашли слабое место → проверили на датасете → поправили промпт или шаг агента → сразу увидели разницу.

➡️ Платформа не привязана ни к моделям, ни к фреймворкам — работает с любым современным стеком.

📱 Github

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥41👍1🥰1🙏1
📌 Шпаргалка по алгоритмам Machine Learning

Собрали в одном месте ключевые ML-алгоритмы с краткими пояснениями и ориентирами по применению.

📕 P.S. Файл в лучшем качестве прикреплён в комментарии.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍3🎉2🔥1👾1
🆕 Свежие новости для дата‑сайентистов

OpenAI усиливает ChatGPT Health через Torch Health
OpenAI добавляет Torch-технологии в ChatGPT Health, чтобы работать с долгосрочной медицинской историей как с единой системой, а не набором PDF-ок. Это ровно та точка, где health-AI обычно ломается: данные есть, но они фрагментированы. Подход с «постоянным контекстом» выглядит гораздо ближе к реальному клиническому использованию.

Google выпускает MedGemma 1.5
Новое поколение открытых медицинских моделей, заточенных не только под текст, но и под более сложные клинические сценарии. Google расширяет HAI-DEF, явно показывая, что healthcare-AI выходит за пределы экспериментов и становится инженерной задачей.

Ministral 3: технический отчёт
Семейство моделей (3B–14B) для low-resource окружений с поддержкой изображений и reasoning-вариантами. Интересен сам подход Cascade Distillation — итеративная дистилляция с прунингом, а не простое «обрежем потом».

Kaggle запускает Community Benchmarks
Теперь можно создавать и шарить собственные бенчмарки прямо на Kaggle. Хороший шаг от абстрактных leaderboard’ов к более прикладной и честной оценке моделей под конкретные задачи.

Миф о бесконечном масштабировании ИИ
Разбор того, где рост моделей перестаёт давать линейную пользу.

Разметка данных — самая дорогая часть ML
Напоминание, которое всегда неприятно, но необходимо: качество модели почти всегда упирается не в архитектуру, а в данные и людей, которые их размечают.

Функция потерь: как модель понимает, что ошиблась
Спокойное объяснение одной из самых фундаментальных частей ML. Полезно перечитать, чтобы напомнить себе, что оптимизирует модель на самом деле.

Как научить машину понимать смысл слов
Про эмбеддинги и представления, без лишней математики, но с понятной интуицией.

Machine Unlearning: зачем моделям уметь забывать
Первая часть большого разговора о «праве на забвение» для ML-моделей. Тема становится всё менее теоретической — особенно в regulated-доменах.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🥰1