Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.4K subscribers
2.5K photos
127 videos
68 files
4.96K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
От классического ML к Agentic AI: ваш технологический стек

Для Data Scientist переход к агентным архитектурам — это возможность создавать системы, которые не просто предсказывают, а совершают действия.

Ключевые этапы обучения:

— работа с LLM как с движком принятия решений;

— проектирование циклов Reasoning и управления состоянием;

— оптимизация RAG через агентный поиск;

— масштабирование мультиагентных систем.

Курс «Разработка ИИ-агентов» позволит вам освоить современные фреймворки и создать реальные AI-решения для бизнеса.

Изучить программу курса

Акция «3 в 1» до 19 января: заберите два дополнительных курса в подарок.
🛎 Google обновил MedGemma и выкатил MedASR — открытые модели для медицины нового поколения

Google продолжает активно пушить open-source AI в здравоохранении. Вышел MedGemma 1.5 (4B) — обновлённая версия медицинской мультимодальной модели, а вместе с ней — MedASR, открытая модель распознавания медицинской речи.

MedGemma 1.5 заметно прокачали под реальные клинические сценарии. Плюс — выросла точность по тексту, медицинским записям и 2D-изображениям по сравнению с версией 1.0.

➡️ Отдельно важный момент — размер. Версия на 4B параметров достаточно компактна, чтобы запускаться офлайн и служить хорошей отправной точкой для кастомных решений. Для более тяжёлых текстовых задач по-прежнему доступна модель на 27B параметров.

➡️ Вторая новость — MedASR. Это ASR-модель, дообученная специально под медицинскую диктовку. Она превращает речь врача в текст и отлично сочетается с MedGemma для дальнейшего анализа и reasoning’а.

➡️ И да, всё это по-прежнему бесплатно для research и коммерческого использования: модели доступны на Hugging Face и масштабируются через Vertex AI. Плюс Google запустил MedGemma Impact Challenge на Kaggle — ждём интересные кейсы от сообщества.

🖥 Почитать и узнать детали можно тут.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🎉1
➡️ Рисуешь схему — получаешь SQL

Вы когда-нибудь рисовали схему базы на доске или в FigJam, а потом убивали полдня, вручную превращая её в SQL?

Оказывается, это вообще не обязательный этап.

DrawDB позволяет делать ровно наоборот: вы сначала рисуете схему, а код получается автоматически. Таблицы, связи, ключи — всё собирается на визуальном канвасе, а на выходе вы сразу получаете готовый SQL под нужную БД.

Причём это не «игрушка для прототипов». DrawDB умеет экспортировать production-ready SQL для MySQL, PostgreSQL, SQLite, MariaDB, MSSQL и Oracle. Без регистрации, без подписки, без скрытых ограничений. Диаграммы можно сразу шарить с командой — просто ссылкой.

Отдельный плюс — проект полностью open source и бесплатный.

📱 Репозиторий — по ссылке: https://clc.to/oA9LsA

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍113🔥2🤩1
💫 Claude Code — но сразу с мозгами

Если вы пользуетесь Claude Code и каждый раз настраиваете агентов, команды и MCP руками — есть способ сильно упростить жизнь.

Claude Code Templates — это каталог готовых конфигураций для Claude: AI-агенты, кастомные команды, настройки, хуки, интеграции через MCP и шаблоны проектов. По сути, это «маркетплейс best practices» для Claude Code.

➡️ Вы заходите в веб-интерфейс, выбираете нужные компоненты и устанавливаете их к себе — без копипасты и долгой ручной сборки. Сейчас там уже больше 100 готовых шаблонов: от отдельных агентов под конкретные задачи до целых проектных сетапов.

✳️ Это не просто набор сниппетов, а структурированная экосистема. Можно быстро посмотреть, как другие люди настраивают Claude под реальные рабочие сценарии, и взять это как основу для своего пайплайна.

📱 Репозиторий — по ссылке: https://clc.to/sz5Rlw

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31
«Этот манёвр будет стоить нам 51 год...»

В Data Science время — это не только переменная в модели, но и ваш шанс занять место на рынке. Пока SOTA-модели выходят каждую неделю, единственный способ не отстать — системно изучать Math и LLM.

19 января в Proglib Academy вырастут цены. Забирайте базу сейчас:

— Математика для разработки AI-моделей
— ML для старта в Data Science
— Математика для Data Science
— Специалист по ИИ
— Алгоритмы и структуры данных
— Программирование на Python
— Основы IT для непрограммистов
— Архитектуры и шаблоны проектирования

Успеть до повышения

⚠️ Старые цены действуют до 19 января
😁1😢1
This media is not supported in your browser
VIEW IN TELEGRAM
😎 LangWatch: полный контроль над поведением LLM-агентов

Самая большая проблема с агентами сегодня не в том, чтобы их собрать.

➡️ Проблема — понять, что у них вообще происходит внутри, когда они начинают «тупить» в проде.

LangWatch решает именно это. Он показывает жизнь LLM-пайплайна под микроскопом: каждый шаг агента, каждый вызов, где теряется контекст, где ответ стал дороже или медленнее, где логика пошла не туда.

Работа превращается в нормальный инженерный цикл:
посмотрели трассу → нашли слабое место → проверили на датасете → поправили промпт или шаг агента → сразу увидели разницу.

➡️ Платформа не привязана ни к моделям, ни к фреймворкам — работает с любым современным стеком.

📱 Github

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥41👍1🥰1🙏1
📌 Шпаргалка по алгоритмам Machine Learning

Собрали в одном месте ключевые ML-алгоритмы с краткими пояснениями и ориентирами по применению.

📕 P.S. Файл в лучшем качестве прикреплён в комментарии.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍3🎉2🔥1👾1
🆕 Свежие новости для дата‑сайентистов

OpenAI усиливает ChatGPT Health через Torch Health
OpenAI добавляет Torch-технологии в ChatGPT Health, чтобы работать с долгосрочной медицинской историей как с единой системой, а не набором PDF-ок. Это ровно та точка, где health-AI обычно ломается: данные есть, но они фрагментированы. Подход с «постоянным контекстом» выглядит гораздо ближе к реальному клиническому использованию.

Google выпускает MedGemma 1.5
Новое поколение открытых медицинских моделей, заточенных не только под текст, но и под более сложные клинические сценарии. Google расширяет HAI-DEF, явно показывая, что healthcare-AI выходит за пределы экспериментов и становится инженерной задачей.

Ministral 3: технический отчёт
Семейство моделей (3B–14B) для low-resource окружений с поддержкой изображений и reasoning-вариантами. Интересен сам подход Cascade Distillation — итеративная дистилляция с прунингом, а не простое «обрежем потом».

Kaggle запускает Community Benchmarks
Теперь можно создавать и шарить собственные бенчмарки прямо на Kaggle. Хороший шаг от абстрактных leaderboard’ов к более прикладной и честной оценке моделей под конкретные задачи.

Миф о бесконечном масштабировании ИИ
Разбор того, где рост моделей перестаёт давать линейную пользу.

Разметка данных — самая дорогая часть ML
Напоминание, которое всегда неприятно, но необходимо: качество модели почти всегда упирается не в архитектуру, а в данные и людей, которые их размечают.

Функция потерь: как модель понимает, что ошиблась
Спокойное объяснение одной из самых фундаментальных частей ML. Полезно перечитать, чтобы напомнить себе, что оптимизирует модель на самом деле.

Как научить машину понимать смысл слов
Про эмбеддинги и представления, без лишней математики, но с понятной интуицией.

Machine Unlearning: зачем моделям уметь забывать
Первая часть большого разговора о «праве на забвение» для ML-моделей. Тема становится всё менее теоретической — особенно в regulated-доменах.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🥰1
price_next = price_current * increment

Завтра этот прогноз станет реальностью для всех наших курсов. Успейте сегодня купить обучение до того, как кривая стоимости уйдёт в крутой подъём.

Построить модель успешной карьеры
🙏1
🟢 Структурированные ответы LLM — без этого агенты не взлетят

Мы все просим модели отдавать JSON, XML, код, схемы. В большинстве случаев они выглядят валидно… пока однажды всё не ломается из-за случайного символа, лишней запятой или съехавшей структуры. Для человека это мелочь. Для продакшена — падение пайплайна.

LLM обещали автоматизацию и агентов. Но без гарантированно структурированного вывода это остаётся красивой демкой, а не системой.

Появилось руководство, которое наконец собирает всю эту быстро меняющуюся область в одном месте.

Внутри — по делу и для разработчиков:
как это работает под капотом,
какие инструменты реально используются сегодня,
как выбирать подход под задачу,
как строить и масштабировать такие системы,
как снижать задержки и стоимость,
как повышать качество и стабильность вывода.

Можно читать последовательно, можно использовать как справочник, когда нужно быстро решить конкретную проблему со структурой ответов.

🔗 Справочник

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1
🧩 AgentScope делает из LLM-агентов нормальную инженерную систему

Большинство агентных фреймворков красиво работают, пока всё идеально. Как только агент начинает странно себя вести — выясняется, что половина логики скрыта глубоко и изменить её почти невозможно.

✔️ AgentScope идёт другим путём: прозрачность и контроль. Агент — это объект с явным состоянием, промптами, инструментами и каналами общения.

➡️ Архитектура LEGO‑стиля: память, планирование, RAG, инструменты и runtime — отдельные блоки, которые можно комбинировать и расширять.

➡️ Multi-agent поддержка через A2A-протокол с явным message passing и контролируемой оркестрацией.

➡️ Память стала управляемой: базы данных, сжатие, долгосрочное хранение.

📱 Github

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉2👍1🙏1