DS в 2026-м: от обучения моделей к управлению сотрудниками на ИИ
Просто обучить
На курсе по AI-агентам мы научим вас дирижировать этим оркестром:
— паттерн
— оркестрация в
— протокол
— продвинутый
Выныривайте из праздников в мир автономных систем.
🎁 До 12 января акция «3 в 1» — курс по ИИ-агентам + 2 курса в подарок.
Спроектировать будущее
Просто обучить
Transformer уже недостаточно. Тренд года — создание мультиагентных систем, где каждый агент выполняет свою роль: аналитик, кодер, критик.На курсе по AI-агентам мы научим вас дирижировать этим оркестром:
— паттерн
ReAct: как заставить модель рассуждать логически;— оркестрация в
n8n: автоматизация пайплайнов без лишнего кода;— протокол
MCP: новый стандарт взаимодействия между LLM;— продвинутый
RAG: создание баз знаний нового поколения.Выныривайте из праздников в мир автономных систем.
🎁 До 12 января акция «3 в 1» — курс по ИИ-агентам + 2 курса в подарок.
Спроектировать будущее
😁7🤔4❤1
🚀 Auto-Analyst — AI, который автоматизирует Data Science
Auto-Analyst — полностью open-source систему для автоматизации всего data science-пайплайна: от очистки данных и статистики до ML-моделей и визуализации.
✅ Полностью open source
MIT-лицензия — можно использовать, модифицировать и встраивать без ограничений.
✅ LLM-agnostic
Работает с любыми API: OpenAI, Anthropic, DeepSeek, Groq и др.
✅ Bring Your Own API Key
Никакого vendor lock-in — платите только за свои запросы.
✅ UI для дата-сайентистов
Фокус не на «чатике», а на реальной аналитической работе.
✅ Надёжные и интерпретируемые ответы
Встроенные guardrails для контроля качества вывода.
✅ Модульная агентная архитектура
Легко добавлять и кастомизировать агентов через DSPy.
📱 Github
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
#буст
Auto-Analyst — полностью open-source систему для автоматизации всего data science-пайплайна: от очистки данных и статистики до ML-моделей и визуализации.
MIT-лицензия — можно использовать, модифицировать и встраивать без ограничений.
Работает с любыми API: OpenAI, Anthropic, DeepSeek, Groq и др.
Никакого vendor lock-in — платите только за свои запросы.
Фокус не на «чатике», а на реальной аналитической работе.
Встроенные guardrails для контроля качества вывода.
Легко добавлять и кастомизировать агентов через DSPy.
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🎉2
👌 SKOPS — как делиться sklearn-моделями без pickle и боли
Если вы работаете со scikit-learn и вам нужно сохранять, передавать и выкладывать модели в прод, стоит посмотреть на skops.
skops — это библиотека, которая делает две очень полезные вещи:
1️⃣ Безопасное сохранение и загрузка sklearn-моделей без pickle.
skops. io позволяет сериализовать модели явно и безопасно — особенно полезно, если вы публикуете модели или загружаете их из внешних источников.
2️⃣ skops.card
Инструменты для создания model card — документа, который объясняет:
✔️ что делает модель
✔️ на каких данных она обучалась
✔️ как её правильно использовать
✔️ какие есть ограничения
Крутая фича: model card можно сразу сохранить как README. md на Hugging Face Hub, с уже подготовленными метаданными.
Установка:
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
#буст
Если вы работаете со scikit-learn и вам нужно сохранять, передавать и выкладывать модели в прод, стоит посмотреть на skops.
skops — это библиотека, которая делает две очень полезные вещи:
skops. io позволяет сериализовать модели явно и безопасно — особенно полезно, если вы публикуете модели или загружаете их из внешних источников.
Инструменты для создания model card — документа, который объясняет:
Крутая фича: model card можно сразу сохранить как README. md на Hugging Face Hub, с уже подготовленными метаданными.
Установка:
python -m pip install skops
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍1🎉1
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2🎉1🙏1
🧠 Почему матрица Wₒ критически важна для Transformer’ов
👉 Короткий ответ: без Wₒ multi-head attention почти бесполезен.
В multi-head attention мы делим эмбеддинг на несколько голов:
Каждая голова считает внимание независимо:
— head₁ → output₁
— head₂ → output₂
— …
— headₙ → outputₙ
И вот тут важный момент. Если мы просто склеим (concat) эти выходы, то головы никак не будут делиться информацией.
Представьте:
— одна голова выучила синтаксис
— другая — сущности
— третья — логические связи
При обычной конкатенации всё это просто лежит рядом, но не взаимодействует.
Тут появляется Wₒ.
После конкатенации мы делаем:
❗️ Без Wₒ: Головы — изолированные силосы. Каждая знает что-то своё, но модель не умеет это объединять.
❗️ С Wₒ: Каждый выходной вектор получает информацию из всех голов сразу: синтаксис, сущности, логика и дальние зависимости.
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
#буст
👉 Короткий ответ: без Wₒ multi-head attention почти бесполезен.
В multi-head attention мы делим эмбеддинг на несколько голов:
head_dim = d_model / num_heads
Каждая голова считает внимание независимо:
— head₁ → output₁
— head₂ → output₂
— …
— headₙ → outputₙ
И вот тут важный момент. Если мы просто склеим (concat) эти выходы, то головы никак не будут делиться информацией.
Представьте:
— одна голова выучила синтаксис
— другая — сущности
— третья — логические связи
При обычной конкатенации всё это просто лежит рядом, но не взаимодействует.
Тут появляется Wₒ.
После конкатенации мы делаем:
output = Wₒ × concat(output₁, output₂, …, outputₙ)
Wₒ — это матрица размера d_model × d_model, и её главная задача — перемешать информацию между головами.❗️ Без Wₒ: Головы — изолированные силосы. Каждая знает что-то своё, но модель не умеет это объединять.
❗️ С Wₒ: Каждый выходной вектор получает информацию из всех голов сразу: синтаксис, сущности, логика и дальние зависимости.
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
#буст
👍7❤3👾1
🧩 Универсальная структура для agent-проектов
Большинство agent-проектов рано или поздно превращаются в хаос: файлы разбросаны, логика смешана, тестов нет, деплой страшно трогать.
Эта проблема решается правильной структурой с самого начала.
Один cookiecutter — и проект сразу создаётся с продуманным каркасом:
🔹 CI / CD — автоматические сборки и тесты
🔹 Data — статические файлы и ресурсы
🔹 Notebooks — песочница для промптов и экспериментов
🔹 Agent Python Library — чистая архитектура
(domain / application / infrastructure)
🔹 Tests — unit, integration и дальше по мере роста
🔹 Дополнительные файлы — Docker, Makefile, конфиги
🔹 README.md — обязательная документация с первого дня
Результат — чистый, расширяемый репозиторий, который не ломается при росте проекта и команды.
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
#буст
Большинство agent-проектов рано или поздно превращаются в хаос: файлы разбросаны, логика смешана, тестов нет, деплой страшно трогать.
Эта проблема решается правильной структурой с самого начала.
Один cookiecutter — и проект сразу создаётся с продуманным каркасом:
🔹 CI / CD — автоматические сборки и тесты
🔹 Data — статические файлы и ресурсы
🔹 Notebooks — песочница для промптов и экспериментов
🔹 Agent Python Library — чистая архитектура
(domain / application / infrastructure)
🔹 Tests — unit, integration и дальше по мере роста
🔹 Дополнительные файлы — Docker, Makefile, конфиги
🔹 README.md — обязательная документация с первого дня
Результат — чистый, расширяемый репозиторий, который не ломается при росте проекта и команды.
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥5❤1😢1🙏1
20 лучших источников датасетов для ML в 2026
Хорошая подборка публичных и полу-публичных источников данных. Ничего магического, но полезно держать под рукой.
DeepSeek меняет работу residual connections
Новый архитектурный подход — Manifold-Constrained Hyper-Connections — решает тихую, но дорогую проблему градиентного взрыва в больших трансформерах.
NVIDIA Alpamayo — reasoning-first подход к автономному вождению
NVIDIA предлагает смотреть на автономное вождение не как на чистое предсказание, а как на задачу рассуждения. Особенно актуально для редких сценариев, где end-to-end модели всё ещё ломаются. Хороший пример, как reasoning выходит за пределы LLM.
Falcon-H1R: reasoning на уровне моделей в 7× больше
7B-модель, которая догоняет и обгоняет значительно более крупные аналоги за счёт архитектуры и обучения. Очередное напоминание, что «больше параметров» — далеко не единственный путь вперёд.
Пять трендов AI и Data Science на 2026
Фокус смещается от хайпа к организационной эффективности: AI как инструмент внутри компаний, а не витрина. Хорошо ложится на ощущение, что рынок начинает трезветь.
Deep Delta Learning — обобщение residual networks
Интересная архитектурная идея: один скалярный gate интерполирует между identity, projection и reflection. Пока больше похоже на исследовательский задел, но такие вещи часто «выстреливают» неожиданно.
ChatGPT Health — персонализированный медицинский режим
OpenAI запускает отдельный health-опыт с доступом к медданным и фитнес-приложениям. С точки зрения DS это огромный шаг в сторону контекстных моделей — и одновременно зона повышенной ответственности.
Lenovo Qira — кросс-девайс AI-ассистент
Ассистент, который живёт сразу на ПК и смартфоне и помнит контекст между устройствами. Всё больше похоже на движение к «ambient AI», который просто рядом, а не запускается по кнопке.
Karpathy про nanochat и масштабирование через глубину
Андрей показывает, что масштабирование — это не только ширина и параметры. Иногда достаточно аккуратно поиграть с глубиной, чтобы получить неожиданный эффект.
Gemini 3 приходит в Gmail
Резюме, Q&A по всему инбоксу и приоритизация писем для 3 млрд пользователей. Если LLM и становятся массовым продуктом, то именно так — встроенными в существующие привычки.
Alibaba выпускает Qwen3-VL для мультимодального поиска
Единые embeddings для текста, изображений и видео — ровно то, чего давно не хватает RAG-системам в реальном мире. Очень практичный релиз, если вы работаете с «грязными» мультимодальными данными.
OpenAI нанимает команду Convogo
OpenAI покупает не продукт, а команду — классический acqui-hire. Явный фокус на AI cloud и enterprise-направление, а не очередной consumer-фиче.
📍 Навигация: Вакансии • Задачи • Собесы
#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤🔥2❤2🔥1🥰1😢1
This media is not supported in your browser
VIEW IN TELEGRAM
Если вы создаёте agentic-приложения, быстро понимаете: одного протокола мало. MCP и A2A решают разные задачи и отлично дополняют друг друга.
MCP можно представить как «руки» агента — доступ к инструментам и ресурсам. A2A же — это «общение», способ агентам договариваться и работать в команде. В стеке протоколов они находятся на разных уровнях, но работают вместе.
📍 Навигация: Вакансии • Задачи • Собесы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1😢1
👌 Keras упростил квантование
Теперь Keras умеет квантовать модели буквально одной строкой кода — и это очень приятное обновление.
Можно взять свою модель или любую предобученную из KerasHub и просто вызвать model.quantize(...). Без отдельных тулов, без сложных пайплайнов, без шаманства с экспортами.
✅ Поддерживаются самые ходовые режимы: int4, int8, float8 и GPTQ. То есть и для инференса на проде, и для экспериментов с уменьшением модели — всё уже из коробки.
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
Теперь Keras умеет квантовать модели буквально одной строкой кода — и это очень приятное обновление.
Можно взять свою модель или любую предобученную из KerasHub и просто вызвать model.quantize(...). Без отдельных тулов, без сложных пайплайнов, без шаманства с экспортами.
📍 Навигация: Вакансии • Задачи • Собесы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥3❤1
До pandas 3.0 создание новых колонок выглядело… терпимо, но не приятно. Либо квадратные скобки, которые ломают chaining и заставляют постоянно повторять имя DataFrame. Либо assign() с лямбдами — многословно и с классическими багами из-за замыканий.
Вот типичный старый стиль:
# Старый pandas: verbose lambda
df.assign(total=lambda df: df['x'] + df['y'])
А теперь — любимый всеми подводный камень:
# Lambda bug в циклах
for f in [10, 20, 30]:
results[f'x_{f}'] = lambda df: df['x'] * f
# x_10=30, x_20=30, x_30=30 <- сюрприз
Все колонки умножаются на последнее значение f. Классика Python: лямбда захватила переменную, а не её значение.
В pandas 3.0 это наконец-то исправили элегантно. Появились pd.col() — чистые выражения для работы со столбцами.
Теперь код читается почти как Polars:
# Новый pandas: читается как Polars
df.assign(total=pd.col('x') + pd.col('y'))
И тот же пример с циклом — но уже без магии и багов:
for f in [10, 20, 30]:
results[f'x_{f}'] = pd.col('x') * f
# x_10=10, x_20=20, x_30=30 <- как и ожидалось
Самое приятное здесь даже не синтаксис (хотя он стал заметно чище), а то, что pd.col() убирает целый класс ошибок с замыканиями. Больше не нужно помнить, как именно Python захватывает переменные в лямбдах — просто пишешь выражение.
👏 Небольшое изменение в API, но ощущается как серьёзный шаг вперёд в удобстве и читаемости pandas.
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤7🔥1🥰1
От классического ML к Agentic AI: ваш технологический стек
Для
Ключевые этапы обучения:
— работа с
— проектирование циклов
— оптимизация
— масштабирование мультиагентных систем.
Курс «Разработка ИИ-агентов» позволит вам освоить современные фреймворки и создать реальные AI-решения для бизнеса.
Изучить программу курса
Акция «3 в 1» до 19 января: заберите два дополнительных курса в подарок.
Для
Data Scientist переход к агентным архитектурам — это возможность создавать системы, которые не просто предсказывают, а совершают действия.Ключевые этапы обучения:
— работа с
LLM как с движком принятия решений;— проектирование циклов
Reasoning и управления состоянием;— оптимизация
RAG через агентный поиск;— масштабирование мультиагентных систем.
Курс «Разработка ИИ-агентов» позволит вам освоить современные фреймворки и создать реальные AI-решения для бизнеса.
Изучить программу курса
Акция «3 в 1» до 19 января: заберите два дополнительных курса в подарок.
Google продолжает активно пушить open-source AI в здравоохранении. Вышел MedGemma 1.5 (4B) — обновлённая версия медицинской мультимодальной модели, а вместе с ней — MedASR, открытая модель распознавания медицинской речи.
MedGemma 1.5 заметно прокачали под реальные клинические сценарии. Плюс — выросла точность по тексту, медицинским записям и 2D-изображениям по сравнению с версией 1.0.
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1🎉1
Вы когда-нибудь рисовали схему базы на доске или в FigJam, а потом убивали полдня, вручную превращая её в SQL?
Оказывается, это вообще не обязательный этап.
DrawDB позволяет делать ровно наоборот: вы сначала рисуете схему, а код получается автоматически. Таблицы, связи, ключи — всё собирается на визуальном канвасе, а на выходе вы сразу получаете готовый SQL под нужную БД.
Причём это не «игрушка для прототипов». DrawDB умеет экспортировать production-ready SQL для MySQL, PostgreSQL, SQLite, MariaDB, MSSQL и Oracle. Без регистрации, без подписки, без скрытых ограничений. Диаграммы можно сразу шарить с командой — просто ссылкой.
Отдельный плюс — проект полностью open source и бесплатный.
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤3🔥2🤩1
Если вы пользуетесь Claude Code и каждый раз настраиваете агентов, команды и MCP руками — есть способ сильно упростить жизнь.
Claude Code Templates — это каталог готовых конфигураций для Claude: AI-агенты, кастомные команды, настройки, хуки, интеграции через MCP и шаблоны проектов. По сути, это «маркетплейс best practices» для Claude Code.
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1
«Этот манёвр будет стоить нам 51 год...»
В Data Science время — это не только переменная в модели, но и ваш шанс занять место на рынке. Пока
19 января в Proglib Academy вырастут цены. Забирайте базу сейчас:
— Математика для разработки AI-моделей
— ML для старта в Data Science
— Математика для Data Science
— Специалист по ИИ
— Алгоритмы и структуры данных
— Программирование на Python
— Основы IT для непрограммистов
— Архитектуры и шаблоны проектирования
Успеть до повышения
⚠️ Старые цены действуют до 19 января
В Data Science время — это не только переменная в модели, но и ваш шанс занять место на рынке. Пока
SOTA-модели выходят каждую неделю, единственный способ не отстать — системно изучать Math и LLM.19 января в Proglib Academy вырастут цены. Забирайте базу сейчас:
— Математика для разработки AI-моделей
— ML для старта в Data Science
— Математика для Data Science
— Специалист по ИИ
— Алгоритмы и структуры данных
— Программирование на Python
— Основы IT для непрограммистов
— Архитектуры и шаблоны проектирования
Успеть до повышения
⚠️ Старые цены действуют до 19 января
😁1😢1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁16👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Самая большая проблема с агентами сегодня не в том, чтобы их собрать.
LangWatch решает именно это. Он показывает жизнь LLM-пайплайна под микроскопом: каждый шаг агента, каждый вызов, где теряется контекст, где ответ стал дороже или медленнее, где логика пошла не туда.
Работа превращается в нормальный инженерный цикл:
посмотрели трассу → нашли слабое место → проверили на датасете → поправили промпт или шаг агента → сразу увидели разницу.
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥4❤1👍1🥰1🙏1
📌 Шпаргалка по алгоритмам Machine Learning
Собрали в одном месте ключевые ML-алгоритмы с краткими пояснениями и ориентирами по применению.
📕 P.S. Файл в лучшем качестве прикреплён в комментарии.
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
#буст
Собрали в одном месте ключевые ML-алгоритмы с краткими пояснениями и ориентирами по применению.
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍3🎉2👾1
OpenAI усиливает ChatGPT Health через Torch Health
OpenAI добавляет Torch-технологии в ChatGPT Health, чтобы работать с долгосрочной медицинской историей как с единой системой, а не набором PDF-ок. Это ровно та точка, где health-AI обычно ломается: данные есть, но они фрагментированы. Подход с «постоянным контекстом» выглядит гораздо ближе к реальному клиническому использованию.
Google выпускает MedGemma 1.5
Новое поколение открытых медицинских моделей, заточенных не только под текст, но и под более сложные клинические сценарии. Google расширяет HAI-DEF, явно показывая, что healthcare-AI выходит за пределы экспериментов и становится инженерной задачей.
Ministral 3: технический отчёт
Семейство моделей (3B–14B) для low-resource окружений с поддержкой изображений и reasoning-вариантами. Интересен сам подход Cascade Distillation — итеративная дистилляция с прунингом, а не простое «обрежем потом».
Kaggle запускает Community Benchmarks
Теперь можно создавать и шарить собственные бенчмарки прямо на Kaggle. Хороший шаг от абстрактных leaderboard’ов к более прикладной и честной оценке моделей под конкретные задачи.
Миф о бесконечном масштабировании ИИ
Разбор того, где рост моделей перестаёт давать линейную пользу.
Разметка данных — самая дорогая часть ML
Напоминание, которое всегда неприятно, но необходимо: качество модели почти всегда упирается не в архитектуру, а в данные и людей, которые их размечают.
Функция потерь: как модель понимает, что ошиблась
Спокойное объяснение одной из самых фундаментальных частей ML. Полезно перечитать, чтобы напомнить себе, что оптимизирует модель на самом деле.
Как научить машину понимать смысл слов
Про эмбеддинги и представления, без лишней математики, но с понятной интуицией.
Machine Unlearning: зачем моделям уметь забывать
Первая часть большого разговора о «праве на забвение» для ML-моделей. Тема становится всё менее теоретической — особенно в regulated-доменах.
📍 Навигация: Вакансии • Задачи • Собесы
#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2🥰1