🚮 Barlow Twins учит эмбеддинги, убирая избыточность
Большинство self-supervised методов (SimCLR, BYOL) делают одно и то же:
— сближают представления разных аугментаций
— избегают коллапса через контрастивные лоссы или предикторы
Но почти не задумываются о том, что происходит внутри самого эмбеддинга.
👉 Barlow Twins — другой.
Он напрямую минимизирует избыточность между измерениями эмбеддинга, заставляя кросс-корреляционную матрицу двух аугментаций стать единичной:
✅ диагональ = 1 → инвариантность к аугментациям
✅ вне диагонали = 0 → никакого дублирования информации между фичами
Каждое измерение обязано нести новую, а не повторяющуюся информацию.
В итоге representation learning превращается в аккуратную компрессию информации:
✅ сохранить всё про объект
✅ забыть искажения
✅ вычистить внутренний шум и повторения
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
#буст
Большинство self-supervised методов (SimCLR, BYOL) делают одно и то же:
— сближают представления разных аугментаций
— избегают коллапса через контрастивные лоссы или предикторы
Но почти не задумываются о том, что происходит внутри самого эмбеддинга.
Он напрямую минимизирует избыточность между измерениями эмбеддинга, заставляя кросс-корреляционную матрицу двух аугментаций стать единичной:
Каждое измерение обязано нести новую, а не повторяющуюся информацию.
В итоге representation learning превращается в аккуратную компрессию информации:
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍4🔥2
📊 Graph Laplacian — зачем он нужен и почему везде
Graph Laplacian — это матрица, которая формально описывает, как связаны узлы в графе и насколько каждый узел отличается от среднего по своим соседям.
Где и зачем он используется:
🎲 Теория вероятностей
— Описывает случайные блуждания по графам
— Моделирует диффузию и цепи Маркова
— Показывает, как вероятность «растекается» по сети
🤖 Машинное обучение
— Spectral Clustering — поиск сообществ и кластеров
— Semi-supervised learning — обучение с малым числом меток
— Graph Neural Networks — обучение на графах
— Manifold learning — работа с данными на многообразиях
📐 Анализ структуры
Собственные значения выявляют:
— кластеры и сообщества
— узкие места и bottleneck’и
— самые «гладкие» способы менять функции на данных
Используется для снижения размерности и шумоподавления
🌍 Реальные системы
— Транспортные сети и потоки трафика
— Социальные графы и распространение влияния
— Энергосети и отказоустойчивость
— Рекомендательные системы и распространение информации
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
#буст
Graph Laplacian — это матрица, которая формально описывает, как связаны узлы в графе и насколько каждый узел отличается от среднего по своим соседям.
Где и зачем он используется:
🎲 Теория вероятностей
— Описывает случайные блуждания по графам
— Моделирует диффузию и цепи Маркова
— Показывает, как вероятность «растекается» по сети
🤖 Машинное обучение
— Spectral Clustering — поиск сообществ и кластеров
— Semi-supervised learning — обучение с малым числом меток
— Graph Neural Networks — обучение на графах
— Manifold learning — работа с данными на многообразиях
📐 Анализ структуры
Собственные значения выявляют:
— кластеры и сообщества
— узкие места и bottleneck’и
— самые «гладкие» способы менять функции на данных
Используется для снижения размерности и шумоподавления
🌍 Реальные системы
— Транспортные сети и потоки трафика
— Социальные графы и распространение влияния
— Энергосети и отказоустойчивость
— Рекомендательные системы и распространение информации
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2🙏1
DS в 2026-м: от обучения моделей к управлению сотрудниками на ИИ
Просто обучить
На курсе по AI-агентам мы научим вас дирижировать этим оркестром:
— паттерн
— оркестрация в
— протокол
— продвинутый
Выныривайте из праздников в мир автономных систем.
🎁 До 12 января акция «3 в 1» — курс по ИИ-агентам + 2 курса в подарок.
Спроектировать будущее
Просто обучить
Transformer уже недостаточно. Тренд года — создание мультиагентных систем, где каждый агент выполняет свою роль: аналитик, кодер, критик.На курсе по AI-агентам мы научим вас дирижировать этим оркестром:
— паттерн
ReAct: как заставить модель рассуждать логически;— оркестрация в
n8n: автоматизация пайплайнов без лишнего кода;— протокол
MCP: новый стандарт взаимодействия между LLM;— продвинутый
RAG: создание баз знаний нового поколения.Выныривайте из праздников в мир автономных систем.
🎁 До 12 января акция «3 в 1» — курс по ИИ-агентам + 2 курса в подарок.
Спроектировать будущее
😁7🤔4❤1
🚀 Auto-Analyst — AI, который автоматизирует Data Science
Auto-Analyst — полностью open-source систему для автоматизации всего data science-пайплайна: от очистки данных и статистики до ML-моделей и визуализации.
✅ Полностью open source
MIT-лицензия — можно использовать, модифицировать и встраивать без ограничений.
✅ LLM-agnostic
Работает с любыми API: OpenAI, Anthropic, DeepSeek, Groq и др.
✅ Bring Your Own API Key
Никакого vendor lock-in — платите только за свои запросы.
✅ UI для дата-сайентистов
Фокус не на «чатике», а на реальной аналитической работе.
✅ Надёжные и интерпретируемые ответы
Встроенные guardrails для контроля качества вывода.
✅ Модульная агентная архитектура
Легко добавлять и кастомизировать агентов через DSPy.
📱 Github
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
#буст
Auto-Analyst — полностью open-source систему для автоматизации всего data science-пайплайна: от очистки данных и статистики до ML-моделей и визуализации.
MIT-лицензия — можно использовать, модифицировать и встраивать без ограничений.
Работает с любыми API: OpenAI, Anthropic, DeepSeek, Groq и др.
Никакого vendor lock-in — платите только за свои запросы.
Фокус не на «чатике», а на реальной аналитической работе.
Встроенные guardrails для контроля качества вывода.
Легко добавлять и кастомизировать агентов через DSPy.
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🎉2
👌 SKOPS — как делиться sklearn-моделями без pickle и боли
Если вы работаете со scikit-learn и вам нужно сохранять, передавать и выкладывать модели в прод, стоит посмотреть на skops.
skops — это библиотека, которая делает две очень полезные вещи:
1️⃣ Безопасное сохранение и загрузка sklearn-моделей без pickle.
skops. io позволяет сериализовать модели явно и безопасно — особенно полезно, если вы публикуете модели или загружаете их из внешних источников.
2️⃣ skops.card
Инструменты для создания model card — документа, который объясняет:
✔️ что делает модель
✔️ на каких данных она обучалась
✔️ как её правильно использовать
✔️ какие есть ограничения
Крутая фича: model card можно сразу сохранить как README. md на Hugging Face Hub, с уже подготовленными метаданными.
Установка:
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
#буст
Если вы работаете со scikit-learn и вам нужно сохранять, передавать и выкладывать модели в прод, стоит посмотреть на skops.
skops — это библиотека, которая делает две очень полезные вещи:
skops. io позволяет сериализовать модели явно и безопасно — особенно полезно, если вы публикуете модели или загружаете их из внешних источников.
Инструменты для создания model card — документа, который объясняет:
Крутая фича: model card можно сразу сохранить как README. md на Hugging Face Hub, с уже подготовленными метаданными.
Установка:
python -m pip install skops
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍1🎉1
Forwarded from Библиотека задач по Data Science | тесты, код, задания
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2🎉1🙏1
🧠 Почему матрица Wₒ критически важна для Transformer’ов
👉 Короткий ответ: без Wₒ multi-head attention почти бесполезен.
В multi-head attention мы делим эмбеддинг на несколько голов:
Каждая голова считает внимание независимо:
— head₁ → output₁
— head₂ → output₂
— …
— headₙ → outputₙ
И вот тут важный момент. Если мы просто склеим (concat) эти выходы, то головы никак не будут делиться информацией.
Представьте:
— одна голова выучила синтаксис
— другая — сущности
— третья — логические связи
При обычной конкатенации всё это просто лежит рядом, но не взаимодействует.
Тут появляется Wₒ.
После конкатенации мы делаем:
❗️ Без Wₒ: Головы — изолированные силосы. Каждая знает что-то своё, но модель не умеет это объединять.
❗️ С Wₒ: Каждый выходной вектор получает информацию из всех голов сразу: синтаксис, сущности, логика и дальние зависимости.
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
#буст
👉 Короткий ответ: без Wₒ multi-head attention почти бесполезен.
В multi-head attention мы делим эмбеддинг на несколько голов:
head_dim = d_model / num_heads
Каждая голова считает внимание независимо:
— head₁ → output₁
— head₂ → output₂
— …
— headₙ → outputₙ
И вот тут важный момент. Если мы просто склеим (concat) эти выходы, то головы никак не будут делиться информацией.
Представьте:
— одна голова выучила синтаксис
— другая — сущности
— третья — логические связи
При обычной конкатенации всё это просто лежит рядом, но не взаимодействует.
Тут появляется Wₒ.
После конкатенации мы делаем:
output = Wₒ × concat(output₁, output₂, …, outputₙ)
Wₒ — это матрица размера d_model × d_model, и её главная задача — перемешать информацию между головами.❗️ Без Wₒ: Головы — изолированные силосы. Каждая знает что-то своё, но модель не умеет это объединять.
❗️ С Wₒ: Каждый выходной вектор получает информацию из всех голов сразу: синтаксис, сущности, логика и дальние зависимости.
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
#буст
👍7❤3👾1
🧩 Универсальная структура для agent-проектов
Большинство agent-проектов рано или поздно превращаются в хаос: файлы разбросаны, логика смешана, тестов нет, деплой страшно трогать.
Эта проблема решается правильной структурой с самого начала.
Один cookiecutter — и проект сразу создаётся с продуманным каркасом:
🔹 CI / CD — автоматические сборки и тесты
🔹 Data — статические файлы и ресурсы
🔹 Notebooks — песочница для промптов и экспериментов
🔹 Agent Python Library — чистая архитектура
(domain / application / infrastructure)
🔹 Tests — unit, integration и дальше по мере роста
🔹 Дополнительные файлы — Docker, Makefile, конфиги
🔹 README.md — обязательная документация с первого дня
Результат — чистый, расширяемый репозиторий, который не ломается при росте проекта и команды.
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
#буст
Большинство agent-проектов рано или поздно превращаются в хаос: файлы разбросаны, логика смешана, тестов нет, деплой страшно трогать.
Эта проблема решается правильной структурой с самого начала.
Один cookiecutter — и проект сразу создаётся с продуманным каркасом:
🔹 CI / CD — автоматические сборки и тесты
🔹 Data — статические файлы и ресурсы
🔹 Notebooks — песочница для промптов и экспериментов
🔹 Agent Python Library — чистая архитектура
(domain / application / infrastructure)
🔹 Tests — unit, integration и дальше по мере роста
🔹 Дополнительные файлы — Docker, Makefile, конфиги
🔹 README.md — обязательная документация с первого дня
Результат — чистый, расширяемый репозиторий, который не ломается при росте проекта и команды.
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥5❤1😢1🙏1
20 лучших источников датасетов для ML в 2026
Хорошая подборка публичных и полу-публичных источников данных. Ничего магического, но полезно держать под рукой.
DeepSeek меняет работу residual connections
Новый архитектурный подход — Manifold-Constrained Hyper-Connections — решает тихую, но дорогую проблему градиентного взрыва в больших трансформерах.
NVIDIA Alpamayo — reasoning-first подход к автономному вождению
NVIDIA предлагает смотреть на автономное вождение не как на чистое предсказание, а как на задачу рассуждения. Особенно актуально для редких сценариев, где end-to-end модели всё ещё ломаются. Хороший пример, как reasoning выходит за пределы LLM.
Falcon-H1R: reasoning на уровне моделей в 7× больше
7B-модель, которая догоняет и обгоняет значительно более крупные аналоги за счёт архитектуры и обучения. Очередное напоминание, что «больше параметров» — далеко не единственный путь вперёд.
Пять трендов AI и Data Science на 2026
Фокус смещается от хайпа к организационной эффективности: AI как инструмент внутри компаний, а не витрина. Хорошо ложится на ощущение, что рынок начинает трезветь.
Deep Delta Learning — обобщение residual networks
Интересная архитектурная идея: один скалярный gate интерполирует между identity, projection и reflection. Пока больше похоже на исследовательский задел, но такие вещи часто «выстреливают» неожиданно.
ChatGPT Health — персонализированный медицинский режим
OpenAI запускает отдельный health-опыт с доступом к медданным и фитнес-приложениям. С точки зрения DS это огромный шаг в сторону контекстных моделей — и одновременно зона повышенной ответственности.
Lenovo Qira — кросс-девайс AI-ассистент
Ассистент, который живёт сразу на ПК и смартфоне и помнит контекст между устройствами. Всё больше похоже на движение к «ambient AI», который просто рядом, а не запускается по кнопке.
Karpathy про nanochat и масштабирование через глубину
Андрей показывает, что масштабирование — это не только ширина и параметры. Иногда достаточно аккуратно поиграть с глубиной, чтобы получить неожиданный эффект.
Gemini 3 приходит в Gmail
Резюме, Q&A по всему инбоксу и приоритизация писем для 3 млрд пользователей. Если LLM и становятся массовым продуктом, то именно так — встроенными в существующие привычки.
Alibaba выпускает Qwen3-VL для мультимодального поиска
Единые embeddings для текста, изображений и видео — ровно то, чего давно не хватает RAG-системам в реальном мире. Очень практичный релиз, если вы работаете с «грязными» мультимодальными данными.
OpenAI нанимает команду Convogo
OpenAI покупает не продукт, а команду — классический acqui-hire. Явный фокус на AI cloud и enterprise-направление, а не очередной consumer-фиче.
📍 Навигация: Вакансии • Задачи • Собесы
#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤🔥2❤2🔥1🥰1😢1
This media is not supported in your browser
VIEW IN TELEGRAM
Если вы создаёте agentic-приложения, быстро понимаете: одного протокола мало. MCP и A2A решают разные задачи и отлично дополняют друг друга.
MCP можно представить как «руки» агента — доступ к инструментам и ресурсам. A2A же — это «общение», способ агентам договариваться и работать в команде. В стеке протоколов они находятся на разных уровнях, но работают вместе.
📍 Навигация: Вакансии • Задачи • Собесы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1😢1
👌 Keras упростил квантование
Теперь Keras умеет квантовать модели буквально одной строкой кода — и это очень приятное обновление.
Можно взять свою модель или любую предобученную из KerasHub и просто вызвать model.quantize(...). Без отдельных тулов, без сложных пайплайнов, без шаманства с экспортами.
✅ Поддерживаются самые ходовые режимы: int4, int8, float8 и GPTQ. То есть и для инференса на проде, и для экспериментов с уменьшением модели — всё уже из коробки.
📍 Навигация: Вакансии • Задачи • Собесы
🐸 Библиотека дата-сайентиста
Теперь Keras умеет квантовать модели буквально одной строкой кода — и это очень приятное обновление.
Можно взять свою модель или любую предобученную из KerasHub и просто вызвать model.quantize(...). Без отдельных тулов, без сложных пайплайнов, без шаманства с экспортами.
📍 Навигация: Вакансии • Задачи • Собесы
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥3❤1
До pandas 3.0 создание новых колонок выглядело… терпимо, но не приятно. Либо квадратные скобки, которые ломают chaining и заставляют постоянно повторять имя DataFrame. Либо assign() с лямбдами — многословно и с классическими багами из-за замыканий.
Вот типичный старый стиль:
# Старый pandas: verbose lambda
df.assign(total=lambda df: df['x'] + df['y'])
А теперь — любимый всеми подводный камень:
# Lambda bug в циклах
for f in [10, 20, 30]:
results[f'x_{f}'] = lambda df: df['x'] * f
# x_10=30, x_20=30, x_30=30 <- сюрприз
Все колонки умножаются на последнее значение f. Классика Python: лямбда захватила переменную, а не её значение.
В pandas 3.0 это наконец-то исправили элегантно. Появились pd.col() — чистые выражения для работы со столбцами.
Теперь код читается почти как Polars:
# Новый pandas: читается как Polars
df.assign(total=pd.col('x') + pd.col('y'))
И тот же пример с циклом — но уже без магии и багов:
for f in [10, 20, 30]:
results[f'x_{f}'] = pd.col('x') * f
# x_10=10, x_20=20, x_30=30 <- как и ожидалось
Самое приятное здесь даже не синтаксис (хотя он стал заметно чище), а то, что pd.col() убирает целый класс ошибок с замыканиями. Больше не нужно помнить, как именно Python захватывает переменные в лямбдах — просто пишешь выражение.
👏 Небольшое изменение в API, но ощущается как серьёзный шаг вперёд в удобстве и читаемости pandas.
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤7🔥1🥰1
От классического ML к Agentic AI: ваш технологический стек
Для
Ключевые этапы обучения:
— работа с
— проектирование циклов
— оптимизация
— масштабирование мультиагентных систем.
Курс «Разработка ИИ-агентов» позволит вам освоить современные фреймворки и создать реальные AI-решения для бизнеса.
Изучить программу курса
Акция «3 в 1» до 19 января: заберите два дополнительных курса в подарок.
Для
Data Scientist переход к агентным архитектурам — это возможность создавать системы, которые не просто предсказывают, а совершают действия.Ключевые этапы обучения:
— работа с
LLM как с движком принятия решений;— проектирование циклов
Reasoning и управления состоянием;— оптимизация
RAG через агентный поиск;— масштабирование мультиагентных систем.
Курс «Разработка ИИ-агентов» позволит вам освоить современные фреймворки и создать реальные AI-решения для бизнеса.
Изучить программу курса
Акция «3 в 1» до 19 января: заберите два дополнительных курса в подарок.
Google продолжает активно пушить open-source AI в здравоохранении. Вышел MedGemma 1.5 (4B) — обновлённая версия медицинской мультимодальной модели, а вместе с ней — MedASR, открытая модель распознавания медицинской речи.
MedGemma 1.5 заметно прокачали под реальные клинические сценарии. Плюс — выросла точность по тексту, медицинским записям и 2D-изображениям по сравнению с версией 1.0.
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1🎉1
Вы когда-нибудь рисовали схему базы на доске или в FigJam, а потом убивали полдня, вручную превращая её в SQL?
Оказывается, это вообще не обязательный этап.
DrawDB позволяет делать ровно наоборот: вы сначала рисуете схему, а код получается автоматически. Таблицы, связи, ключи — всё собирается на визуальном канвасе, а на выходе вы сразу получаете готовый SQL под нужную БД.
Причём это не «игрушка для прототипов». DrawDB умеет экспортировать production-ready SQL для MySQL, PostgreSQL, SQLite, MariaDB, MSSQL и Oracle. Без регистрации, без подписки, без скрытых ограничений. Диаграммы можно сразу шарить с командой — просто ссылкой.
Отдельный плюс — проект полностью open source и бесплатный.
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤3🔥2🤩1
Если вы пользуетесь Claude Code и каждый раз настраиваете агентов, команды и MCP руками — есть способ сильно упростить жизнь.
Claude Code Templates — это каталог готовых конфигураций для Claude: AI-агенты, кастомные команды, настройки, хуки, интеграции через MCP и шаблоны проектов. По сути, это «маркетплейс best practices» для Claude Code.
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1
«Этот манёвр будет стоить нам 51 год...»
В Data Science время — это не только переменная в модели, но и ваш шанс занять место на рынке. Пока
19 января в Proglib Academy вырастут цены. Забирайте базу сейчас:
— Математика для разработки AI-моделей
— ML для старта в Data Science
— Математика для Data Science
— Специалист по ИИ
— Алгоритмы и структуры данных
— Программирование на Python
— Основы IT для непрограммистов
— Архитектуры и шаблоны проектирования
Успеть до повышения
⚠️ Старые цены действуют до 19 января
В Data Science время — это не только переменная в модели, но и ваш шанс занять место на рынке. Пока
SOTA-модели выходят каждую неделю, единственный способ не отстать — системно изучать Math и LLM.19 января в Proglib Academy вырастут цены. Забирайте базу сейчас:
— Математика для разработки AI-моделей
— ML для старта в Data Science
— Математика для Data Science
— Специалист по ИИ
— Алгоритмы и структуры данных
— Программирование на Python
— Основы IT для непрограммистов
— Архитектуры и шаблоны проектирования
Успеть до повышения
⚠️ Старые цены действуют до 19 января
😁1😢1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁15👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Самая большая проблема с агентами сегодня не в том, чтобы их собрать.
LangWatch решает именно это. Он показывает жизнь LLM-пайплайна под микроскопом: каждый шаг агента, каждый вызов, где теряется контекст, где ответ стал дороже или медленнее, где логика пошла не туда.
Работа превращается в нормальный инженерный цикл:
посмотрели трассу → нашли слабое место → проверили на датасете → поправили промпт или шаг агента → сразу увидели разницу.
📍 Навигация: Вакансии • Задачи • Собесы
#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥4👍1