Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение – Telegram

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

18.4K subscribers

2.49K photos

127 videos

68 files

4.96K links

Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9

Download Telegram

About

Blog

Apps

Platform

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

18.4K subscribers

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📊

Линейная регрессия — больше, чем прямая линия

Линейная регрессия часто представляется как «подгонка прямой к данным». Это удобно, но скрывает истинную математическую суть модели.

На самом деле, модель изучает вероятностное соответствие входов и выходов. Мы предполагаем, что каждое наблюдаемое значение целевой переменной генерируется линейной функцией от входа, искажённой случайным шумом с нормальным распределением.

Это не косметическая деталь — она задаёт всю задачу обучения.

Следствия этой модели:
➖ Максимизация правдоподобия данных при Gaussian шуме эквивалентна минимизации MSE (среднеквадратичной ошибки).
➖ Функция потерь не выбрана случайно, а следует из статистической модели.

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤2😢1🙏1

1.85K views16:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎇

Топ 10 постов 2025

Этот год подарил массу ценных материалов: от работы с большими данными и многопоточными системами до LLM и реальных кейсов ML в продакшене.

В подборке для вас:

✳️

Делаем конкурента DeepSeek R1-Zero на домашней пекарне: метод GRPO в Unsloth

✳️

Как стать ИИ-разработчиком в 2025 году: дорожная карта и ресурсы

✳️

Чек-лист: как структурировать Data Science проект

✳️

8 RAG-архитектур, которые должен знать каждый

✳️

TensorTonic — LeetCode, но для машинного обучения

✳️

Как создавать ИИ-агентов, которые реально работают: опыт Anthropic

✳️

Google Colab теперь в VS Code: лучшее из двух миров

✳️

Все говорят про LLM и diffusion, а вот про OCR как будто забыли…

✳️

Полный гайд по машинному обучению — учебник на 649 страниц

✳️

Фишка инструмента: топ-5 библиотек Python для EDA (разведочного анализа данных)

🎆 Поздравляем с окончанием года! Пусть 2026 принесёт ещё больше продуктивности и крутых данных!

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

🎉5❤2

2.12K views06:31

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📂 ML System Design: 300+ кейсов от ведущих компаний

Ищете реальные примеры построения ML-систем?

Этот репозиторий собрал 300+ кейсов от 80+ ведущих компаний — Netflix, Airbnb, Doordash и других.

➖ Практический опыт, решения и подходы к ML-системам для улучшения продуктов и процессов.

📱

Репозиторий

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9❤3👍1🙏1

2.29K views14:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔔

Production ML: Все необходимые инструменты в одном месте

Если вы работаете с ML в продакшне, этот репозиторий — настоящая находка. Он содержит отборные open-source библиотеки, которые помогут:
✔️ развёртывать модели
✔️ мониторить их работу
✔️ управлять версиями
✔️ масштабировать системы
✔️ обеспечивать безопасность

📱

Репозиторий

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6❤3👍1

2.04K views07:56

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Data Science 2026: переход от моделей к автономным агентам

Обучить модель — это полдела. Настоящий вызов сейчас — заставить их работать в команде. Мультиагентность, паттерн ReAct и RAG — вот что превращает обычную LLM в боевой бизнес-инструмент.

На курсе Proglib Academy мы фокусируемся на практике создания таких систем.

Основные темы:

— сборка ReAct-агентов: как научить модель рассуждать (Reasoning) и использовать инструменты (Acting);
— работа с CrewAI и AutoGen для оркестрации ролей;
— протокол MCP (Model Context Protocol) от Anthropic;
— создание продвинутых RAG-архитектур для работы с Big Data.

Инвестируй в стек, который будет кормить тебя весь 2026 год.

🎁 Акция «3 в 1» до 12 января: курс по ИИ-агентам + 2 курса в подарок.

Изучить программу

🥰1🤔1🥱1

2.09K views14:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Media is too big

VIEW IN TELEGRAM

➡️

ML без магии: 100+ алгоритмов, реализованных с нуля

Этот проект предлагает другой подход — реализовать более 100 алгоритмов с нуля:
✔️ пошаговая реализация алгоритмов
✔️ понимание математики за каждым решением
✔️ интерактивные визуализации
✔️ практические задания для закрепления

Идеально для тех, кто хочет разобраться как и почему работают модели, а не только как их использовать.

🔗

Платформа

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤2

2.14K views11:39

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👨‍🎓

Как реально изучают LLM в Stanford

Если ты хочешь действительно понимать LLM, а не просто вызывать API, пройди этот roadmap по порядку 👇

1️⃣

Transformers
Как на самом деле работают attention, токены и self-attention

2️⃣

Transformer-модели и практические приёмы
Что делает трансформеры обучаемыми и эффективными в масштабе

3️⃣

От Transformers к LLM
Как архитектура + данные + масштаб превращаются в LLM

4️⃣

Обучение LLM
Pretraining-объективы и откуда берётся «интеллект» модели

5️⃣

Тюнинг LLM
Instruction tuning, alignment и почему fine-tuning критичен

6️⃣

Рассуждение LLM
Почему модели ошибаются в логике и что реально это улучшает

7️⃣

Агентные LLM
Как превратить языковую модель в систему, которая планирует и действует

8️⃣

Оценка LLM
Как измерять качество моделей, а не «ощущения от демо»

9️⃣

Итоги и тренды
Что меняется прямо сейчас и что будет важно дальше

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10❤2🤩2🥰1

2.36K views15:35

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

SVM_шпаргалка.pdf

🎯

Support Vector Machines (SVM): шпаргалка от идеи до кода

SVM часто объясняют как «алгоритм, который рисует линию между классами».
На деле это гораздо более строгая и мощная модель — с чёткой геометрией и оптимизацией.

📍 Навигация: Вакансии • Задачи • Собесы

🐸 Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤1🔥1

2.12K views09:42

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁15👏1

1.92K views17:20

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚮 Barlow Twins учит эмбеддинги, убирая избыточность

Большинство self-supervised методов (SimCLR, BYOL) делают одно и то же:
— сближают представления разных аугментаций
— избегают коллапса через контрастивные лоссы или предикторы

Но почти не задумываются о том, что происходит внутри самого эмбеддинга.

👉

Barlow Twins — другой.

Он напрямую минимизирует избыточность между измерениями эмбеддинга, заставляя кросс-корреляционную матрицу двух аугментаций стать единичной:
✅ диагональ = 1 → инвариантность к аугментациям
✅ вне диагонали = 0 → никакого дублирования информации между фичами

Каждое измерение обязано нести новую, а не повторяющуюся информацию.

В итоге representation learning превращается в аккуратную компрессию информации:
✅ сохранить всё про объект
✅ забыть искажения
✅ вычистить внутренний шум и повторения

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍4🔥2

1.92K views12:40

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📊 Graph Laplacian — зачем он нужен и почему везде

Graph Laplacian — это матрица, которая формально описывает, как связаны узлы в графе и насколько каждый узел отличается от среднего по своим соседям.

Где и зачем он используется:

🎲 Теория вероятностей

— Описывает случайные блуждания по графам
— Моделирует диффузию и цепи Маркова
— Показывает, как вероятность «растекается» по сети

🤖 Машинное обучение

— Spectral Clustering — поиск сообществ и кластеров
— Semi-supervised learning — обучение с малым числом меток
— Graph Neural Networks — обучение на графах
— Manifold learning — работа с данными на многообразиях

📐 Анализ структуры

Собственные значения выявляют:
— кластеры и сообщества
— узкие места и bottleneck’и
— самые «гладкие» способы менять функции на данных
Используется для снижения размерности и шумоподавления

🌍 Реальные системы

— Транспортные сети и потоки трафика
— Социальные графы и распространение влияния
— Энергосети и отказоустойчивость
— Рекомендательные системы и распространение информации

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤2🙏1

1.98K views10:42

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

DS в 2026-м: от обучения моделей к управлению сотрудниками на ИИ

Просто обучить Transformer уже недостаточно. Тренд года — создание мультиагентных систем, где каждый агент выполняет свою роль: аналитик, кодер, критик.

На курсе по AI-агентам мы научим вас дирижировать этим оркестром:

— паттерн ReAct: как заставить модель рассуждать логически;
— оркестрация в n8n: автоматизация пайплайнов без лишнего кода;
— протокол MCP: новый стандарт взаимодействия между LLM;
— продвинутый RAG: создание баз знаний нового поколения.

Выныривайте из праздников в мир автономных систем.

🎁 До 12 января акция «3 в 1» — курс по ИИ-агентам + 2 курса в подарок.

Спроектировать будущее

😁7🤔4❤1

1.87K views15:07

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 Auto-Analyst — AI, который автоматизирует Data Science

Auto-Analyst — полностью open-source систему для автоматизации всего data science-пайплайна: от очистки данных и статистики до ML-моделей и визуализации.

✅

Полностью open source
MIT-лицензия — можно использовать, модифицировать и встраивать без ограничений.

✅

LLM-agnostic
Работает с любыми API: OpenAI, Anthropic, DeepSeek, Groq и др.

✅

Bring Your Own API Key
Никакого vendor lock-in — платите только за свои запросы.

✅

UI для дата-сайентистов
Фокус не на «чатике», а на реальной аналитической работе.

✅

Надёжные и интерпретируемые ответы
Встроенные guardrails для контроля качества вывода.

✅

Модульная агентная архитектура
Легко добавлять и кастомизировать агентов через DSPy.

📱

Github

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🎉2

2.06K views18:23

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👌 SKOPS — как делиться sklearn-моделями без pickle и боли

Если вы работаете со scikit-learn и вам нужно сохранять, передавать и выкладывать модели в прод, стоит посмотреть на skops.

skops — это библиотека, которая делает две очень полезные вещи:

1️⃣ Безопасное сохранение и загрузка sklearn-моделей без pickle.

skops. io позволяет сериализовать модели явно и безопасно — особенно полезно, если вы публикуете модели или загружаете их из внешних источников.

2️⃣ skops.card

Инструменты для создания model card — документа, который объясняет:
✔️ что делает модель
✔️ на каких данных она обучалась
✔️ как её правильно использовать
✔️ какие есть ограничения

Крутая фича: model card можно сразу сохранить как README. md на Hugging Face Hub, с уже подготовленными метаданными.

Установка:


python -m pip install skops

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍1🎉1

1.99K views18:39

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

🐸

Библиотека задач по Data Science

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2🎉1🙏1

1.72K views12:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Что выведет код?

Anonymous Quiz

Оба выведут первую строку (индекс 1)

Оба выведут вторую строку (индекс 2)

loc выведет строку с меткой "1", а iloc — вторую строку (позиция 1)

❤2🔥1

295 voters1.71K views12:52

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧠 Почему матрица Wₒ критически важна для Transformer’ов

👉 Короткий ответ: без Wₒ multi-head attention почти бесполезен.

В multi-head attention мы делим эмбеддинг на несколько голов:


head_dim = d_model / num_heads

Каждая голова считает внимание независимо:
— head₁ → output₁
— head₂ → output₂
— …
— headₙ → outputₙ

И вот тут важный момент. Если мы просто склеим (concat) эти выходы, то головы никак не будут делиться информацией.

Представьте:
— одна голова выучила синтаксис
— другая — сущности
— третья — логические связи

При обычной конкатенации всё это просто лежит рядом, но не взаимодействует.

Тут появляется Wₒ.

После конкатенации мы делаем:


output = Wₒ × concat(output₁, output₂, …, outputₙ)

Wₒ — это матрица размера d_model × d_model, и её главная задача — перемешать информацию между головами.

❗️ Без Wₒ: Головы — изолированные силосы. Каждая знает что-то своё, но модель не умеет это объединять.

❗️ С Wₒ: Каждый выходной вектор получает информацию из всех голов сразу: синтаксис, сущности, логика и дальние зависимости.

📍 Навигация: Вакансии • Задачи • Собесы

🐸 Библиотека дата-сайентиста

#буст

👍7❤3👾1

1.75K viewsedited 18:33

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧩 Универсальная структура для agent-проектов

Большинство agent-проектов рано или поздно превращаются в хаос: файлы разбросаны, логика смешана, тестов нет, деплой страшно трогать.

Эта проблема решается правильной структурой с самого начала.

Один cookiecutter — и проект сразу создаётся с продуманным каркасом:
🔹 CI / CD — автоматические сборки и тесты
🔹 Data — статические файлы и ресурсы
🔹 Notebooks — песочница для промптов и экспериментов
🔹 Agent Python Library — чистая архитектура
(domain / application / infrastructure)
🔹 Tests — unit, integration и дальше по мере роста
🔹 Дополнительные файлы — Docker, Makefile, конфиги
🔹 README.md — обязательная документация с первого дня

Результат — чистый, расширяемый репозиторий, который не ломается при росте проекта и команды.

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥5❤1😢1🙏1

1.68K views11:11

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕 Свежие новости для дата‑сайентистов

20 лучших источников датасетов для ML в 2026
Хорошая подборка публичных и полу-публичных источников данных. Ничего магического, но полезно держать под рукой.

DeepSeek меняет работу residual connections
Новый архитектурный подход — Manifold-Constrained Hyper-Connections — решает тихую, но дорогую проблему градиентного взрыва в больших трансформерах.

NVIDIA Alpamayo — reasoning-first подход к автономному вождению
NVIDIA предлагает смотреть на автономное вождение не как на чистое предсказание, а как на задачу рассуждения. Особенно актуально для редких сценариев, где end-to-end модели всё ещё ломаются. Хороший пример, как reasoning выходит за пределы LLM.

Falcon-H1R: reasoning на уровне моделей в 7× больше
7B-модель, которая догоняет и обгоняет значительно более крупные аналоги за счёт архитектуры и обучения. Очередное напоминание, что «больше параметров» — далеко не единственный путь вперёд.

Пять трендов AI и Data Science на 2026
Фокус смещается от хайпа к организационной эффективности: AI как инструмент внутри компаний, а не витрина. Хорошо ложится на ощущение, что рынок начинает трезветь.

Deep Delta Learning — обобщение residual networks
Интересная архитектурная идея: один скалярный gate интерполирует между identity, projection и reflection. Пока больше похоже на исследовательский задел, но такие вещи часто «выстреливают» неожиданно.

ChatGPT Health — персонализированный медицинский режим
OpenAI запускает отдельный health-опыт с доступом к медданным и фитнес-приложениям. С точки зрения DS это огромный шаг в сторону контекстных моделей — и одновременно зона повышенной ответственности.

Lenovo Qira — кросс-девайс AI-ассистент
Ассистент, который живёт сразу на ПК и смартфоне и помнит контекст между устройствами. Всё больше похоже на движение к «ambient AI», который просто рядом, а не запускается по кнопке.

Karpathy про nanochat и масштабирование через глубину
Андрей показывает, что масштабирование — это не только ширина и параметры. Иногда достаточно аккуратно поиграть с глубиной, чтобы получить неожиданный эффект.

Gemini 3 приходит в Gmail
Резюме, Q&A по всему инбоксу и приоритизация писем для 3 млрд пользователей. Если LLM и становятся массовым продуктом, то именно так — встроенными в существующие привычки.

Alibaba выпускает Qwen3-VL для мультимодального поиска
Единые embeddings для текста, изображений и видео — ровно то, чего давно не хватает RAG-системам в реальном мире. Очень практичный релиз, если вы работаете с «грязными» мультимодальными данными.

OpenAI нанимает команду Convogo
OpenAI покупает не продукт, а команду — классический acqui-hire. Явный фокус на AI cloud и enterprise-направление, а не очередной consumer-фиче.

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤‍🔥2❤2🔥1🥰1😢1

1.66K views13:58

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

ℹ️

MCP и A2A — как агенты реально работают вместе

Если вы создаёте agentic-приложения, быстро понимаете: одного протокола мало. MCP и A2A решают разные задачи и отлично дополняют друг друга.

MCP можно представить как «руки» агента — доступ к инструментам и ресурсам. A2A же — это «общение», способ агентам договариваться и работать в команде. В стеке протоколов они находятся на разных уровнях, но работают вместе.

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1😢1

1.84K views18:17

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👌 Keras упростил квантование

Теперь Keras умеет квантовать модели буквально одной строкой кода — и это очень приятное обновление.

Можно взять свою модель или любую предобученную из KerasHub и просто вызвать model.quantize(...). Без отдельных тулов, без сложных пайплайнов, без шаманства с экспортами.

✅ Поддерживаются самые ходовые режимы: int4, int8, float8 и GPTQ. То есть и для инференса на проде, и для экспериментов с уменьшением модели — всё уже из коробки.

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7🔥3❤1

1.78K views10:51