Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение – Telegram

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

18.4K subscribers

2.49K photos

127 videos

68 files

4.96K links

Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9

Download Telegram

About

Blog

Apps

Platform

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

18.4K subscribers

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔍 Интерактивное исследование LLM изнутри

Инструмент позволяет буквально пошагово разобрать, как модель приходит к ответу:
✔️ выбираешь модель и промпт — запускаешь инференс
✔️ смотришь граф вкладов (contribution graph)
✔️ выбираешь токен, от которого строится граф
✔️ настраиваешь порог значимости вкладов
✔️ смотришь представление любого токена после любого блока

Для каждого представления можно:
➡️ увидеть проекцию в выходной словарь
➡️ понять, какие токены были усилены или подавлены предыдущим блоком

Всё интерактивно:
✔️ кликабельные рёбра → детали attention head
✔️ кликабельные головы → что именно они усиливают/подавляют
✔️ FFN-блоки → нейроны внутри них

📱

Github

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤2

1.68K views13:42

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎉 Вышел Apache Spark 4.1

Релиз получился внушительным — список изменений действительно большой:
👉 https://clc.to/50fxrg

Из основных обновлений и улучшений:
• улучшения в Spark SQL (скрипты, CTE, новые типы данных)
• прокачанный Structured Streaming для real-time сценариев
• Spark Connect стал стабильнее и быстрее
• ускорение Python-UDF через Arrow
• апдейты для Kubernetes и прод-деплоя
• поддержка новых версий Python

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤4

2K views18:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📕

Нейросети с нуля на С

Небольшой, но очень наглядный проект: автор шаг за шагом собирает минималистичную tensor-библиотеку на C, объясняя, как работают нейросети на базовом уровне.

Без PyTorch и NumPy — только математика, структуры данных и явные вычисления.

➕ Материал рассчитан на программистов: ML-бэкграунд не обязателен.

📖 Статья и проект: https://clc.to/MQ3OGQ

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤1

1.93K views12:16

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

WANTED: DATA SCIENCE EXPERT

Разыскивается специалист, который видит паттерны там, где остальные видят хаос. Хватит тренировать модели в одиночку — пора обучать людей.

Приметы:

— мастерски владеет Python и библиотеками анализа данных;
— умеет объяснять сложную математику буквально «на пальцах»;
— реализовал несколько успешных ML-проектов в проде;
— готов делиться знаниями с большой аудиторией.

Суть сделки:

— гонорар за разработку и проведение программ;
— прокачка личного бренда в среде Data Science;
— медийная поддержка от команды Proglib.

Сдаться по ссылке

P.S. Знаешь того, кто «слишком много знает» о нейронках? Сдай его нам.

😢2

1.86K views15:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9😁6😢1

1.73K views18:15

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

💹

Как устроен Segment Anything Model (SAM)

SAM — одна из самых впечатляющих моделей для сегментации изображений. Внутри она состоит из трёх ключевых частей: image encoder, prompt encoder и mask decoder.

1️⃣

Image Encoder

Изображение 1024×1024 разбивается на патчи 16×16 → всего 4096 патчей. Каждый патч кодируется в вектор размерности 1280 и проходит через ViT (self-attention).

На выходе получается общее визуальное представление изображения — тензор 256×64×64, своего рода «визуальная память», с которой дальше работает модель.

2️⃣

Prompt Encoder

Обрабатывает пользовательские подсказки:
— точки и bounding box’ы → превращаются в векторы размерности 256
— mask-подсказки → уменьшаются до 64×64 и кодируются свёртками

Важно: никаких трансформеров и self-attention здесь нет, всё максимально лёгкое. Все prompt-векторы объединяются и дополняются специальными токенами для масок и IoU.

3️⃣

Mask Decoder

Здесь начинается «магия»:
— self-attention между токенами
— cross-attention между токенами и изображением (в обе стороны)
— совместное рассуждение о том, что запросил пользователь и что есть на картинке

Каждый mask-токен в итоге порождает маску, а отдельный IoU-токен оценивает её качество.

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7👍2❤1🎉1

1.88K views13:08

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕 Свежие новости для дата‑сайентистов

Anthropic выпустили Bloom — open-source фреймворк для поведенческих eval’ов LLM
Идея простая и болезненно актуальная: не тестировать сценарии, которые устаревают быстрее модели, а фиксировать само поведение. Bloom генерирует сценарии автоматически и прогоняет eval за дни, а не недели. Если вы хоть раз переписывали prompt-eval перед релизом — вы целевая аудитория.

Andrej Karpathy — LLM Year in Review 2025
Карпати аккуратно подводит итог: быстрые inference-движки, дистилляция как стандарт, агенты в реальном времени и рост реально сильных open-моделей. Читается как карта местности: где мы есть и куда всё это едет.

Your Year with ChatGPT
OpenAI сделали Spotify Wrapped для ChatGPT. Забавно, но за этим хорошо видно, что ChatGPT всё больше позиционируется как персональный рабочий инструмент, а не просто чат.

NotebookLM научился превращать источники в Data Tables
NotebookLM теперь автоматически собирает структурированные таблицы из документов и сразу готовит их к экспорту в Google Sheets. Мелочь, но именно такие фичи съедают куски ручной аналитической работы.

Google: итоги 2025 — 8 направлений прорывов
Агенты, reasoning, научные открытия — Google подводит итоги года без лишнего маркетинга. Хороший обзор, чтобы понять реальные исследования.

Gemma Scope 2 — интерпретируемость Gemma 3 от DeepMind
Полноценный стек инструментов, который показывает, как модель думает на уровне слоёв и представлений.

Apache Spark 4.1
Улучшения под капотом, оптимизации и стабильность.

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍1🎉1

1.95K views12:07

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

От LLM к LMM: переходим к мультиагентным системам и продвинутому RAG 📊

Просто запустить модель — это 10% успеха. Остальные 90% — это логика рассуждений и доступ к актуальным данным. Мы подготовили глубокий курс по созданию автономных AI-агентов.

В фокусе курса:

— реализация паттерна ReAct (Reasoning + Acting) для автономного планирования;
— глубокий RAG: построение баз знаний, работающих на скоростях ИИ;
— использование CrewAI и AutoGen для координации групп агентов;
— освоение протокола MCP для интеграции с внешними источниками.

Ваш результат: готовый проект мультиагентной системы для анализа рынка или автоматизации поддержки.

Глубокое погружение в агентов 🧠

🥱2🥰1

2.25K views15:18

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 Запускаем LLM локально — без облаков и лишней боли

Хотите легко запускать большие языковые модели прямо на своём компьютере?

Обратите внимание на LM Studio.

LM Studio — open-source инструмент для локального и приватного запуска LLM:
➡️ загрузка и запуск моделей в пару кликов
➡️ десктоп-приложение
➡️ CLI для автоматизации
➡️ Python / JavaScript SDK
➡️ всё работает локально, без отправки данных в облако

Подходит для экспериментов, прототипов и приватных проектов.

🔗 Репозиторий и сайт: https://clc.to/E3LBMQ

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2🔥2😢1

2.11K views12:49

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

LLMOps_шпаргалка.pdf

🚀 Шпаргалка по LLMOps

Создавать приложения на базе LLM просто. Настоящий вызов — запускать их надёжно в продакшене.

После деплоя появляются реальные проблемы:
❗️ Латентность — задержки при ответах модели
❗️ Стоимость — расходы на вычисления и API
❗️ Галлюцинации — неверные или вымышленные ответы
❗️ Prompt Drift — отклонения поведения модели со временем
❗️ Evaluation Gaps — пробелы в оценке качества ответов

Эта шпаргалка помогает ориентироваться в LLMOps и управлять жизненным циклом приложений от разработки до продакшена.

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

🎉2❤1👍1🥱1

1.98K views05:57

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📊

Линейная регрессия — больше, чем прямая линия

Линейная регрессия часто представляется как «подгонка прямой к данным». Это удобно, но скрывает истинную математическую суть модели.

На самом деле, модель изучает вероятностное соответствие входов и выходов. Мы предполагаем, что каждое наблюдаемое значение целевой переменной генерируется линейной функцией от входа, искажённой случайным шумом с нормальным распределением.

Это не косметическая деталь — она задаёт всю задачу обучения.

Следствия этой модели:
➖ Максимизация правдоподобия данных при Gaussian шуме эквивалентна минимизации MSE (среднеквадратичной ошибки).
➖ Функция потерь не выбрана случайно, а следует из статистической модели.

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤2😢1🙏1

1.85K views16:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎇

Топ 10 постов 2025

Этот год подарил массу ценных материалов: от работы с большими данными и многопоточными системами до LLM и реальных кейсов ML в продакшене.

В подборке для вас:

✳️

Делаем конкурента DeepSeek R1-Zero на домашней пекарне: метод GRPO в Unsloth

✳️

Как стать ИИ-разработчиком в 2025 году: дорожная карта и ресурсы

✳️

Чек-лист: как структурировать Data Science проект

✳️

8 RAG-архитектур, которые должен знать каждый

✳️

TensorTonic — LeetCode, но для машинного обучения

✳️

Как создавать ИИ-агентов, которые реально работают: опыт Anthropic

✳️

Google Colab теперь в VS Code: лучшее из двух миров

✳️

Все говорят про LLM и diffusion, а вот про OCR как будто забыли…

✳️

Полный гайд по машинному обучению — учебник на 649 страниц

✳️

Фишка инструмента: топ-5 библиотек Python для EDA (разведочного анализа данных)

🎆 Поздравляем с окончанием года! Пусть 2026 принесёт ещё больше продуктивности и крутых данных!

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

🎉5❤2

2.12K views06:31

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📂 ML System Design: 300+ кейсов от ведущих компаний

Ищете реальные примеры построения ML-систем?

Этот репозиторий собрал 300+ кейсов от 80+ ведущих компаний — Netflix, Airbnb, Doordash и других.

➖ Практический опыт, решения и подходы к ML-системам для улучшения продуктов и процессов.

📱

Репозиторий

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9❤3👍1🙏1

2.29K views14:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔔

Production ML: Все необходимые инструменты в одном месте

Если вы работаете с ML в продакшне, этот репозиторий — настоящая находка. Он содержит отборные open-source библиотеки, которые помогут:
✔️ развёртывать модели
✔️ мониторить их работу
✔️ управлять версиями
✔️ масштабировать системы
✔️ обеспечивать безопасность

📱

Репозиторий

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6❤3👍1

2.04K views07:56

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Data Science 2026: переход от моделей к автономным агентам

Обучить модель — это полдела. Настоящий вызов сейчас — заставить их работать в команде. Мультиагентность, паттерн ReAct и RAG — вот что превращает обычную LLM в боевой бизнес-инструмент.

На курсе Proglib Academy мы фокусируемся на практике создания таких систем.

Основные темы:

— сборка ReAct-агентов: как научить модель рассуждать (Reasoning) и использовать инструменты (Acting);
— работа с CrewAI и AutoGen для оркестрации ролей;
— протокол MCP (Model Context Protocol) от Anthropic;
— создание продвинутых RAG-архитектур для работы с Big Data.

Инвестируй в стек, который будет кормить тебя весь 2026 год.

🎁 Акция «3 в 1» до 12 января: курс по ИИ-агентам + 2 курса в подарок.

Изучить программу

🥰1🤔1🥱1

2.09K views14:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Media is too big

VIEW IN TELEGRAM

➡️

ML без магии: 100+ алгоритмов, реализованных с нуля

Этот проект предлагает другой подход — реализовать более 100 алгоритмов с нуля:
✔️ пошаговая реализация алгоритмов
✔️ понимание математики за каждым решением
✔️ интерактивные визуализации
✔️ практические задания для закрепления

Идеально для тех, кто хочет разобраться как и почему работают модели, а не только как их использовать.

🔗

Платформа

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤2

2.14K views11:39

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👨‍🎓

Как реально изучают LLM в Stanford

Если ты хочешь действительно понимать LLM, а не просто вызывать API, пройди этот roadmap по порядку 👇

1️⃣

Transformers
Как на самом деле работают attention, токены и self-attention

2️⃣

Transformer-модели и практические приёмы
Что делает трансформеры обучаемыми и эффективными в масштабе

3️⃣

От Transformers к LLM
Как архитектура + данные + масштаб превращаются в LLM

4️⃣

Обучение LLM
Pretraining-объективы и откуда берётся «интеллект» модели

5️⃣

Тюнинг LLM
Instruction tuning, alignment и почему fine-tuning критичен

6️⃣

Рассуждение LLM
Почему модели ошибаются в логике и что реально это улучшает

7️⃣

Агентные LLM
Как превратить языковую модель в систему, которая планирует и действует

8️⃣

Оценка LLM
Как измерять качество моделей, а не «ощущения от демо»

9️⃣

Итоги и тренды
Что меняется прямо сейчас и что будет важно дальше

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10❤2🤩2🥰1

2.36K views15:35

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

SVM_шпаргалка.pdf

🎯

Support Vector Machines (SVM): шпаргалка от идеи до кода

SVM часто объясняют как «алгоритм, который рисует линию между классами».
На деле это гораздо более строгая и мощная модель — с чёткой геометрией и оптимизацией.

📍 Навигация: Вакансии • Задачи • Собесы

🐸 Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤1🔥1

2.12K views09:42

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐸

Библиотека дата-сайентиста

#развлекалово

Please open Telegram to view this post

VIEW IN TELEGRAM

😁15👏1

1.92K views17:20

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚮 Barlow Twins учит эмбеддинги, убирая избыточность

Большинство self-supervised методов (SimCLR, BYOL) делают одно и то же:
— сближают представления разных аугментаций
— избегают коллапса через контрастивные лоссы или предикторы

Но почти не задумываются о том, что происходит внутри самого эмбеддинга.

👉

Barlow Twins — другой.

Он напрямую минимизирует избыточность между измерениями эмбеддинга, заставляя кросс-корреляционную матрицу двух аугментаций стать единичной:
✅ диагональ = 1 → инвариантность к аугментациям
✅ вне диагонали = 0 → никакого дублирования информации между фичами

Каждое измерение обязано нести новую, а не повторяющуюся информацию.

В итоге representation learning превращается в аккуратную компрессию информации:
✅ сохранить всё про объект
✅ забыть искажения
✅ вычистить внутренний шум и повторения

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍4🔥2

1.92K views12:40

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📊 Graph Laplacian — зачем он нужен и почему везде

Graph Laplacian — это матрица, которая формально описывает, как связаны узлы в графе и насколько каждый узел отличается от среднего по своим соседям.

Где и зачем он используется:

🎲 Теория вероятностей

— Описывает случайные блуждания по графам
— Моделирует диффузию и цепи Маркова
— Показывает, как вероятность «растекается» по сети

🤖 Машинное обучение

— Spectral Clustering — поиск сообществ и кластеров
— Semi-supervised learning — обучение с малым числом меток
— Graph Neural Networks — обучение на графах
— Manifold learning — работа с данными на многообразиях

📐 Анализ структуры

Собственные значения выявляют:
— кластеры и сообщества
— узкие места и bottleneck’и
— самые «гладкие» способы менять функции на данных
Используется для снижения размерности и шумоподавления

🌍 Реальные системы

— Транспортные сети и потоки трафика
— Социальные графы и распространение влияния
— Энергосети и отказоустойчивость
— Рекомендательные системы и распространение информации

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤2🙏1

1.98K views10:42