Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.4K subscribers
2.49K photos
127 videos
68 files
4.96K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
Media is too big
VIEW IN TELEGRAM
💻 OpenTinker — RL-as-a-Service для foundation models

OpenTinker предлагает удобную инфраструктуру для обучения с подкреплением, где код и выполнение жёстко разделены.

Ты пишешь RL-логику на Python, а всё тяжёлое — распределённое обучение, GPU и масштабирование — происходит на стороне сервера.

Фишки:
✔️ не нужны локальные GPU
✔️ обучение и инференс используют один и тот же пайплайн
✔️ окружение и код обучения изолированы друг от друга
✔️ высокоуровневый Python API без боли с distributed-системами

Хороший вариант, если хочется работать с RL поверх foundation models, не превращаясь в DevOps.

📱 Github

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5😁41😢1🙏1🥱1
⌨️ Топ-вакансий для дата-сайентистов за неделю

Data Аналитик — 300 000 - 350 000₽, удалёнка

Anti-Fraud Analyst, удалёнка

Data Engineer (Financial Markets) — от 6 600 до 8 300 $, офис (Дубай)

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
2
🎅 Секретный Санта для айтишников от Proglib.academy

Весь этот год команда Академии запускала курсы для айтишников. А под Новый год мы запускаем новый курс по ИИ-агентам и ставим под ёлку самый свежий стек 2025 года и обучение проектированию автономных нейросетевых экосистем — от LLM и ReAct-циклов до мультиагентных систем, LangGraph, AutoGen и продакшн-практик.

🎁 Хотим дарить подарки и приглашаем вас поучаствовать в конкурсе:

1️⃣ Упомяните курс Академии у себя в блоге.
2️⃣ Пришлите скрин сюда.
3️⃣ Получите секретный промокод на 10 000 ₽ при оплате любого курса.

Подходит всё — соцсети, блоги, Telegram-каналы от 300 подписчиков и более.

🎄 Акция действует до Нового года.

Win-win, всё как мы любим!
👍1
🔍 Интерактивное исследование LLM изнутри

Инструмент позволяет буквально пошагово разобрать, как модель приходит к ответу:
✔️ выбираешь модель и промпт — запускаешь инференс
✔️ смотришь граф вкладов (contribution graph)
✔️ выбираешь токен, от которого строится граф
✔️ настраиваешь порог значимости вкладов
✔️ смотришь представление любого токена после любого блока

Для каждого представления можно:
➡️ увидеть проекцию в выходной словарь
➡️ понять, какие токены были усилены или подавлены предыдущим блоком

Всё интерактивно:
✔️ кликабельные рёбра → детали attention head
✔️ кликабельные головы → что именно они усиливают/подавляют
✔️ FFN-блоки → нейроны внутри них

📱 Github

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42
🎉 Вышел Apache Spark 4.1

Релиз получился внушительным — список изменений действительно большой:
👉 https://clc.to/50fxrg

Из основных обновлений и улучшений:
• улучшения в Spark SQL (скрипты, CTE, новые типы данных)
• прокачанный Structured Streaming для real-time сценариев
• Spark Connect стал стабильнее и быстрее
• ускорение Python-UDF через Arrow
• апдейты для Kubernetes и прод-деплоя
• поддержка новых версий Python

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍94
📕 Нейросети с нуля на С

Небольшой, но очень наглядный проект: автор шаг за шагом собирает минималистичную tensor-библиотеку на C, объясняя, как работают нейросети на базовом уровне.

Без PyTorch и NumPy — только математика, структуры данных и явные вычисления.

Материал рассчитан на программистов: ML-бэкграунд не обязателен.

📖 Статья и проект: https://clc.to/MQ3OGQ

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍91
WANTED: DATA SCIENCE EXPERT

Разыскивается специалист, который видит паттерны там, где остальные видят хаос. Хватит тренировать модели в одиночку — пора обучать людей.

Приметы:

— мастерски владеет Python и библиотеками анализа данных;
— умеет объяснять сложную математику буквально «на пальцах»;
— реализовал несколько успешных ML-проектов в проде;
— готов делиться знаниями с большой аудиторией.

Суть сделки:

— гонорар за разработку и проведение программ;
— прокачка личного бренда в среде Data Science;
— медийная поддержка от команды Proglib.

Сдаться по ссылке

P.S. Знаешь того, кто «слишком много знает» о нейронках? Сдай его нам.
😢2
This media is not supported in your browser
VIEW IN TELEGRAM
💹 Как устроен Segment Anything Model (SAM)

SAM — одна из самых впечатляющих моделей для сегментации изображений. Внутри она состоит из трёх ключевых частей: image encoder, prompt encoder и mask decoder.

1️⃣ Image Encoder

Изображение 1024×1024 разбивается на патчи 16×16 → всего 4096 патчей. Каждый патч кодируется в вектор размерности 1280 и проходит через ViT (self-attention).

На выходе получается общее визуальное представление изображения — тензор 256×64×64, своего рода «визуальная память», с которой дальше работает модель.

2️⃣ Prompt Encoder

Обрабатывает пользовательские подсказки:
— точки и bounding box’ы → превращаются в векторы размерности 256
— mask-подсказки → уменьшаются до 64×64 и кодируются свёртками

Важно: никаких трансформеров и self-attention здесь нет, всё максимально лёгкое. Все prompt-векторы объединяются и дополняются специальными токенами для масок и IoU.

3️⃣ Mask Decoder

Здесь начинается «магия»:
— self-attention между токенами
— cross-attention между токенами и изображением (в обе стороны)
— совместное рассуждение о том, что запросил пользователь и что есть на картинке

Каждый mask-токен в итоге порождает маску, а отдельный IoU-токен оценивает её качество.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍21🎉1
🆕 Свежие новости для дата‑сайентистов

Anthropic выпустили Bloom — open-source фреймворк для поведенческих eval’ов LLM
Идея простая и болезненно актуальная: не тестировать сценарии, которые устаревают быстрее модели, а фиксировать само поведение. Bloom генерирует сценарии автоматически и прогоняет eval за дни, а не недели. Если вы хоть раз переписывали prompt-eval перед релизом — вы целевая аудитория.

Andrej Karpathy — LLM Year in Review 2025
Карпати аккуратно подводит итог: быстрые inference-движки, дистилляция как стандарт, агенты в реальном времени и рост реально сильных open-моделей. Читается как карта местности: где мы есть и куда всё это едет.

Your Year with ChatGPT
OpenAI сделали Spotify Wrapped для ChatGPT. Забавно, но за этим хорошо видно, что ChatGPT всё больше позиционируется как персональный рабочий инструмент, а не просто чат.

NotebookLM научился превращать источники в Data Tables
NotebookLM теперь автоматически собирает структурированные таблицы из документов и сразу готовит их к экспорту в Google Sheets. Мелочь, но именно такие фичи съедают куски ручной аналитической работы.

Google: итоги 2025 — 8 направлений прорывов
Агенты, reasoning, научные открытия — Google подводит итоги года без лишнего маркетинга. Хороший обзор, чтобы понять реальные исследования.

Gemma Scope 2 — интерпретируемость Gemma 3 от DeepMind
Полноценный стек инструментов, который показывает, как модель думает на уровне слоёв и представлений.

Apache Spark 4.1
Улучшения под капотом, оптимизации и стабильность.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1🎉1
От LLM к LMM: переходим к мультиагентным системам и продвинутому RAG 📊

Просто запустить модель — это 10% успеха. Остальные 90% — это логика рассуждений и доступ к актуальным данным. Мы подготовили глубокий курс по созданию автономных AI-агентов.

В фокусе курса:

— реализация паттерна ReAct (Reasoning + Acting) для автономного планирования;
— глубокий RAG: построение баз знаний, работающих на скоростях ИИ;
— использование CrewAI и AutoGen для координации групп агентов;
— освоение протокола MCP для интеграции с внешними источниками.

Ваш результат: готовый проект мультиагентной системы для анализа рынка или автоматизации поддержки.

Глубокое погружение в агентов 🧠
🥱2🥰1
🚀 Запускаем LLM локально — без облаков и лишней боли

Хотите легко запускать большие языковые модели прямо на своём компьютере?

Обратите внимание на LM Studio.

LM Studio — open-source инструмент для локального и приватного запуска LLM:
➡️ загрузка и запуск моделей в пару кликов
➡️ десктоп-приложение
➡️ CLI для автоматизации
➡️ Python / JavaScript SDK
➡️ всё работает локально, без отправки данных в облако

Подходит для экспериментов, прототипов и приватных проектов.

🔗 Репозиторий и сайт: https://clc.to/E3LBMQ

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🔥2😢1
LLMOps_шпаргалка.pdf
84.8 KB
🚀 Шпаргалка по LLMOps

Создавать приложения на базе LLM просто. Настоящий вызов — запускать их надёжно в продакшене.

После деплоя появляются реальные проблемы:
❗️ Латентность — задержки при ответах модели
❗️ Стоимость — расходы на вычисления и API
❗️ Галлюцинации — неверные или вымышленные ответы
❗️ Prompt Drift — отклонения поведения модели со временем
❗️ Evaluation Gaps — пробелы в оценке качества ответов

Эта шпаргалка помогает ориентироваться в LLMOps и управлять жизненным циклом приложений от разработки до продакшена.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉21👍1🥱1
📊 Линейная регрессия — больше, чем прямая линия

Линейная регрессия часто представляется как «подгонка прямой к данным». Это удобно, но скрывает истинную математическую суть модели.

На самом деле, модель изучает вероятностное соответствие входов и выходов. Мы предполагаем, что каждое наблюдаемое значение целевой переменной генерируется линейной функцией от входа, искажённой случайным шумом с нормальным распределением.

Это не косметическая деталь — она задаёт всю задачу обучения.

Следствия этой модели:
Максимизация правдоподобия данных при Gaussian шуме эквивалентна минимизации MSE (среднеквадратичной ошибки).
Функция потерь не выбрана случайно, а следует из статистической модели.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72😢1🙏1
🎇 Топ 10 постов 2025

Этот год подарил массу ценных материалов: от работы с большими данными и многопоточными системами до LLM и реальных кейсов ML в продакшене.

В подборке для вас:

✳️ Делаем конкурента DeepSeek R1-Zero на домашней пекарне: метод GRPO в Unsloth

✳️ Как стать ИИ-разработчиком в 2025 году: дорожная карта и ресурсы

✳️ Чек-лист: как структурировать Data Science проект

✳️ 8 RAG-архитектур, которые должен знать каждый

✳️ TensorTonic — LeetCode, но для машинного обучения

✳️ Как создавать ИИ-агентов, которые реально работают: опыт Anthropic

✳️ Google Colab теперь в VS Code: лучшее из двух миров

✳️ Все говорят про LLM и diffusion, а вот про OCR как будто забыли…

✳️ Полный гайд по машинному обучению — учебник на 649 страниц

✳️ Фишка инструмента: топ-5 библиотек Python для EDA (разведочного анализа данных)

🎆 Поздравляем с окончанием года! Пусть 2026 принесёт ещё больше продуктивности и крутых данных!

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉52
📂 ML System Design: 300+ кейсов от ведущих компаний

Ищете реальные примеры построения ML-систем?

Этот репозиторий собрал 300+ кейсов от 80+ ведущих компаний — Netflix, Airbnb, Doordash и других.

Практический опыт, решения и подходы к ML-системам для улучшения продуктов и процессов.

📱 Репозиторий

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥93👍1🙏1
🔔 Production ML: Все необходимые инструменты в одном месте

Если вы работаете с ML в продакшне, этот репозиторий — настоящая находка. Он содержит отборные open-source библиотеки, которые помогут:
✔️ развёртывать модели
✔️ мониторить их работу
✔️ управлять версиями
✔️ масштабировать системы
✔️ обеспечивать безопасность

📱 Репозиторий

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥63👍1
Data Science 2026: переход от моделей к автономным агентам

Обучить модель — это полдела. Настоящий вызов сейчас — заставить их работать в команде. Мультиагентность, паттерн ReAct и RAG — вот что превращает обычную LLM в боевой бизнес-инструмент.

На курсе Proglib Academy мы фокусируемся на практике создания таких систем.

Основные темы:

— сборка ReAct-агентов: как научить модель рассуждать (Reasoning) и использовать инструменты (Acting);
— работа с CrewAI и AutoGen для оркестрации ролей;
— протокол MCP (Model Context Protocol) от Anthropic;
— создание продвинутых RAG-архитектур для работы с Big Data.

Инвестируй в стек, который будет кормить тебя весь 2026 год.

🎁 Акция «3 в 1» до 12 января: курс по ИИ-агентам + 2 курса в подарок.

Изучить программу
🥰1🤔1🥱1
Media is too big
VIEW IN TELEGRAM
➡️ ML без магии: 100+ алгоритмов, реализованных с нуля

Этот проект предлагает другой подход — реализовать более 100 алгоритмов с нуля:
✔️ пошаговая реализация алгоритмов
✔️ понимание математики за каждым решением
✔️ интерактивные визуализации
✔️ практические задания для закрепления

Идеально для тех, кто хочет разобраться как и почему работают модели, а не только как их использовать.

🔗 Платформа

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72
👨‍🎓 Как реально изучают LLM в Stanford

Если ты хочешь действительно понимать LLM, а не просто вызывать API, пройди этот roadmap по порядку 👇

1️⃣ Transformers
Как на самом деле работают attention, токены и self-attention

2️⃣ Transformer-модели и практические приёмы
Что делает трансформеры обучаемыми и эффективными в масштабе

3️⃣ От Transformers к LLM
Как архитектура + данные + масштаб превращаются в LLM

4️⃣ Обучение LLM
Pretraining-объективы и откуда берётся «интеллект» модели

5️⃣ Тюнинг LLM
Instruction tuning, alignment и почему fine-tuning критичен

6️⃣ Рассуждение LLM
Почему модели ошибаются в логике и что реально это улучшает

7️⃣ Агентные LLM
Как превратить языковую модель в систему, которая планирует и действует

8️⃣ Оценка LLM
Как измерять качество моделей, а не «ощущения от демо»

9️⃣ Итоги и тренды
Что меняется прямо сейчас и что будет важно дальше

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍102🤩2🥰1