Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.4K subscribers
2.46K photos
125 videos
66 files
4.92K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🆕 Свежие новости для дата‑сайентистов

✔️ Google добавил поддержку Model Context Protocol
Google теперь официально поддерживает MCP для своих сервисов и Google Cloud — единая точка входа для агентов, Gemini CLI и AI Studio. Если коротко: еще один шаг к миру, где агентам не нужно знать, куда именно они ходят — лишь бы работало.

✔️ Mistral выпускает Devstral 2 и Vibe CLI
Открытые модели для реальной работы с кодом: большие репозитории, баги и зависимости, а не «Hello World». Devstral 2 берет 72.2% на SWE-bench, а Small-версия запускается локально. Приятно видеть, что «меньше параметров» перестает звучать как оправдание.

✔️ Первую LLM обучили прямо в космосе
Стартап Starcloud обучил модель на спутнике с NVIDIA H100, запустив Gemma прямо на орбите. Когда говорят «облако», теперь стоит уточнять — земное или орбитальное.

✔️ Google запускает Deep Research агент в Gemini API
Теперь автономные ресерч-агенты Google можно встраивать в свои приложения. Плюс — открытый бенчмарк DeepSearchQA. Исследователи счастливы, студенты — немного напуганы.

✔️ OpenAI представила GPT-5.2
Модель позиционируют как «лучшую для повседневной профессиональной работы». Звучит так, будто GPT теперь тоже ходит на созвоны и пишет отчеты.

✔️ Арифметика сверточных слоев
Как считать размерность изображений с учетом stride, padding и dilation. Та самая статья, к которой возвращаешься каждый раз с мыслью «ну сейчас-то точно запомню».

✔️ Обзор GPT-5.2: пора ли теснить Google и Anthropic
Разбор возможностей новой модели и расстановки сил на рынке.

✔️ ML-проект моей мечты
Честный рассказ о том, как должен выглядеть ML-проект без боли и хаоса. Редкий жанр — статья, где хочется кивнуть, а не спорить.

✔️ PyTorch для новичков: множественная регрессия с нуля
Пошаговый гайд без магии. Хорошо подходит, чтобы наконец объяснить себе, что же ты делаешь на работе.

✔️ Мониторинг ML-моделей: что и зачем контролировать
Про метрики, деградацию и реальную эксплуатацию. Напоминание, что модель не заканчивается на model.fit().

✔️ Прогнозы по ИИ на 2026: меньше хайпа, больше эффективности
Ожидания рынка и технологий на ближайшие годы.

✔️ Компьютерное зрение на практике
Разбор CV-подходов с примерами.

🔸 Курс «Специалист по ИИ»
🔸 Получить консультацию менеджера
🔸 Сайт Академии 🔸 Сайт Proglib

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥32😢1🙏1
🤖 Reinforcement Learning в 2025: мощно, модно… и всё ещё больно

После релиза reasoning-моделей вроде DeepSeek-R1 стало ясно: без RL современный AI дальше не едет. Но при этом всё не так радужно, как может показаться из твиттер-тредов.

👇 Разбираемся, что RL реально дал в 2025 — и что он утащит с собой в 2026.

В отличие от supervised learning («вот правильный ответ, учись») и unsupervised learning («сам разберись, что тут происходит»), reinforcement learning учится через взаимодействие:
➡️ модель что-то делает
➡️ мир (или проверяющий) отвечает
➡️ модель получает награду или штраф
➡️ и пытается в следующий раз облажаться чуть меньше

В случае LLM:
➡️ состояние — это весь диалог или промпт
➡️ действие — выбор следующего токена
➡️ награда — оценка качества ответа

Reinforcement Learning from Human Feedback окончательно стал стандартом выравнивания моделей.

Классическая схема:
1. SFT — обучаем модель на хороших человеческих ответах
2. Reward model — люди выбирают, какой ответ лучше
3. RL (обычно PPO) — модель учится радовать reward-модель, а не людей напрямую

Проблема очевидна:
люди — медленные
люди — дорогие
люди — устают и противоречат друг другу

Поэтому индустрия закономерно пошла дальше. Так, в 2025 активно взлетел Reinforcement Learning from AI Feedback.

Теперь вместо человека:
✔️ модель оценивает модель
✔️ классификатор проверяет токсичность
✔️ ансамбль моделей выносит «вердикт»

Плюсы:
➡️ масштабируется
➡️ дешевле
➡️ стабильнее, чем люди после дедлайна

Минусы:
➡️ AI начинает учиться у самого себя
➡️ ошибки и перекосы могут усиливаться
➡️ ценности ≠ человеческие (иногда очень ≠)

Настоящий поворотный момент — Reinforcement Learning with Verifiable Rewards (RLVR).

Идея простая и красивая: если ответ можно проверить автоматически — не нужен человек

Как это работает:
➡️ модель генерирует решение (код, математику, план)
➡️ верификатор запускает тесты / решает задачу / проверяет логику
➡️ выдаёт reward
➡️ модель оптимизируется

Именно так появились reasoning-модели с длинными цепочками рассуждений. Да, те самые, которые думают вслух и пугают своей логикой.

Но почему Карпати говорит, что RL — «ужасен»?

Потому что:
➡️ он нестабилен
➡️ чувствителен к наградам
➡️ легко «читерится»
➡️ требует тонкой настройки
➡️ и часто ломает то, что уже работало

Просто альтернативы ещё хуже. RL — это не магия. Это рабочий костыль, который пока лучше всего справляется с реальностью.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍54😁2
Оптимизируй функцию потерь своего кошелька

Data Science требует постоянного дообучения. Чтобы модель твоей карьеры не оверфитнулась на старых задачах, нужно добавлять новые веса.

Масштабируем знания: 3 курса по цене 1.

Оплачиваешь только трек с максимальной стоимостью, остальные два получаешь в подарок.

Твой стек на 2026:

— математика для Data Science (база);
— ML для старта в Data Science;
— AI-агенты для DS-специалистов (тренд года).

Сделать fit

Эпоха заканчивается 31 декабря.

Нужен тюнинг параметров выбора? Пиши: @manager_proglib
👍2🙏1
matplotlib-cheat-sheet.pdf
2.4 MB
📊 Matplotlib под рукой: всё главное для графиков и анализа

Сохраняйте, пригодится не раз.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍85🎉2🔥1
🧩 Matrix World: карта мира линейной алгебры

Это не просто схема, а иерархия всех ключевых типов матриц и разложений — от самых общих до «чистого ядра».

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63🔥2
🔥 От нуля до инференса за 5 минут

Выберите сценарий использования и платформу — и получите готовые к запуску инструкции для нужной LFM-модели.

LFM (Large Foundation Model) — это универсальная базовая модель, обученная на больших объёмах данных и пригодная для разных задач: от чатов и кода до изображений и аудио.

Поддерживаемые кейсы:
🔤 чат-боты и генерация текста
🔤 понимание и анализ изображений
🔤 аудио и транскрибация
🔤 генерация и объяснение кода
🔤 эмбеддинги для поиска и рекомендаций
🔤 агентные workflow с вызовом функций

Быстрый старт, понятные примеры и минимум лишней настройки — можно сразу переходить к результату.

🔗 Ссылка на ресурс

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍72🤩1
🔈 Локальная расшифровка аудио в реальном времени с LFM2-Audio-1.5B

Появился наглядный пример того, как можно делать real-time audio-to-text полностью локально — без облаков и интернета. В основе связка llama.cpp и компактной модели LFM2-Audio-1.5B.

Идея простая: небольшая, но достаточно мощная аудиомодель + эффективный рантайм = транскрипция прямо на устройстве.

Фактически, это ещё один шаг к edge-ассистентам, которые умеют слушать и понимать речь без отправки данных в облако.

Репозиторий — хороший ориентир для тех, кто хочет собрать подобное решение у себя.

📱 Github

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍3😁2🎉1
⌨️ Топ-вакансий для дата-сайентистов за неделю

Senior Data Engineer — 4 000-5 000 $, удалёнка

Data Analyst — от 1 500 до 3 000 $, удалёнка

Data Analyst (Product, Marketing) — от 200 000 ₽, офис (Санкт-Петербург)

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21
📊 datasetiq: Python-клиент для миллионов экономических датасетов

Вышла datasetiq v0.1.2 — лёгкая Python-библиотека для работы с глобальными макроэкономическими данными.

Она объединяет данные из FRED, IMF, World Bank, OECD, BLS, US Census и других источников и возвращает их сразу в виде чистых pandas DataFrame. Под капотом — кэширование, async-запросы и простая настройка, поэтому библиотека хорошо подходит и для ноутбуков, и для продакшена.

Пример использования:
import datasetiq as iq

iq.set_api_key("your_api_key_here")
df = iq.get("FRED/CPIAUCSL")

print(df.head())

df["yoy_inflation"] = df["value"].pct_change(12) * 100
print(df.tail())


В отличие от fredapi, pandas-datareader и похожих библиотек, datasetiq:
✔️ работает сразу с множеством источников;
✔️ имеет встроенное кэширование и защиту от rate limits;
✔️ сфокусирован именно на глобальных макро-данных и тайм-сериях.

Подойдёт аналитикам, исследователям, студентам и всем, кто работает с экономическими данными.

📱 GitHub: https://clc.to/O42hIA
🔗 Документация: https://clc.to/lO7Sng

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩53👍2🙏1
Что послушать: почему без математики и алгоритмов невозможно полноценно развиваться в ИИ. В новом эпизоде Machine Learning Podcast Алексей Толстиков, руководитель Школы анализа данных Яндекса, рассказывает, как фундаментальная математика помогает не просто запускать нейросети, а глубоко понимать, почему и как они работают.

В подкасте обсуждали полезные подходы и идеи:

Почему даже опытным ИИ, ML-спецам и датасаентистам полезно возвращаться к фундаментальным дисциплинам
Как математика реально прокачивает карьеру и приближает специалиста к заветному офферу
Почему теория — выжимка из тысяч успешных и неудачных практик, а не скучная формальность

Если вы хотите прокачать мышление в ИИ и Data и не теряться на рынке труда — этот выпуск для вас

👉Ссылка: https://mlpodcast.mave.digital/ep-76

#буст
🎉21
☎️ PyTorch + Unsloth: LLM теперь реально запускаются на смартфонах

Unsloth вместе с PyTorch показали, что деплой LLM на смартфон — это уже не демо из будущего, а рабочая практика. Модель можно дообучить и запустить локально прямо на Android или iPhone — без облаков и интернета.

Есть и практическая часть: выложен бесплатный Colab-ноутбук, где показан полный путь — от fine-tuning до экспорта модели для запуска на телефоне.

Кажется, «edge-LLM» окончательно перестали быть экспериментом и начали превращаться в нормальный инженерный сценарий.

🔗 Туториал

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍54
RAG, Vector DBs и мультиагентность: апгрейд курса по AI-агентам

Коллеги, мы знаем, что базовый DS-курс вам уже не интересен. Рынок требует инженерии: как заставить LLM работать с вашими данными и не галлюцинировать.

Мы перезапустили курс «Разработка AI-агентов», превратив его в мощный инструмент для ML-инженеров.

Что под капотом новой программы:

Hardcore Tech: LangGraph (state-машины), протоколы MCP и A2A .
Infrastructure: Работа с векторными БД (Pinecone, Weaviate) и семантическим поиском.
Science: Факультатив по RL и эмерджентному поведению.
Production: AgentOps, мониторинг через LangSmith, деплой.

⚡️ Киллер-фича: Студентам продвинутого трека даем доступ к GPU-кластеру для обучения моделей.

Строим production-ready решения, а не игрушки.

Программа и силлабус
🔥1🎉1
🧩 Угадай результат

Этот код выглядит безобидно.
Именно поэтому он опасен.

👉 Проверить себя

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🥰1
🎓 Твой опыт стоит дорого — стань экспертом Proglib Academy

Чувствуешь, что накопил достаточно знаний, чтобы делиться ими с другими?

Мы ищем сильных практиков, которые хотят попробовать себя в роли:

— преподавателей;
— авторов курсов;
— наставников.

Это возможность не только монетизировать экспертизу, но и прокачать личный бренд, структурировать собственные знания и вырастить новое поколение специалистов.

👉 Заполни короткую анкету
4🔥1
DS умер? Нет, он эволюционировал в Agent Engineering

Модели стали commodity. Теперь ценность не в model.fit(), а в том, как заставить LLM надежно выполнять сложные цепочки действий.

Мы представляем радикально обновленный курс «Разработка AI-агентов».

Старая версия (5 недель) была лишь введением. Новая — это 13 модулей хардкора.

Advanced Track для ML-инженеров:

RAG 2.0: Векторные БД (Pinecone, Chroma), семантический поиск, гибридные методы.
Fine-tuning & RL: Обучение агентов, RLHF, MARL (Multi-Agent Reinforcement Learning).
Frameworks: Глубокий дайв в CrewAI, AutoGen и LangGraph.
Infra: Доступ к GPU-кластеру для ваших экспериментов.

Мы учим не просто «промтить», а строить сложные системы с памятью и инструментами.

🧪 Акция 3 в 1:

Покупаешь этот курс — выбираешь два любых других в подарок.

Data Science 2026
2👍1😢1
🆕 Свежие новости для дата‑сайентистов

OpenAI выложила код и веса по sparsity-подходу
OpenAI продолжает ломать привычный пайплайн «сначала жирно, потом обрезаем» — теперь разреженность закладывается прямо в обучение. Самое любопытное: после жёсткого прунинга остаются маленькие, почти читаемые схемы, которые всё ещё работают. Похоже, мы всё ближе к моменту, когда «понять модель» станет не просто красивой метафорой.

NVIDIA выпускает Nemotron 3 — модели для многоагентных систем
Это не очередной чат-бот, а инфраструктура под агентные системы на масштабе. NVIDIA явно делает ставку на будущее, где один LLM — это мало, а вот десяток координирующихся агентов — норма.

Google анонсировала Gemini 3 Flash
Быстро, дёшево и почти как большой — классическая формула Flash. Google явно показывает, что «быстрее и дешевле» теперь важнее, чем «на 2% лучше в бенчмарке». Отличный кандидат для продакшена, где latency важнее эго.

OpenAI представила GPT-Image-1.5
Генерация картинок стала в 4 раза быстрее и заметно лучше управляется при редактировании. Модель тихо заменяет предыдущую версию — без революций, но с ощущением, что image-stack наконец-то взрослеет и перестаёт быть игрушкой.

В ChatGPT появился App Store
Теперь прямо из чата можно заказывать еду, собирать презентации и дергать сторонние сервисы через @. ChatGPT всё меньше «модель» и всё больше «операционная система».

OpenAI выпускает GPT-5.2-Codex
Специализированная версия GPT-5.2 под длинные инженерные задачи: рефакторинги, миграции, сложные пайплайны.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍4
📦 Docker & Kubernetes: визуальная шпаргалка

Современные приложения почти всегда живут в контейнерах и работают на кластерах.

Docker решает первую проблему — упаковать приложение со всеми зависимостями и запустить его где угодно: локально, на сервере, в облаке.

Kubernetes решает следующую — как запустить много таких контейнеров, следить, чтобы они не падали, масштабировать их под нагрузкой и обновлять без простоя.

💡 Проще говоря:
Docker — это «собрать и запустить одно приложение в коробке».
Kubernetes — это «надёжно управлять тысячами таких коробок на куче машин».

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
10🔥1
Российские генеративные модели Kandinsky 5.0 Video Lite и Pro в международной text-to-video арене

🔘Pro версия является ТОП-1 опенсорсом в мире

🔘Lite версия (2B параметров) лучше первой версии Sora

🔘На данный момент Сбер уступает только топовым мировым бигтех компаниям: Google (Veo 3.1, Veo 3), OpenAI (Sora 2), Alibaba (Wan 2.5), KlingAI (Kling 2.5, 2.6); в паритете с Luma AI (Ray 3), MiniMax (Hailuo 2.3) — отрыв по ELO максимум 3 балла, при 95% доверительном интервале оценивания +-21 балла

🔘Для российских генеративных моделей выход на международную арену — уникальное событие

🚀 Полезные ссылки:
🔘Посмотреть весь лидерборд: lmarena
🔘Почитать подробнее про Kandinsky 5.0: пост, техрепорт
🔘Open Source Kandinsky 5.0: github и hf
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63🌚1
📁 Как LLM выбирают следующее слово: 4 стратегии генерации текста

Когда большая языковая модель генерирует текст, она каждый раз решает одну простую задачу:
какой токен выбрать следующим?


Но способов принять это решение — несколько. На инфографике показаны 4 основные стратегии, вот кратко и по делу:

1️⃣ Жадная стратегия (Greedy)

Самый простой и быстрый вариант. Модель всегда выбирает токен с максимальной вероятностью на текущем шаге (argmax).

Плюсы: быстро, детерминированно
Минусы: часто получается сухо, шаблонно и модель может застревать

2️⃣ Multinomial Sampling (сэмплирование)

Здесь модель не обязана выбирать самый вероятный токен. Она случайно сэмплирует слово из распределения вероятностей (softmax + temperature).

Плюсы: больше разнообразия и креативности
Минусы: может уехать в шум или бессмыслицу при плохих настройках

3️⃣ Beam Search (лучевой поиск)

Модель думает не только о следующем слове, а о всей последовательности целиком. Она параллельно держит несколько наиболее вероятных вариантов продолжения (beam width) и выбирает лучший путь.

Плюсы: более связный и логичный текст
Минусы: вычислительно дороже, иногда слишком «осторожный»

4️⃣ Contrastive Search (контрастный поиск)

Добавляет штраф за повторяемость. При выборе следующего токена учитывается не только вероятность, но и насколько он похож на уже сгенерированные слова (косинусное сходство).

Плюсы: меньше зацикливаний, текст выглядит живее
Минусы: сложнее в реализации

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62