Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.4K subscribers
2.5K photos
127 videos
68 files
4.96K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
DS умер? Нет, он эволюционировал в Agent Engineering

Модели стали commodity. Теперь ценность не в model.fit(), а в том, как заставить LLM надежно выполнять сложные цепочки действий.

Мы представляем радикально обновленный курс «Разработка AI-агентов».

Старая версия (5 недель) была лишь введением. Новая — это 13 модулей хардкора.

Advanced Track для ML-инженеров:

RAG 2.0: Векторные БД (Pinecone, Chroma), семантический поиск, гибридные методы.
Fine-tuning & RL: Обучение агентов, RLHF, MARL (Multi-Agent Reinforcement Learning).
Frameworks: Глубокий дайв в CrewAI, AutoGen и LangGraph.
Infra: Доступ к GPU-кластеру для ваших экспериментов.

Мы учим не просто «промтить», а строить сложные системы с памятью и инструментами.

🧪 Акция 3 в 1:

Покупаешь этот курс — выбираешь два любых других в подарок.

Data Science 2026
3👍1😢1
🆕 Свежие новости для дата‑сайентистов

OpenAI выложила код и веса по sparsity-подходу
OpenAI продолжает ломать привычный пайплайн «сначала жирно, потом обрезаем» — теперь разреженность закладывается прямо в обучение. Самое любопытное: после жёсткого прунинга остаются маленькие, почти читаемые схемы, которые всё ещё работают. Похоже, мы всё ближе к моменту, когда «понять модель» станет не просто красивой метафорой.

NVIDIA выпускает Nemotron 3 — модели для многоагентных систем
Это не очередной чат-бот, а инфраструктура под агентные системы на масштабе. NVIDIA явно делает ставку на будущее, где один LLM — это мало, а вот десяток координирующихся агентов — норма.

Google анонсировала Gemini 3 Flash
Быстро, дёшево и почти как большой — классическая формула Flash. Google явно показывает, что «быстрее и дешевле» теперь важнее, чем «на 2% лучше в бенчмарке». Отличный кандидат для продакшена, где latency важнее эго.

OpenAI представила GPT-Image-1.5
Генерация картинок стала в 4 раза быстрее и заметно лучше управляется при редактировании. Модель тихо заменяет предыдущую версию — без революций, но с ощущением, что image-stack наконец-то взрослеет и перестаёт быть игрушкой.

В ChatGPT появился App Store
Теперь прямо из чата можно заказывать еду, собирать презентации и дергать сторонние сервисы через @. ChatGPT всё меньше «модель» и всё больше «операционная система».

OpenAI выпускает GPT-5.2-Codex
Специализированная версия GPT-5.2 под длинные инженерные задачи: рефакторинги, миграции, сложные пайплайны.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍4
📦 Docker & Kubernetes: визуальная шпаргалка

Современные приложения почти всегда живут в контейнерах и работают на кластерах.

Docker решает первую проблему — упаковать приложение со всеми зависимостями и запустить его где угодно: локально, на сервере, в облаке.

Kubernetes решает следующую — как запустить много таких контейнеров, следить, чтобы они не падали, масштабировать их под нагрузкой и обновлять без простоя.

💡 Проще говоря:
Docker — это «собрать и запустить одно приложение в коробке».
Kubernetes — это «надёжно управлять тысячами таких коробок на куче машин».

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
12🔥1
📁 Как LLM выбирают следующее слово: 4 стратегии генерации текста

Когда большая языковая модель генерирует текст, она каждый раз решает одну простую задачу:
какой токен выбрать следующим?


Но способов принять это решение — несколько. На инфографике показаны 4 основные стратегии, вот кратко и по делу:

1️⃣ Жадная стратегия (Greedy)

Самый простой и быстрый вариант. Модель всегда выбирает токен с максимальной вероятностью на текущем шаге (argmax).

Плюсы: быстро, детерминированно
Минусы: часто получается сухо, шаблонно и модель может застревать

2️⃣ Multinomial Sampling (сэмплирование)

Здесь модель не обязана выбирать самый вероятный токен. Она случайно сэмплирует слово из распределения вероятностей (softmax + temperature).

Плюсы: больше разнообразия и креативности
Минусы: может уехать в шум или бессмыслицу при плохих настройках

3️⃣ Beam Search (лучевой поиск)

Модель думает не только о следующем слове, а о всей последовательности целиком. Она параллельно держит несколько наиболее вероятных вариантов продолжения (beam width) и выбирает лучший путь.

Плюсы: более связный и логичный текст
Минусы: вычислительно дороже, иногда слишком «осторожный»

4️⃣ Contrastive Search (контрастный поиск)

Добавляет штраф за повторяемость. При выборе следующего токена учитывается не только вероятность, но и насколько он похож на уже сгенерированные слова (косинусное сходство).

Плюсы: меньше зацикливаний, текст выглядит живее
Минусы: сложнее в реализации

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62🔥1
🚛 Итоги 2025 для больших языковых моделей

Очень сильный обзор года от Андрея Карпати.
Про RLVR и «мышление» моделей, рваный интеллект, vibe coding, Cursor, Claude Code и то, почему LLM — это скорее призраки, а не животные.

Если хотите понять, что реально изменилось в LLM за 2025, а не просто посмотреть на бенчмарки — обязательно к прочтению.

🔗 Ссылка на статью

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
От экспериментов с LLM к автономным агентам в продакшене

Сегодня ценятся не просто промпты, а архитектура. Мы учим строить ИИ-агентов по «инженерному стандарту»: с фокусом на надёжность, RAG-пайплайны и мониторинг.

Технические акценты:


продвинутый `RAG` на базе Pinecone / Chroma для построения точного фундамента системы;
агентская логика в LangGraph для управления сложными стейт-машинами и памятью;
интеграция в прод через n8n для связи моделей с внешними инструментами и API;
анализ качества в LangSmith для оценки обоснованности решений нейросети.

Создавайте системы, которые работают эффективно и предсказуемо.

Программа и запись
1🎉1
Media is too big
VIEW IN TELEGRAM
💻 OpenTinker — RL-as-a-Service для foundation models

OpenTinker предлагает удобную инфраструктуру для обучения с подкреплением, где код и выполнение жёстко разделены.

Ты пишешь RL-логику на Python, а всё тяжёлое — распределённое обучение, GPU и масштабирование — происходит на стороне сервера.

Фишки:
✔️ не нужны локальные GPU
✔️ обучение и инференс используют один и тот же пайплайн
✔️ окружение и код обучения изолированы друг от друга
✔️ высокоуровневый Python API без боли с distributed-системами

Хороший вариант, если хочется работать с RL поверх foundation models, не превращаясь в DevOps.

📱 Github

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5😁41😢1🙏1🥱1
⌨️ Топ-вакансий для дата-сайентистов за неделю

Data Аналитик — 300 000 - 350 000₽, удалёнка

Anti-Fraud Analyst, удалёнка

Data Engineer (Financial Markets) — от 6 600 до 8 300 $, офис (Дубай)

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
2
🎅 Секретный Санта для айтишников от Proglib.academy

Весь этот год команда Академии запускала курсы для айтишников. А под Новый год мы запускаем новый курс по ИИ-агентам и ставим под ёлку самый свежий стек 2025 года и обучение проектированию автономных нейросетевых экосистем — от LLM и ReAct-циклов до мультиагентных систем, LangGraph, AutoGen и продакшн-практик.

🎁 Хотим дарить подарки и приглашаем вас поучаствовать в конкурсе:

1️⃣ Упомяните курс Академии у себя в блоге.
2️⃣ Пришлите скрин сюда.
3️⃣ Получите секретный промокод на 10 000 ₽ при оплате любого курса.

Подходит всё — соцсети, блоги, Telegram-каналы от 300 подписчиков и более.

🎄 Акция действует до Нового года.

Win-win, всё как мы любим!
👍1
🔍 Интерактивное исследование LLM изнутри

Инструмент позволяет буквально пошагово разобрать, как модель приходит к ответу:
✔️ выбираешь модель и промпт — запускаешь инференс
✔️ смотришь граф вкладов (contribution graph)
✔️ выбираешь токен, от которого строится граф
✔️ настраиваешь порог значимости вкладов
✔️ смотришь представление любого токена после любого блока

Для каждого представления можно:
➡️ увидеть проекцию в выходной словарь
➡️ понять, какие токены были усилены или подавлены предыдущим блоком

Всё интерактивно:
✔️ кликабельные рёбра → детали attention head
✔️ кликабельные головы → что именно они усиливают/подавляют
✔️ FFN-блоки → нейроны внутри них

📱 Github

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42
🎉 Вышел Apache Spark 4.1

Релиз получился внушительным — список изменений действительно большой:
👉 https://clc.to/50fxrg

Из основных обновлений и улучшений:
• улучшения в Spark SQL (скрипты, CTE, новые типы данных)
• прокачанный Structured Streaming для real-time сценариев
• Spark Connect стал стабильнее и быстрее
• ускорение Python-UDF через Arrow
• апдейты для Kubernetes и прод-деплоя
• поддержка новых версий Python

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍94
📕 Нейросети с нуля на С

Небольшой, но очень наглядный проект: автор шаг за шагом собирает минималистичную tensor-библиотеку на C, объясняя, как работают нейросети на базовом уровне.

Без PyTorch и NumPy — только математика, структуры данных и явные вычисления.

Материал рассчитан на программистов: ML-бэкграунд не обязателен.

📖 Статья и проект: https://clc.to/MQ3OGQ

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍91
WANTED: DATA SCIENCE EXPERT

Разыскивается специалист, который видит паттерны там, где остальные видят хаос. Хватит тренировать модели в одиночку — пора обучать людей.

Приметы:

— мастерски владеет Python и библиотеками анализа данных;
— умеет объяснять сложную математику буквально «на пальцах»;
— реализовал несколько успешных ML-проектов в проде;
— готов делиться знаниями с большой аудиторией.

Суть сделки:

— гонорар за разработку и проведение программ;
— прокачка личного бренда в среде Data Science;
— медийная поддержка от команды Proglib.

Сдаться по ссылке

P.S. Знаешь того, кто «слишком много знает» о нейронках? Сдай его нам.
😢2
This media is not supported in your browser
VIEW IN TELEGRAM
💹 Как устроен Segment Anything Model (SAM)

SAM — одна из самых впечатляющих моделей для сегментации изображений. Внутри она состоит из трёх ключевых частей: image encoder, prompt encoder и mask decoder.

1️⃣ Image Encoder

Изображение 1024×1024 разбивается на патчи 16×16 → всего 4096 патчей. Каждый патч кодируется в вектор размерности 1280 и проходит через ViT (self-attention).

На выходе получается общее визуальное представление изображения — тензор 256×64×64, своего рода «визуальная память», с которой дальше работает модель.

2️⃣ Prompt Encoder

Обрабатывает пользовательские подсказки:
— точки и bounding box’ы → превращаются в векторы размерности 256
— mask-подсказки → уменьшаются до 64×64 и кодируются свёртками

Важно: никаких трансформеров и self-attention здесь нет, всё максимально лёгкое. Все prompt-векторы объединяются и дополняются специальными токенами для масок и IoU.

3️⃣ Mask Decoder

Здесь начинается «магия»:
— self-attention между токенами
— cross-attention между токенами и изображением (в обе стороны)
— совместное рассуждение о том, что запросил пользователь и что есть на картинке

Каждый mask-токен в итоге порождает маску, а отдельный IoU-токен оценивает её качество.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍21🎉1
🆕 Свежие новости для дата‑сайентистов

Anthropic выпустили Bloom — open-source фреймворк для поведенческих eval’ов LLM
Идея простая и болезненно актуальная: не тестировать сценарии, которые устаревают быстрее модели, а фиксировать само поведение. Bloom генерирует сценарии автоматически и прогоняет eval за дни, а не недели. Если вы хоть раз переписывали prompt-eval перед релизом — вы целевая аудитория.

Andrej Karpathy — LLM Year in Review 2025
Карпати аккуратно подводит итог: быстрые inference-движки, дистилляция как стандарт, агенты в реальном времени и рост реально сильных open-моделей. Читается как карта местности: где мы есть и куда всё это едет.

Your Year with ChatGPT
OpenAI сделали Spotify Wrapped для ChatGPT. Забавно, но за этим хорошо видно, что ChatGPT всё больше позиционируется как персональный рабочий инструмент, а не просто чат.

NotebookLM научился превращать источники в Data Tables
NotebookLM теперь автоматически собирает структурированные таблицы из документов и сразу готовит их к экспорту в Google Sheets. Мелочь, но именно такие фичи съедают куски ручной аналитической работы.

Google: итоги 2025 — 8 направлений прорывов
Агенты, reasoning, научные открытия — Google подводит итоги года без лишнего маркетинга. Хороший обзор, чтобы понять реальные исследования.

Gemma Scope 2 — интерпретируемость Gemma 3 от DeepMind
Полноценный стек инструментов, который показывает, как модель думает на уровне слоёв и представлений.

Apache Spark 4.1
Улучшения под капотом, оптимизации и стабильность.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1🎉1
От LLM к LMM: переходим к мультиагентным системам и продвинутому RAG 📊

Просто запустить модель — это 10% успеха. Остальные 90% — это логика рассуждений и доступ к актуальным данным. Мы подготовили глубокий курс по созданию автономных AI-агентов.

В фокусе курса:

— реализация паттерна ReAct (Reasoning + Acting) для автономного планирования;
— глубокий RAG: построение баз знаний, работающих на скоростях ИИ;
— использование CrewAI и AutoGen для координации групп агентов;
— освоение протокола MCP для интеграции с внешними источниками.

Ваш результат: готовый проект мультиагентной системы для анализа рынка или автоматизации поддержки.

Глубокое погружение в агентов 🧠
🥱2🥰1
🚀 Запускаем LLM локально — без облаков и лишней боли

Хотите легко запускать большие языковые модели прямо на своём компьютере?

Обратите внимание на LM Studio.

LM Studio — open-source инструмент для локального и приватного запуска LLM:
➡️ загрузка и запуск моделей в пару кликов
➡️ десктоп-приложение
➡️ CLI для автоматизации
➡️ Python / JavaScript SDK
➡️ всё работает локально, без отправки данных в облако

Подходит для экспериментов, прототипов и приватных проектов.

🔗 Репозиторий и сайт: https://clc.to/E3LBMQ

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🔥2😢1
LLMOps_шпаргалка.pdf
84.8 KB
🚀 Шпаргалка по LLMOps

Создавать приложения на базе LLM просто. Настоящий вызов — запускать их надёжно в продакшене.

После деплоя появляются реальные проблемы:
❗️ Латентность — задержки при ответах модели
❗️ Стоимость — расходы на вычисления и API
❗️ Галлюцинации — неверные или вымышленные ответы
❗️ Prompt Drift — отклонения поведения модели со временем
❗️ Evaluation Gaps — пробелы в оценке качества ответов

Эта шпаргалка помогает ориентироваться в LLMOps и управлять жизненным циклом приложений от разработки до продакшена.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉21👍1🥱1