Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.57K photos
137 videos
82 files
5.07K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по Ai-агентам: https://clc.to/9L0Tqg

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
👨‍💻 Шпаргалка: как выкатывать ML-модели в продакшен и не поседеть

Обучить модель на исторических данных — это только полдела. Настоящий вызов начинается, когда её нужно выпустить к реальным пользователям. Вот 4 проверенных сценария, как это сделать безопасно:

A/B Тестирование (A/B Testing)

Стандарт индустрии. Мы делим пользователей на две группы: контрольную (старая модель) и тестовую (новая).

Суть: Сравниваем бизнес-метрики (конверсию, CTR, выручку) между группами.
Когда использовать: Когда нужно четкое статистическое подтверждение, что новая модель действительно лучше старой.

Канареечный релиз (Canary Deployment)

Выкатываем новую модель не на всех сразу, а на маленькую долю трафика или конкретный регион.

Суть: Если за час мониторинга мы не увидели всплеска ошибок или падения метрик, постепенно увеличиваем долю трафика (5% -> 20% -> 100%).
Когда использовать: Когда важно минимизировать «радиус поражения» в случае критического бага.

Перемешанное тестирование (Interleaved Testing)

Часто применяется в ранжировании и поиске. Вместо того чтобы делить пользователей, мы смешиваем ответы от двух моделей в один список.

Суть: Мы смотрим, на какие позиции в выдаче пользователь кликает чаще. Это позволяет быстрее получить статистически значимый результат, чем в обычном A/B тесте.
Когда использовать: В рекомендательных системах, где нужно быстро отсеять неудачные гипотезы.

Теневое тестирование (Shadow Testing)

Самый спокойный вариант. Новая модель работает параллельно со старой, получает те же запросы, но её ответы никуда не уходят — они просто пишутся в логи.

Суть: Мы проверяем, как модель держит нагрузку и какие предсказания выдает на живом трафике, вообще не влияя на пользовательский опыт.
Когда использовать: Перед первым серьезным релизом, чтобы убедиться в стабильности инфраструктуры.

📍 Навигация: ВакансииЗадачиСобесы

Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
5🥰2👍1🔥1🎉1🙏1
ИИ-агенты меняют образование. Хочешь быть тем, кто их проектирует? 🚀

Пока другие только пробуют промпты, Proglib App внедряет LLM в ядро продукта. Это EdTech-платформа с курсами и квизами, где ИИ помогает разработчикам расти. MVP в проде, пользователи на борту.

Проекту нужен технический кофаундер, способный соединить Fullstack-разработку и работу с ИИ-агентами.

🛠️ Технологический стек:

React 18, TypeScript, Express 5, PostgreSQL, Drizzle ORM.

Что предстоит:

• Проектировать архитектуру сервиса и интеграцию LLM. • Развивать ИИ-агентов для персонализации обучения. • Работать автономно: от архитектурного наброска до прода.

Идеальный мэтч, если:

• Уверенно чувствуешь себя в TS, React и Node.js. • Умеешь выжимать максимум из Claude Code и Cursor. • Бонус: опыт создания ИИ-агентов и интерес к EdTech.

Удалёнка, гибкость, работа напрямую с фаундером. Никаких «менеджеров среднего звена».

Готов строить самый умный образовательный сервис для профи? Пиши о себе 👇

@proglibrary_feedback_bot
🥰2
🆕 Свежие новости для дата‑сайентистов

🧠 Agentic reasoning: 3 уровня автономности LLM
Команда из University of Illinois Urbana-Champaign, Meta, Amazon и Google DeepMind предлагает смотреть на LLM не как на «умный чат», а как на полноценного агента — с памятью, планированием и координацией. Фреймворк из трёх слоёв (base → self-evolving → collective) выглядит как попытка систематизировать весь хайп вокруг AI-агентов и сделать его инженерно управляемым.

🚨 Anthropic и массовая дистилляция Claude
Anthropic заявила, что DeepSeek, Moonshot AI и MiniMax через десятки тысяч фейковых аккаунтов собрали ~16 млн ответов Claude, чтобы воспроизвести его агентные способности.

25 часов автономного кодинга от OpenAI
OpenAI провела стресс-тест: GPT-5.3-Codex получил пустой репозиторий и 25 часов времени. Итог — полноценный инструмент, 30k строк кода и 13 млн токенов.

💻 FDM-1 — универсальная модель для работы за компьютером
FDM-1 обучили на 11 млн часов видео, чтобы она могла выполнять реальные компьютерные задачи — от CAD до навигации в GUI. Интересно, что акцент сделан на масштабируемость и отказ от дорогой разметки.

🔥 Qwen3.5-35B-A3B
Новая версия Qwen от Alibaba Cloud усиливает позиции open-weight моделей в среднем размере (30–40B). Мультимодальность, RL-скейл и архитектурные улучшения — китайские модели продолжают стабильно сокращать разрыв с западными лидерами.

MIT про ускорение обучения LLM
Исследователи из MIT предлагают использовать idle-время вычислений, чтобы почти вдвое ускорить обучение без потери качества. На фоне дефицита GPU такие инженерные оптимизации могут оказаться не менее важными, чем новые архитектуры.

🍌 Nano Banana 2 от Google
Google обновила свою image-модель: больше скорости, больше контроля, уровень Pro в компактном формате. Сегмент «быстро и качественно» в генерации изображений становится всё плотнее.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🙏21
🍳AI Cookbook: локальный ИИ правильно

Если вы проспали последние полгода, Liquid AI — это те ребята, которые делают нейронки на альтернативной архитектуре (LFM), забивая на классические трансформеры ради безумной эффективности.

Их свежий Cookbook на GitHub — это не просто доки, а готовый набор хаков для тех, кто хочет запустить серьезный ИИ на «калькуляторе».

Разбираем репозиторий:
🔛 Примеры того, как запустить LFM 2.5 (включая "думающие" модели) прямо в браузере через WebGPU. Никаких API-ключей и облаков, всё шуршит на твоем GPU.

🔛 Готовые проекты для iOS (Swift) и Android (Kotlin). Хочешь свой локальный ChatGPT, который не сливает переписку? Бери за основу их LeapChat.

🔛 Обработка аудио в реальном времени (LFM2-Audio) и разбор инвойсов по фото (LFM2-VL) на моделях смешного размера (от 1.2B до 3B параметров), которые выдают результат уровня гигантов.

🔛Ноутбуки для дообучения через Unsloth и GRPO (привет, OpenAI o1 стиль рассуждений). Можно быстро натаскать модель под специфический домен.

🔗 Заглянуть в репозиторий: https://clc.to/1BVkhw

📍 Навигация: ВакансииЗадачиСобесы

Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31😢1🤩1
Media is too big
VIEW IN TELEGRAM
👀 Интерактивный 3D-разбор LLM

Cамый наглядный способ понять устройство больших языковых моделей (LLM) через глубокую 3D-визуализацию.

🔗 Попробовать: https://clc.to/kmCVsw

📍 Навигация: ВакансииЗадачиСобесы

Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31😢1
🏛️ MIT выложил свою AI-библиотеку бесплатно

Это не просто статьи — это база, на которой построены OpenAI, Google DeepMind и Anthropic. Если вы хотели серьезно зайти в ИИ, это ваш знак.

🧭 Навигация по библиотеке:

1. Фундамент (Для старта):

Foundations of Machine Learning — база алгоритмов.
Understanding Deep Learning — самый наглядный современный учебник. Если пугает математика, начинайте здесь.
Algorithms for ML — как устроены «внутренности» моделей.

2. Глубокое обучение (Deep Learning):

Deep Learning — легендарная «библия» DL. По ней училось всё нынешнее поколение топ-инженеров.
Probabilistic ML — всё о том, как заставить ИИ работать с неопределенностью.

3. Обучение с подкреплением (RL) — разум машин:

RL Basics — абсолютный стандарт. Без этой книги в RL делать нечего.
Multi-Agent Systems — как обучать целые группы агентов взаимодействовать друг с другом.

4. Этика и будущее:

Fairness in ML — как избежать предвзятости и сделать ИИ справедливым.

📌 Чтобы не потерять вакансии и анонсы — добавь папку

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥144👍2🎉2🙏2
🛠 Git Submodules: как не плодить копипасту в ML-проектах

Представьте: у вас три команды (Fraud Detection, Credit Scoring и Trading). Всем им нужна одна и та же функция calculate_risk_score().

Обычно это превращается в кошмар:
1. Команды копируют код себе.
2. Одна команда находит баг и исправляет его.
3. Остальные два проекта остаются с багами, потому что даже не знают об исправлении.

Итог: «расползание» версий (version drift) и ошибки в продакшене.

Решение: Git Submodules

Это способ вставить одну Git-репозиторий внутрь другого как подпапку. Вы не копируете код, а ссылаетесь на конкретный коммит в общем репозитории библиотек.

🚀 Шпаргалка по командам

1. Добавить общую библиотеку в проект:

git submodule add https://github.com/user/ml-utils.git ml-utils



Это создаст папку ml-utils/ и файл .gitmodules, где прописана ссылка на репозиторий.

2. Клонировать проект со всеми зависимостями:

Если вы просто сделаете git clone, папка с сабмодулем будет пустой. Нужно так:

git clone --recurse-submodules https://github.com/user/main-project.git



3. Обновить общие утилиты до последней версии:

git submodule update --remote ml-utils
git add ml-utils
git commit -m "Update shared ML utils"


📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍84🙏3🎉1
🎓 PaperDebugger: личный ИИ-соавтор прямо в Overleaf

Написание научной статьи — это бесконечный цикл правок и споров с «Рецензентом №2». Проект PaperDebugger ломает эту стену, внедряя продвинутого ИИ-ассистента прямо в редактор Overleaf.

В основе проекта лежит уникальный движок на базе MCP (Model Context Protocol). Он имитирует полный рабочий процесс ученого: Исследование → Критика → Ревизия.

Основные фишки:
— Работает как расширение Chrome. Читает ваш проект и дает советы, не выходя из вкладки.
— Модель анализирует текст глазами строгого рецензента конференции.
— Проверка цитат, верификация литературы и глубокая работа с предметной областью.
— Инструмент только читает ваш код и предлагает правки. Окончательное решение и вставка — всегда за вами (Instant Insert).

🔗 Репозиторий проекта: https://clc.to/rfexYQ

📍 Навигация: ВакансииЗадачиСобесы

Библиотека дата-сайентиста

#буст
5👍2🥰2
🐼 Шпаргалка по Pandas: как не завалить секцию Live Coding

Разбираем основные шаги подготовки.

🏗 Шаг 1: Доступ и чистка данных

Прежде чем анализировать, нужно «причесать» датафрейм.

`.loc` vs `.iloc`: Запомните раз и навсегда — .loc работает с текстовыми метками (названия столбцов и индексов), а .iloc — строго по целочисленным позициям.
— Если числа ведут себя как текст, используйте .astype(int) или float для явного преобразования.
— Используйте .isnull() для поиска пропусков и .dropna(), если решили радикально избавиться от строк с NaN.

🔄 Шаг 2: Трансформация и анализ

`.apply()` : позволяет прогнать любую пользовательскую функцию через каждую строку или столбец.
`.groupby()` : разбивает данные на группы (например, по категориям), чтобы вы могли применить агрегацию: sum(), count() или mean().
`.pivot_table()` : создает сводные таблицы в стиле Excel для быстрой оценки больших наборов данных по нескольким измерениям.

💡 Топ-3 совета для интервью

1. Не забывайте про inplace=True** (или переопределение переменной), иначе ваши изменения не сохранятся.
2. Всегда предпочитайте встроенные методы Pandas обычному циклу for.
3. После .dropna() или фильтрации часто полезно сделать .reset_index().

А какой метод в Pandas ваш самый любимый? Или, может, вы уже перешли на Polars? Пишите в комментариях!

📍 Навигация: ВакансииЗадачиСобесы

Библиотека дата-сайентиста

#буст
6👍6🥰4
ML_Notes.pdf
2.8 MB
🎓 Лекции: математические основы машинного обучения

Краткий конспект лекций для тех, кто хочет понимать машинное обучение на уровне теории.

➡️ Без кода — только ключевые математические идеи.

📍 Навигация: ВакансииЗадачиСобесы

Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41
👍 На курсе по контролируемой разработке AI-агентов мы будем разбирать ровно то, о чём говорит Владислав в голосовом, но уже в формате системной практики.

📅 Старт курса — 20 апреля.

Если хотите разобраться, как строить управляемые агентные системы:
➡️ Присоединяйтесь.

P.S. С первого занятия будет практика: код и разбор реальных ошибок, а не только теория.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔄 Статистические связи в Data Science

Понимание того, как переменные «общаются» друг с другом — фундамент для построения точных моделей. Без этого анализа вы рискуете обучить модель на случайных шумах.

1. Ковариация vs Корреляция

Хотя оба термина описывают взаимосвязь, они решают разные задачи:
➡️ Ковариация (Cov): Показывает направление связи. Если значение > 0 — переменные растут вместе, если < 0 — одна растет, другая падает.

Минус: сильно зависит от масштаба данных (метры или километры), поэтому её сложно сравнивать между разными датасетами.

➡️ Корреляция (ρ): Это «причесанная» ковариация. Показывает силу связи в строгом диапазоне от -1 до 1.

Плюс: не зависит от единиц измерения.

2. Анализ временных рядов (Time Series)

Когда данные зависят от времени, обычного скаттер-плота мало. Здесь в игру вступают специфические инструменты:

➡️ ACF (Автокорреляция): Насколько сильно прошлые значения влияют на текущие. Помогает найти циклы и сезонность.

➡️ PACF (Частичная автокорреляция): Изолирует прямое влияние конкретного временного лага, убирая «эхо» промежуточных шагов.

➡️ CCF (Кросс-корреляция): Поиск связи между двумя разными рядами (например, как реклама сегодня влияет на продажи через неделю).

📍 Навигация: ВакансииЗадачиСобесы

Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🥰31🎉1🙏1
📊 EDA в терминале: зачем Data Scientist’у нужен Chartli

Когда вы работаете на удаленном сервере через SSH или копаетесь в логах весом в несколько гигабайт, выгружать данные в локальный Jupyter Notebook для простого plt.show() — это долго. Chartli позволяет увидеть распределение или тренд, не покидая консоль.

🛠 Почему это удобно для DS

1. Быстрая проверка гипотез

Нужно понять, есть ли сезонность в логах или не «поплыли» ли веса модели? Просто пробросьте данные через пайп:

cat training_loss.txt | npx chartli -t spark




2. Поддержка многомерных данных

Если у вас есть матрица корреляций или веса слоев, используйте режим Heatmap:

npx chartli matrix.txt -t heatmap



3. Визуализация без графического окружения:
В отличие от Matplotlib, которому нужен X-сервер или сохранение в файл, Chartli использует Unicode и Braille (символы Брайля) для отрисовки графиков с удивительно высокой детализацией прямо в сетке символов.

💡 Лайфхак для Pandas

Вы можете интегрировать Chartli прямо в свои скрипты через os.system или просто выводить данные в stdout, чтобы быстро взглянуть на них через CLI:

import pandas as pd
df = pd.read_csv('data.csv')
# Вывод колонки в текстовый файл для chartli
df['target'].to_csv('target.txt', index=False, header=False)



И затем в терминале: npx chartli target.txt -t braille -h 10

📂 Проект на GitHub: https://clc.to/-Pk5bw

📍 Навигация: ВакансииЗадачиСобесы

Библиотека дата-сайентиста

#буст
5👍4🥰1
🚀 Встречайте GPT-5.4: новый стандарт профессионального ИИ

OpenAI представила GPT-5.4 — свою самую мощную модель, ориентированную на сложную офисную работу, программирование и автономное выполнение задач.

GPT-5.4 объединяет лучшие качества предыдущих моделей (включая Codex) в единую систему:
— Модель справляется с профессиональными задачами (презентации, таблицы, юридический анализ) на уровне экспертов в 83% случаев.
— Ошибки в фактах сократились на 33% по сравнению с GPT-5.2.
— В ChatGPT теперь виден план рассуждений в реальном времени, и вы можете скорректировать его «на лету».

🖥 Native Computer Use (Управление компьютером)

Это главный прорыв релиза. GPT-5.4 — первая модель с нативной способностью управлять вашим ПК:
— Она видит скриншоты и понимает интерфейс приложений.
— Может сама двигать мышью, печатать текст и выполнять многошаговые действия (например, собрать данные из почты, занести их в Excel и отправить отчет).
— Уровень успеха в навигации по ОС вырос с 47% до 75%, обогнав средние показатели человека (72%).

🔗 Полный релиз

📍 Навигация: ВакансииЗадачиСобесы

Библиотека дата-сайентиста

#буст
👍32🤩1
Media is too big
VIEW IN TELEGRAM
🗺 Интерактивная карта: основные пути ML Engineer 2026

Путь разделен на логические блоки, от математики до MLOps. Стандарт для тех, кто хочет структурировать свое обучение.

🔗 Ссылка на карту: https://clc.to/6qGdwg

📍 Навигация: ВакансииЗадачиСобесы

Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍73🙏2
💥 Открытый вебинар | ИИ-агенты в продакшене: от хайпа к деньгам

Агенты уже везде. Но мало кто признаётся, сколько денег сжёг на бесконечных циклах, галлюцинациях в RAG и отсутствии мониторинга.

Полина Полунина, руководитель AI-направления Альфа-Банка, расскажет честно:

▪️ Чем агент отличается от «просто GPT с промптом» и когда бизнесу достаточно обычного LLM
▪️ 3 реальных кейса из корпоративной среды: что взлетело, а что нет
▪️ Live-демо работающего агента
▪️ ТОП-5 граблей, на которые наступают команды при внедрении

⏱️ 10 марта в 19:00 (МСК)

🎁 Участники получат промокод на скидку на самый полный курс по ИИ-агентам

👉 Регистрируйся
🔥31🥰1😢1🙏1
🐼 Pandas: 4 фатальные ошибки, которые делают 51% разработчиков

Даже в 2026 году Pandas остается главной «головной болью» Python-разработчика. С выходом версий 2.x и 3.x правила игры изменились.

1. Итерация по строкам

iterrows() — забудьте о нем. Он конвертирует каждую строку в pd.Series, создавая дикий overhead.
itertuples() — если цикл неизбежен, он быстрее в 10–100 раз.
Векторизация (np.where) — в 4000 раз быстрее.

> DS-совет: Если логика сложнее обычного сложения — используйте .apply(), но стремитесь к векторизации через NumPy.

2. Переименование

.rename(columns=...) — самый безопасный путь. Не ломается при изменении схемы.
.str.lower().str.replace() — лучший способ массово привести колонки к snake_case.
add_prefix() — спасение при сложных merge, когда нужно быстро разделить признаки из разных таблиц.

3. Война с NaN

NaN — это не просто пустая ячейка, это сигнал о проблеме в данных.

Диагностика: df.isna().sum() — база.
ffill() / bfill() — критически важны для временных рядов (Time Series), чтобы не терять динамику.
fillna(median) — классика для ML-пайплайнов, но всегда проверяйте природу пропусков. Иногда dropna(subset=[...]) — единственный честный путь.

4. Фильтрация

Булевы маски: df[(df['A'] > 0) & (df['B'] < 1)] — классика. Важно: забудьте скобки — получите ошибку приоритета.
`.query()` — читается как SQL, поддерживает переменные через @. Идеально для длинных условий.
.loc[] — единственный верный способ, если нужно одновременно отфильтровать строки и выбрать колонки.

🔗 Ссылка на пост

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека питониста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🤩1
ML_сборник.pdf
2.4 MB
Если хочется не просто запускать model.fit(), а понимать математику ML, посмотрите книгу “Pen & Paper Exercises in Machine Learning”.

Это сборник задач с решениями, где вы на бумаге разбираете:
• оптимизацию и линейную алгебру
• графические модели
• Variational Inference
• Monte-Carlo методы

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека питониста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
10🥰4👍2
🆕 AgentHub: новый проект от Андрея Карпати

Андрей Карпати опубликовал репозиторий AgentHub. Это серверная часть для координации «роев» ИИ-агентов. Главная идея: существующие инструменты вроде GitHub удобны для людей, но ограничивают потенциал нейросетей.

Проблема классического Git

Когда над кодом работают люди, нам нужна структура: ветки, постепенное слияние (merge) и одна «правильная» версия проекта. Но если код пишут тысячи агентов, такая линейная логика становится проблемой.

👇 Как это устроено в AgentHub

1. Хаос как стратегия
Вместо того чтобы ждать одобрения PR, агенты в AgentHub просто пушат код во всех направлениях сразу. Проект превращается в гигантское дерево (граф), где каждая ветка — это отдельный эксперимент. Сервер просто отслеживает «листья» — крайние точки, от которых еще никто не пробовал строить продолжение.

2. Код + Общение
Агенты не просто пишут код, они пользуются встроенной «доской объявлений». Один агент может запостить: «Я попробовал изменить эти параметры, точность упала». Другие агенты считывают это и не тратят ресурсы на заведомо ложный путь. Это превращает группу ботов в самообучающееся сообщество.

➡️Первый кейс использования — AutoResearch. Это система, где ИИ-агенты сами пытаются улучшить алгоритмы обучения других нейросетей. AgentHub берет на себя всю «грязную работу» по синхронизации их усилий.

🔗 Ссылка на проект: https://clc.to/7Iq0RA

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3