Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.57K photos
137 videos
82 files
5.07K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по Ai-агентам: https://clc.to/9L0Tqg

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🏗 Metaxy: как перестать пересчитывать лишнее в ML-пайплайнах

В обычном Data Engineering всё просто: обновился файл — пересчитываем весь граф. Но в мультимодальном ML (видео + аудио + текст) такой подход — это прямой путь к сжиганию бюджета на облака.

Metaxy — это умный слой метаданных, который понимает внутреннюю структуру данных и умеет «отсекать» ненужные вычисления.

Данные (видео, картинки) лежат в S3, а Metaxy хранит их «цифровые следы»: версии, пути и связи. Но главное — он знает, какая часть файла нужна конкретной модели.

Кейс из жизни:
У вас есть пайплайн распознавания лиц. На вход идет видеофайл. Вы решили заменить в нем аудиодорожку на более качественную.

Обычный пайплайн: увидит изменение файла и заново запустит тяжелую модель распознавания лиц.
Metaxy: «поймет», что блок Face Recognition зависит только от видеокадров. Раз кадры не менялись — вычисления просто пропускаются (pruning).

🔗 Репозиторий проекта: https://clc.to/Jwgv2g

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👍1
За год мы провели три потока курса по ИИ-агентам, а теперь запускаем масштабное обновление!

В новом, четвёртом потоке мы учли все пожелания студентов, добавили большой блок про AgentOps и сместили фокус с базовых концепций на суровый инжиниринг. Написать скрипт генерации легко, а вот заставить агентов работать со сложным RAG, не галлюцинировать и соблюдать бюджет пайплайна в проде — задача со звёздочкой.

В программе:

— практика в Jupyter-ноутбуках: от прототипа до продакшена;
— продвинутый RAG: обработка разнородных документов и улучшение поиска;
— оркестрация в LangGraph: human-in-the-loop и механизм time-travel;
— метрики качества моделей и защита от деградации пайплайна;
— развёртывание локальных опенсорс-моделей с соблюдением 152-ФЗ.

В честь старта продаж действует спецпредложение: 3 курса по цене 1 (два дополнительных курса в подарок).

Доступ к материалам для предварительной подготовки откроется сразу после оплаты.

По промокоду Agent забирайте скидку 10 000 ₽ (89 000 ₽ вместо 99 000 ₽). Успейте занять место до 28 февраля!

👉 Присоединиться к четвёртому потоку и вывести пайплайны в прод
This media is not supported in your browser
VIEW IN TELEGRAM
💻 Узнай, какие LLM «взлетят» на твоем железе

Проблема локального запуска ИИ всегда одна: скачиваешь 50 ГБ весов, а в итоге получаешь 0.2 токена в секунду или ошибку Out of Memory. Этот инструмент решает проблему одной командой.

Что умеет тулза:
✔️Автодетект железа: Мгновенно сканирует вашу RAM, VRAM (включая Multi-GPU), CPU и архитектуру.
✔️Анализ 200+ моделей: Сверяет ваши ресурсы с базой данных из 206 моделей от 57 провайдеров.
✔️Умный скоринг: Каждая модель получает оценку по 4 параметрам.
✔️Динамическое квантование: Инструмент сам подскажет, в каком сжатии (Q4, Q8, IQ4_XS) модель лучше всего сбалансирует скорость и качество.

🔗 Попробовать: https://clc.to/U7aQyw

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
6🎉2👍1🔥1🙏1
📂 Идеальная структура Data Analysis проекта

Из чего состоит правильный проект:
config/: Централизованное хранение путей и параметров в config.yaml.
data/: Разделение данных на сырые (`raw`), промежуточные (`interim`) и готовые к анализу (`processed`).
— notebooks/: Только для экспериментов, EDA и черновых находок.
— src/: Здесь живет «чистый» и переиспользуемый код для очистки данных, генерации признаков и моделей.
— tests/: Юнит-тесты, которые гарантируют, что логика обработки данных не сломалась после правок.

Золотые правила работы:
1. Как только код в Jupyter стал стабильным и переиспользуемым — выносите его в модули в папку src/.
2. Читайте из raw, очищайте в src/ и сохраняйте результат в processed. Никогда не перезаписывайте сырые данные!
3. Описывайте методику и логику анализа в папке docs/, а не только в комментариях к коду.

👇 Забирайте шаблон себе в закладки.

📍 Навигация: ВакансииЗадачиСобесы

Библиотека дата-сайентиста

#буст
8😁2🤩2🙏2
🌸 Куда катятся LLM в 2026 году

Себастьян Рашка выпустил свой традиционный «весенний» обзор открытых моделей, и, кажется, индустрия окончательно переросла старый добрый Трансформер. Если вы думали, что в архитектурах нейросетей всё замерло — вы сильно ошибались.

Вот главные тезисы:
🌟 Прощай, классический Attention: Внедрение Sliding Window Attention (SWA) позволило моделям «переваривать» гигантские контексты без потери памяти.
🌟 Gated Attention: На выходе внимания теперь стоят сигмоидные «гейты» (как в Qwen3-Next). Это позволяет модели динамически решать, какие данные важны, а какие — шум.
🌟 Inference-time scaling: Главный хайп сезона. Модели учат «думать» дольше во время генерации (reasoning), что дает прирост качества без раздувания количества параметров.
🌟 Tiny is the new Big: Компактные модели вроде Tiny Aya (3.35B) показывают, что мультиязычность и интеллект теперь можно упаковать в смартфон.

🔗 Весь разбор здесь

📍 Навигация: ВакансииЗадачиСобесы

Библиотека дата-сайентиста
👍63🤩1
Последний шанс: 3 курса по цене 1 и запуск AI-агентов в продакшн

Запускать модели в Jupyter — весело, но бизнесу нужны готовые агентные пайплайны. Как превратить «голую» LLM в автономную систему с RAG, контролировать затраты на инференс и не нарушить 152-ФЗ?

В обновлённой программе фокус смещён на жёсткий ML-инжиниринг и вывод в прод. Вы научитесь строить ReAct-циклы, работать с LangGraph и AutoGen, внедрять RAG высокого уровня, протоколы MCP и AgentOps. Все ключевые навыки в одном месте: защита от деградации, time-travel дебаггинг, оценка качества генерации, human-in-the-loop и развёртывание отечественных моделей.

Почему нельзя откладывать:

— масштабная акция «3 курса по цене 1» сгорит уже завтра;
— промокод Agent на скидку 10 000 рублей действует последние часы;
— сразу после оформления открываются материалы для подготовки — начать учиться можно прямо сейчас.

Забронировать место на курсе и забрать бонусы до 28 февраля
🙏1
🧬 SymTorch: превращаем нейросети в читаемые формулы

Интерпретируемость моделей — одна из главных проблем современного ML. SymTorch — это новый инструментарий, который использует символическую регрессию, чтобы раскрыть поведение «черных ящиков».

Вместо того чтобы гадать, как нейронка пришла к результату, SymTorch автоматически извлекает из обученных моделей человекочитаемые математические формулы.

Ключевые особенности:
🛠 Инструмент объединяет мощь PyTorch (нейронные сети) и PySR (символическая регрессия).
🛠 Вместо «черного ящика» вы получаете наглядные математические зависимости, которые обнаружила модель в процессе обучения.
🛠 Это позволяет верифицировать логику модели и использовать её находки в научных или аналитических целях.

🔗 Репозиторий проекта: https://clc.to/F967PQ

📍 Навигация: ВакансииЗадачиСобесы

Библиотека дата-сайентиста
7👍3🤩1
👨‍💻 Шпаргалка: как выкатывать ML-модели в продакшен и не поседеть

Обучить модель на исторических данных — это только полдела. Настоящий вызов начинается, когда её нужно выпустить к реальным пользователям. Вот 4 проверенных сценария, как это сделать безопасно:

A/B Тестирование (A/B Testing)

Стандарт индустрии. Мы делим пользователей на две группы: контрольную (старая модель) и тестовую (новая).

Суть: Сравниваем бизнес-метрики (конверсию, CTR, выручку) между группами.
Когда использовать: Когда нужно четкое статистическое подтверждение, что новая модель действительно лучше старой.

Канареечный релиз (Canary Deployment)

Выкатываем новую модель не на всех сразу, а на маленькую долю трафика или конкретный регион.

Суть: Если за час мониторинга мы не увидели всплеска ошибок или падения метрик, постепенно увеличиваем долю трафика (5% -> 20% -> 100%).
Когда использовать: Когда важно минимизировать «радиус поражения» в случае критического бага.

Перемешанное тестирование (Interleaved Testing)

Часто применяется в ранжировании и поиске. Вместо того чтобы делить пользователей, мы смешиваем ответы от двух моделей в один список.

Суть: Мы смотрим, на какие позиции в выдаче пользователь кликает чаще. Это позволяет быстрее получить статистически значимый результат, чем в обычном A/B тесте.
Когда использовать: В рекомендательных системах, где нужно быстро отсеять неудачные гипотезы.

Теневое тестирование (Shadow Testing)

Самый спокойный вариант. Новая модель работает параллельно со старой, получает те же запросы, но её ответы никуда не уходят — они просто пишутся в логи.

Суть: Мы проверяем, как модель держит нагрузку и какие предсказания выдает на живом трафике, вообще не влияя на пользовательский опыт.
Когда использовать: Перед первым серьезным релизом, чтобы убедиться в стабильности инфраструктуры.

📍 Навигация: ВакансииЗадачиСобесы

Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
5🥰2👍1🔥1🎉1🙏1
ИИ-агенты меняют образование. Хочешь быть тем, кто их проектирует? 🚀

Пока другие только пробуют промпты, Proglib App внедряет LLM в ядро продукта. Это EdTech-платформа с курсами и квизами, где ИИ помогает разработчикам расти. MVP в проде, пользователи на борту.

Проекту нужен технический кофаундер, способный соединить Fullstack-разработку и работу с ИИ-агентами.

🛠️ Технологический стек:

React 18, TypeScript, Express 5, PostgreSQL, Drizzle ORM.

Что предстоит:

• Проектировать архитектуру сервиса и интеграцию LLM. • Развивать ИИ-агентов для персонализации обучения. • Работать автономно: от архитектурного наброска до прода.

Идеальный мэтч, если:

• Уверенно чувствуешь себя в TS, React и Node.js. • Умеешь выжимать максимум из Claude Code и Cursor. • Бонус: опыт создания ИИ-агентов и интерес к EdTech.

Удалёнка, гибкость, работа напрямую с фаундером. Никаких «менеджеров среднего звена».

Готов строить самый умный образовательный сервис для профи? Пиши о себе 👇

@proglibrary_feedback_bot
🥰2
🆕 Свежие новости для дата‑сайентистов

🧠 Agentic reasoning: 3 уровня автономности LLM
Команда из University of Illinois Urbana-Champaign, Meta, Amazon и Google DeepMind предлагает смотреть на LLM не как на «умный чат», а как на полноценного агента — с памятью, планированием и координацией. Фреймворк из трёх слоёв (base → self-evolving → collective) выглядит как попытка систематизировать весь хайп вокруг AI-агентов и сделать его инженерно управляемым.

🚨 Anthropic и массовая дистилляция Claude
Anthropic заявила, что DeepSeek, Moonshot AI и MiniMax через десятки тысяч фейковых аккаунтов собрали ~16 млн ответов Claude, чтобы воспроизвести его агентные способности.

25 часов автономного кодинга от OpenAI
OpenAI провела стресс-тест: GPT-5.3-Codex получил пустой репозиторий и 25 часов времени. Итог — полноценный инструмент, 30k строк кода и 13 млн токенов.

💻 FDM-1 — универсальная модель для работы за компьютером
FDM-1 обучили на 11 млн часов видео, чтобы она могла выполнять реальные компьютерные задачи — от CAD до навигации в GUI. Интересно, что акцент сделан на масштабируемость и отказ от дорогой разметки.

🔥 Qwen3.5-35B-A3B
Новая версия Qwen от Alibaba Cloud усиливает позиции open-weight моделей в среднем размере (30–40B). Мультимодальность, RL-скейл и архитектурные улучшения — китайские модели продолжают стабильно сокращать разрыв с западными лидерами.

MIT про ускорение обучения LLM
Исследователи из MIT предлагают использовать idle-время вычислений, чтобы почти вдвое ускорить обучение без потери качества. На фоне дефицита GPU такие инженерные оптимизации могут оказаться не менее важными, чем новые архитектуры.

🍌 Nano Banana 2 от Google
Google обновила свою image-модель: больше скорости, больше контроля, уровень Pro в компактном формате. Сегмент «быстро и качественно» в генерации изображений становится всё плотнее.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🙏21
🍳AI Cookbook: локальный ИИ правильно

Если вы проспали последние полгода, Liquid AI — это те ребята, которые делают нейронки на альтернативной архитектуре (LFM), забивая на классические трансформеры ради безумной эффективности.

Их свежий Cookbook на GitHub — это не просто доки, а готовый набор хаков для тех, кто хочет запустить серьезный ИИ на «калькуляторе».

Разбираем репозиторий:
🔛 Примеры того, как запустить LFM 2.5 (включая "думающие" модели) прямо в браузере через WebGPU. Никаких API-ключей и облаков, всё шуршит на твоем GPU.

🔛 Готовые проекты для iOS (Swift) и Android (Kotlin). Хочешь свой локальный ChatGPT, который не сливает переписку? Бери за основу их LeapChat.

🔛 Обработка аудио в реальном времени (LFM2-Audio) и разбор инвойсов по фото (LFM2-VL) на моделях смешного размера (от 1.2B до 3B параметров), которые выдают результат уровня гигантов.

🔛Ноутбуки для дообучения через Unsloth и GRPO (привет, OpenAI o1 стиль рассуждений). Можно быстро натаскать модель под специфический домен.

🔗 Заглянуть в репозиторий: https://clc.to/1BVkhw

📍 Навигация: ВакансииЗадачиСобесы

Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31😢1🤩1
Media is too big
VIEW IN TELEGRAM
👀 Интерактивный 3D-разбор LLM

Cамый наглядный способ понять устройство больших языковых моделей (LLM) через глубокую 3D-визуализацию.

🔗 Попробовать: https://clc.to/kmCVsw

📍 Навигация: ВакансииЗадачиСобесы

Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31😢1
🏛️ MIT выложил свою AI-библиотеку бесплатно

Это не просто статьи — это база, на которой построены OpenAI, Google DeepMind и Anthropic. Если вы хотели серьезно зайти в ИИ, это ваш знак.

🧭 Навигация по библиотеке:

1. Фундамент (Для старта):

Foundations of Machine Learning — база алгоритмов.
Understanding Deep Learning — самый наглядный современный учебник. Если пугает математика, начинайте здесь.
Algorithms for ML — как устроены «внутренности» моделей.

2. Глубокое обучение (Deep Learning):

Deep Learning — легендарная «библия» DL. По ней училось всё нынешнее поколение топ-инженеров.
Probabilistic ML — всё о том, как заставить ИИ работать с неопределенностью.

3. Обучение с подкреплением (RL) — разум машин:

RL Basics — абсолютный стандарт. Без этой книги в RL делать нечего.
Multi-Agent Systems — как обучать целые группы агентов взаимодействовать друг с другом.

4. Этика и будущее:

Fairness in ML — как избежать предвзятости и сделать ИИ справедливым.

📌 Чтобы не потерять вакансии и анонсы — добавь папку

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥144👍2🎉2🙏2
🛠 Git Submodules: как не плодить копипасту в ML-проектах

Представьте: у вас три команды (Fraud Detection, Credit Scoring и Trading). Всем им нужна одна и та же функция calculate_risk_score().

Обычно это превращается в кошмар:
1. Команды копируют код себе.
2. Одна команда находит баг и исправляет его.
3. Остальные два проекта остаются с багами, потому что даже не знают об исправлении.

Итог: «расползание» версий (version drift) и ошибки в продакшене.

Решение: Git Submodules

Это способ вставить одну Git-репозиторий внутрь другого как подпапку. Вы не копируете код, а ссылаетесь на конкретный коммит в общем репозитории библиотек.

🚀 Шпаргалка по командам

1. Добавить общую библиотеку в проект:

git submodule add https://github.com/user/ml-utils.git ml-utils



Это создаст папку ml-utils/ и файл .gitmodules, где прописана ссылка на репозиторий.

2. Клонировать проект со всеми зависимостями:

Если вы просто сделаете git clone, папка с сабмодулем будет пустой. Нужно так:

git clone --recurse-submodules https://github.com/user/main-project.git



3. Обновить общие утилиты до последней версии:

git submodule update --remote ml-utils
git add ml-utils
git commit -m "Update shared ML utils"


📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍84🙏3🎉1
🎓 PaperDebugger: личный ИИ-соавтор прямо в Overleaf

Написание научной статьи — это бесконечный цикл правок и споров с «Рецензентом №2». Проект PaperDebugger ломает эту стену, внедряя продвинутого ИИ-ассистента прямо в редактор Overleaf.

В основе проекта лежит уникальный движок на базе MCP (Model Context Protocol). Он имитирует полный рабочий процесс ученого: Исследование → Критика → Ревизия.

Основные фишки:
— Работает как расширение Chrome. Читает ваш проект и дает советы, не выходя из вкладки.
— Модель анализирует текст глазами строгого рецензента конференции.
— Проверка цитат, верификация литературы и глубокая работа с предметной областью.
— Инструмент только читает ваш код и предлагает правки. Окончательное решение и вставка — всегда за вами (Instant Insert).

🔗 Репозиторий проекта: https://clc.to/rfexYQ

📍 Навигация: ВакансииЗадачиСобесы

Библиотека дата-сайентиста

#буст
5👍2🥰2
🐼 Шпаргалка по Pandas: как не завалить секцию Live Coding

Разбираем основные шаги подготовки.

🏗 Шаг 1: Доступ и чистка данных

Прежде чем анализировать, нужно «причесать» датафрейм.

`.loc` vs `.iloc`: Запомните раз и навсегда — .loc работает с текстовыми метками (названия столбцов и индексов), а .iloc — строго по целочисленным позициям.
— Если числа ведут себя как текст, используйте .astype(int) или float для явного преобразования.
— Используйте .isnull() для поиска пропусков и .dropna(), если решили радикально избавиться от строк с NaN.

🔄 Шаг 2: Трансформация и анализ

`.apply()` : позволяет прогнать любую пользовательскую функцию через каждую строку или столбец.
`.groupby()` : разбивает данные на группы (например, по категориям), чтобы вы могли применить агрегацию: sum(), count() или mean().
`.pivot_table()` : создает сводные таблицы в стиле Excel для быстрой оценки больших наборов данных по нескольким измерениям.

💡 Топ-3 совета для интервью

1. Не забывайте про inplace=True** (или переопределение переменной), иначе ваши изменения не сохранятся.
2. Всегда предпочитайте встроенные методы Pandas обычному циклу for.
3. После .dropna() или фильтрации часто полезно сделать .reset_index().

А какой метод в Pandas ваш самый любимый? Или, может, вы уже перешли на Polars? Пишите в комментариях!

📍 Навигация: ВакансииЗадачиСобесы

Библиотека дата-сайентиста

#буст
6👍6🥰4
ML_Notes.pdf
2.8 MB
🎓 Лекции: математические основы машинного обучения

Краткий конспект лекций для тех, кто хочет понимать машинное обучение на уровне теории.

➡️ Без кода — только ключевые математические идеи.

📍 Навигация: ВакансииЗадачиСобесы

Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41
👍 На курсе по контролируемой разработке AI-агентов мы будем разбирать ровно то, о чём говорит Владислав в голосовом, но уже в формате системной практики.

📅 Старт курса — 20 апреля.

Если хотите разобраться, как строить управляемые агентные системы:
➡️ Присоединяйтесь.

P.S. С первого занятия будет практика: код и разбор реальных ошибок, а не только теория.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔄 Статистические связи в Data Science

Понимание того, как переменные «общаются» друг с другом — фундамент для построения точных моделей. Без этого анализа вы рискуете обучить модель на случайных шумах.

1. Ковариация vs Корреляция

Хотя оба термина описывают взаимосвязь, они решают разные задачи:
➡️ Ковариация (Cov): Показывает направление связи. Если значение > 0 — переменные растут вместе, если < 0 — одна растет, другая падает.

Минус: сильно зависит от масштаба данных (метры или километры), поэтому её сложно сравнивать между разными датасетами.

➡️ Корреляция (ρ): Это «причесанная» ковариация. Показывает силу связи в строгом диапазоне от -1 до 1.

Плюс: не зависит от единиц измерения.

2. Анализ временных рядов (Time Series)

Когда данные зависят от времени, обычного скаттер-плота мало. Здесь в игру вступают специфические инструменты:

➡️ ACF (Автокорреляция): Насколько сильно прошлые значения влияют на текущие. Помогает найти циклы и сезонность.

➡️ PACF (Частичная автокорреляция): Изолирует прямое влияние конкретного временного лага, убирая «эхо» промежуточных шагов.

➡️ CCF (Кросс-корреляция): Поиск связи между двумя разными рядами (например, как реклама сегодня влияет на продажи через неделю).

📍 Навигация: ВакансииЗадачиСобесы

Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🥰31🎉1🙏1
📊 EDA в терминале: зачем Data Scientist’у нужен Chartli

Когда вы работаете на удаленном сервере через SSH или копаетесь в логах весом в несколько гигабайт, выгружать данные в локальный Jupyter Notebook для простого plt.show() — это долго. Chartli позволяет увидеть распределение или тренд, не покидая консоль.

🛠 Почему это удобно для DS

1. Быстрая проверка гипотез

Нужно понять, есть ли сезонность в логах или не «поплыли» ли веса модели? Просто пробросьте данные через пайп:

cat training_loss.txt | npx chartli -t spark




2. Поддержка многомерных данных

Если у вас есть матрица корреляций или веса слоев, используйте режим Heatmap:

npx chartli matrix.txt -t heatmap



3. Визуализация без графического окружения:
В отличие от Matplotlib, которому нужен X-сервер или сохранение в файл, Chartli использует Unicode и Braille (символы Брайля) для отрисовки графиков с удивительно высокой детализацией прямо в сетке символов.

💡 Лайфхак для Pandas

Вы можете интегрировать Chartli прямо в свои скрипты через os.system или просто выводить данные в stdout, чтобы быстро взглянуть на них через CLI:

import pandas as pd
df = pd.read_csv('data.csv')
# Вывод колонки в текстовый файл для chartli
df['target'].to_csv('target.txt', index=False, header=False)



И затем в терминале: npx chartli target.txt -t braille -h 10

📂 Проект на GitHub: https://clc.to/-Pk5bw

📍 Навигация: ВакансииЗадачиСобесы

Библиотека дата-сайентиста

#буст
5👍4🥰1