Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение – Telegram

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

18.7K subscribers

2.57K photos

137 videos

82 files

5.07K links

Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по Ai-агентам: https://clc.to/9L0Tqg

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9

Download Telegram

About

Blog

Apps

Platform

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

18.7K subscribers

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🏛️ MIT выложил свою AI-библиотеку бесплатно

Это не просто статьи — это база, на которой построены OpenAI, Google DeepMind и Anthropic. Если вы хотели серьезно зайти в ИИ, это ваш знак.

🧭 Навигация по библиотеке:

1. Фундамент (Для старта):

Foundations of Machine Learning — база алгоритмов.
Understanding Deep Learning — самый наглядный современный учебник. Если пугает математика, начинайте здесь.
Algorithms for ML — как устроены «внутренности» моделей.

2. Глубокое обучение (Deep Learning):

Deep Learning — легендарная «библия» DL. По ней училось всё нынешнее поколение топ-инженеров.
Probabilistic ML — всё о том, как заставить ИИ работать с неопределенностью.

3. Обучение с подкреплением (RL) — разум машин:

RL Basics — абсолютный стандарт. Без этой книги в RL делать нечего.
Multi-Agent Systems — как обучать целые группы агентов взаимодействовать друг с другом.

4. Этика и будущее:

Fairness in ML — как избежать предвзятости и сделать ИИ справедливым.

📌

Чтобы не потерять вакансии и анонсы — добавь папку

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥14❤4👍2🎉2🙏2

2.63K viewsedited 12:32

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🛠 Git Submodules: как не плодить копипасту в ML-проектах

Представьте: у вас три команды (Fraud Detection, Credit Scoring и Trading). Всем им нужна одна и та же функция calculate_risk_score().

Обычно это превращается в кошмар:
1. Команды копируют код себе.
2. Одна команда находит баг и исправляет его.
3. Остальные два проекта остаются с багами, потому что даже не знают об исправлении.

Итог: «расползание» версий (version drift) и ошибки в продакшене.

✅ Решение: Git Submodules

Это способ вставить одну Git-репозиторий внутрь другого как подпапку. Вы не копируете код, а ссылаетесь на конкретный коммит в общем репозитории библиотек.

🚀 Шпаргалка по командам

1. Добавить общую библиотеку в проект:


git submodule add https://github.com/user/ml-utils.git ml-utils

Это создаст папку ml-utils/ и файл .gitmodules, где прописана ссылка на репозиторий.

2. Клонировать проект со всеми зависимостями:

Если вы просто сделаете git clone, папка с сабмодулем будет пустой. Нужно так:


git clone --recurse-submodules https://github.com/user/main-project.git

3. Обновить общие утилиты до последней версии:


git submodule update --remote ml-utils
git add ml-utils
git commit -m "Update shared ML utils"

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤4🙏3🎉1

4.6K viewsedited 19:43

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎓 PaperDebugger: личный ИИ-соавтор прямо в Overleaf

Написание научной статьи — это бесконечный цикл правок и споров с «Рецензентом №2». Проект PaperDebugger ломает эту стену, внедряя продвинутого ИИ-ассистента прямо в редактор Overleaf.

В основе проекта лежит уникальный движок на базе MCP (Model Context Protocol). Он имитирует полный рабочий процесс ученого: Исследование → Критика → Ревизия.

Основные фишки:
— Работает как расширение Chrome. Читает ваш проект и дает советы, не выходя из вкладки.
— Модель анализирует текст глазами строгого рецензента конференции.
— Проверка цитат, верификация литературы и глубокая работа с предметной областью.
— Инструмент только читает ваш код и предлагает правки. Окончательное решение и вставка — всегда за вами (Instant Insert).

🔗 Репозиторий проекта: https://clc.to/rfexYQ

📍 Навигация: Вакансии • Задачи • Собесы

Библиотека дата-сайентиста

#буст

❤5👍2🥰2

2.03K views11:29

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐼 Шпаргалка по Pandas: как не завалить секцию Live Coding

Разбираем основные шаги подготовки.

🏗 Шаг 1: Доступ и чистка данных

Прежде чем анализировать, нужно «причесать» датафрейм.

— `.loc` vs `.iloc`: Запомните раз и навсегда — .loc работает с текстовыми метками (названия столбцов и индексов), а .iloc — строго по целочисленным позициям.
— Если числа ведут себя как текст, используйте .astype(int) или float для явного преобразования.
— Используйте .isnull() для поиска пропусков и .dropna(), если решили радикально избавиться от строк с NaN.

🔄 Шаг 2: Трансформация и анализ

— `.apply()` : позволяет прогнать любую пользовательскую функцию через каждую строку или столбец.
— `.groupby()` : разбивает данные на группы (например, по категориям), чтобы вы могли применить агрегацию: sum(), count() или mean().
— `.pivot_table()` : создает сводные таблицы в стиле Excel для быстрой оценки больших наборов данных по нескольким измерениям.

💡 Топ-3 совета для интервью

1. Не забывайте про inplace=True** (или переопределение переменной), иначе ваши изменения не сохранятся.
2. Всегда предпочитайте встроенные методы Pandas обычному циклу for.
3. После .dropna() или фильтрации часто полезно сделать .reset_index().

А какой метод в Pandas ваш самый любимый? Или, может, вы уже перешли на Polars? Пишите в комментариях!

📍 Навигация: Вакансии • Задачи • Собесы

Библиотека дата-сайентиста

#буст

❤6👍6🥰4

1.97K viewsedited 19:34

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎓 Лекции: математические основы машинного обучения

Краткий конспект лекций для тех, кто хочет понимать машинное обучение на уровне теории.

➡️ Без кода — только ключевые математические идеи.

📍 Навигация: Вакансии • Задачи • Собесы

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1

2.03K views11:51

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

0:59

1.78K views14:43

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👍

На курсе по контролируемой разработке AI-агентов мы будем разбирать ровно то, о чём говорит Владислав в голосовом, но уже в формате системной практики.

📅 Старт курса — 20 апреля.

Если хотите разобраться, как строить управляемые агентные системы:
➡️ Присоединяйтесь.

P.S. С первого занятия будет практика: код и разбор реальных ошибок, а не только теория.

Please open Telegram to view this post

VIEW IN TELEGRAM

1.69K views14:43

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔄 Статистические связи в Data Science

Понимание того, как переменные «общаются» друг с другом — фундамент для построения точных моделей. Без этого анализа вы рискуете обучить модель на случайных шумах.

1. Ковариация vs Корреляция

Хотя оба термина описывают взаимосвязь, они решают разные задачи:
➡️ Ковариация (Cov): Показывает направление связи. Если значение > 0 — переменные растут вместе, если < 0 — одна растет, другая падает.

Минус: сильно зависит от масштаба данных (метры или километры), поэтому её сложно сравнивать между разными датасетами.

➡️ Корреляция (ρ): Это «причесанная» ковариация. Показывает силу связи в строгом диапазоне от -1 до 1.

Плюс: не зависит от единиц измерения.

2. Анализ временных рядов (Time Series)

Когда данные зависят от времени, обычного скаттер-плота мало. Здесь в игру вступают специфические инструменты:

➡️ ACF (Автокорреляция): Насколько сильно прошлые значения влияют на текущие. Помогает найти циклы и сезонность.

➡️ PACF (Частичная автокорреляция): Изолирует прямое влияние конкретного временного лага, убирая «эхо» промежуточных шагов.

➡️ CCF (Кросс-корреляция): Поиск связи между двумя разными рядами (например, как реклама сегодня влияет на продажи через неделю).

📍 Навигация: Вакансии • Задачи • Собесы

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🥰3❤1🎉1🙏1

1.74K views19:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📊 EDA в терминале: зачем Data Scientist’у нужен Chartli

Когда вы работаете на удаленном сервере через SSH или копаетесь в логах весом в несколько гигабайт, выгружать данные в локальный Jupyter Notebook для простого plt.show() — это долго. Chartli позволяет увидеть распределение или тренд, не покидая консоль.

🛠 Почему это удобно для DS

1. Быстрая проверка гипотез

Нужно понять, есть ли сезонность в логах или не «поплыли» ли веса модели? Просто пробросьте данные через пайп:


cat training_loss.txt | npx chartli -t spark

2. Поддержка многомерных данных

Если у вас есть матрица корреляций или веса слоев, используйте режим Heatmap:


npx chartli matrix.txt -t heatmap

3. Визуализация без графического окружения:
В отличие от Matplotlib, которому нужен X-сервер или сохранение в файл, Chartli использует Unicode и Braille (символы Брайля) для отрисовки графиков с удивительно высокой детализацией прямо в сетке символов.

💡 Лайфхак для Pandas

Вы можете интегрировать Chartli прямо в свои скрипты через os.system или просто выводить данные в stdout, чтобы быстро взглянуть на них через CLI:


import pandas as pd
df = pd.read_csv('data.csv')
# Вывод колонки в текстовый файл для chartli
df['target'].to_csv('target.txt', index=False, header=False)

И затем в терминале: npx chartli target.txt -t braille -h 10

📂 Проект на GitHub: https://clc.to/-Pk5bw

📍 Навигация: Вакансии • Задачи • Собесы

Библиотека дата-сайентиста

#буст

❤5👍4🥰1

1.71K views12:07

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 Встречайте GPT-5.4: новый стандарт профессионального ИИ

OpenAI представила GPT-5.4 — свою самую мощную модель, ориентированную на сложную офисную работу, программирование и автономное выполнение задач.

GPT-5.4 объединяет лучшие качества предыдущих моделей (включая Codex) в единую систему:
— Модель справляется с профессиональными задачами (презентации, таблицы, юридический анализ) на уровне экспертов в 83% случаев.
— Ошибки в фактах сократились на 33% по сравнению с GPT-5.2.
— В ChatGPT теперь виден план рассуждений в реальном времени, и вы можете скорректировать его «на лету».

🖥 Native Computer Use (Управление компьютером)

Это главный прорыв релиза. GPT-5.4 — первая модель с нативной способностью управлять вашим ПК:
— Она видит скриншоты и понимает интерфейс приложений.
— Может сама двигать мышью, печатать текст и выполнять многошаговые действия (например, собрать данные из почты, занести их в Excel и отправить отчет).
— Уровень успеха в навигации по ОС вырос с 47% до 75%, обогнав средние показатели человека (72%).

🔗 Полный релиз

📍 Навигация: Вакансии • Задачи • Собесы

Библиотека дата-сайентиста

#буст

👍3❤2🤩1

1.86K viewsedited 18:14

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение pinned a photo

19:38

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Media is too big

VIEW IN TELEGRAM

🗺

Интерактивная карта: основные пути ML Engineer 2026

Путь разделен на логические блоки, от математики до MLOps. Стандарт для тех, кто хочет структурировать свое обучение.

🔗 Ссылка на карту: https://clc.to/6qGdwg

📍 Навигация: Вакансии • Задачи • Собесы

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤3🙏2

1.58K views14:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💥 Открытый вебинар | ИИ-агенты в продакшене: от хайпа к деньгам

Агенты уже везде. Но мало кто признаётся, сколько денег сжёг на бесконечных циклах, галлюцинациях в RAG и отсутствии мониторинга.

Полина Полунина, руководитель AI-направления Альфа-Банка, расскажет честно:

▪️ Чем агент отличается от «просто GPT с промптом» и когда бизнесу достаточно обычного LLM
▪️ 3 реальных кейса из корпоративной среды: что взлетело, а что нет
▪️ Live-демо работающего агента
▪️ ТОП-5 граблей, на которые наступают команды при внедрении

⏱️ 10 марта в 19:00 (МСК)

🎁 Участники получат промокод на скидку на самый полный курс по ИИ-агентам

👉 Регистрируйся

🔥3❤1🥰1😢1🙏1

1.52K views17:27

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека питониста | Python, Django, Flask

🐼 Pandas: 4 фатальные ошибки, которые делают 51% разработчиков

Даже в 2026 году Pandas остается главной «головной болью» Python-разработчика. С выходом версий 2.x и 3.x правила игры изменились.

1. Итерация по строкам

❌ iterrows() — забудьте о нем. Он конвертирует каждую строку в pd.Series, создавая дикий overhead.
✅ itertuples() — если цикл неизбежен, он быстрее в 10–100 раз.
✅ Векторизация (np.where) — в 4000 раз быстрее.

> DS-совет: Если логика сложнее обычного сложения — используйте .apply(), но стремитесь к векторизации через NumPy.

2. Переименование

✅

.rename(columns=...) — самый безопасный путь. Не ломается при изменении схемы.

✅

.str.lower().str.replace() — лучший способ массово привести колонки к snake_case.

✅

add_prefix() — спасение при сложных merge, когда нужно быстро разделить признаки из разных таблиц.

3. Война с NaN

NaN — это не просто пустая ячейка, это сигнал о проблеме в данных.

✅ Диагностика: df.isna().sum() — база.
✅ ffill() / bfill() — критически важны для временных рядов (Time Series), чтобы не терять динамику.
✅ fillna(median) — классика для ML-пайплайнов, но всегда проверяйте природу пропусков. Иногда dropna(subset=[...]) — единственный честный путь.

4. Фильтрация

✅ Булевы маски: df[(df['A'] > 0) & (df['B'] < 1)] — классика. Важно: забудьте скобки — получите ошибку приоритета.

✅

`.query()` — читается как SQL, поддерживает переменные через @. Идеально для длинных условий.

✅

.loc[] — единственный верный способ, если нужно одновременно отфильтровать строки и выбрать колонки.

🔗 Ссылка на пост

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека питониста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍12🤩1

1.32K views13:50

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

ML_сборник.pdf

Если хочется не просто запускать model.fit(), а понимать математику ML, посмотрите книгу “Pen & Paper Exercises in Machine Learning”.

Это сборник задач с решениями, где вы на бумаге разбираете:
• оптимизацию и линейную алгебру
• графические модели
• Variational Inference
• Monte-Carlo методы

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека питониста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10🥰4👍2

1.44K views19:51

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕

AgentHub: новый проект от Андрея Карпати

Андрей Карпати опубликовал репозиторий AgentHub. Это серверная часть для координации «роев» ИИ-агентов. Главная идея: существующие инструменты вроде GitHub удобны для людей, но ограничивают потенциал нейросетей.

Проблема классического Git

Когда над кодом работают люди, нам нужна структура: ветки, постепенное слияние (merge) и одна «правильная» версия проекта. Но если код пишут тысячи агентов, такая линейная логика становится проблемой.

👇

Как это устроено в AgentHub

1. Хаос как стратегия
Вместо того чтобы ждать одобрения PR, агенты в AgentHub просто пушат код во всех направлениях сразу. Проект превращается в гигантское дерево (граф), где каждая ветка — это отдельный эксперимент. Сервер просто отслеживает «листья» — крайние точки, от которых еще никто не пробовал строить продолжение.

2. Код + Общение
Агенты не просто пишут код, они пользуются встроенной «доской объявлений». Один агент может запостить: «Я попробовал изменить эти параметры, точность упала». Другие агенты считывают это и не тратят ресурсы на заведомо ложный путь. Это превращает группу ботов в самообучающееся сообщество.

➡️Первый кейс использования — AutoResearch. Это система, где ИИ-агенты сами пытаются улучшить алгоритмы обучения других нейросетей. AgentHub берет на себя всю «грязную работу» по синхронизации их усилий.

🔗

Ссылка на проект: https://clc.to/7Iq0RA

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

1.22K viewsedited 12:57

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

⏳ Часовая готовность: создаём ИИ-агента в прямом эфире

В 19:00 МСК в рамках нашего курса «Разработка AI-агентов» стартует вебинар «ИИ-агенты в продакшене: от хайпа к деньгам». Спикер — Полина Полунина, руководитель AI-направления в Альфа-Банке.

Будет live-демо работающего агента, реальные метрики из корпоративной среды и честный разбор архитектурных граблей — без воды и «успешного успеха».

Всем зрителям эфира дадим эксклюзивный промокод AGENTS на скидку 10 000 ₽ на любой тариф курса.

👉 Занять место на вебинаре

1.22K views15:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Media is too big

VIEW IN TELEGRAM

🗺️ Дорожная карта ML 2026

Репозиторий разбит на 5 логических блоков, которые можно проходить последовательно или выборочно:

1️⃣

База (Prerequisites)

Математика: Khan Academy и визуализации бэкпропа (обратного распространения ошибки) от Google.
Инструменты: NumPy, Pandas и база по Git/Shell.

2️⃣

Фундамент ML

Crash Course от Google: Регрессия, нейронки и эмбеддинги.
Reinforcement Learning: От основ OpenAI до современного RLHF (того самого обучения на отзывах людей, которое оживило ChatGPT).

3️⃣

Эпоха LLM и Агентов (Самое актуальное)

Intro от Карпати: Маст-хэв для понимания, как работают трансформеры.
Reasoning: Как работают модели-рассуждатели (вроде OpenAI o1).
Agentic RAG: Как строить системы, которые не просто ищут информацию, а действуют.

4️⃣

Инженерия и MLOps

Fine-tuning: Как дообучать модели под свои задачи (LoRA, PEFT).
MCP (Model Context Protocol): Как подключать ИИ к внешним инструментам и базам данных.
Эффективность: Как выжимать максимум из GPU.

5️⃣

Подготовка к интервью

Сборники задач по системному дизайну ИИ и планы подготовки к собесам в бигтех.

➡️ В гайд встроена поддержка AI-агентов (Claude Code, Cursor, Gemini CLI). Вы можете просто загрузить репозиторий в свой любимый редактор, и агент сам составит вам план тренировок, найдет нужные статьи и создаст проверочные упражнения.

🔗

Ссылка на репозиторий: https://clc.to/aAtT_g

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека питониста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9🔥3😢2❤1🙏1

1.24K views19:01

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🛠 MessyData: генератор «грязных» синтетических данных

MessyData позволяет создавать реалистичные датафреймы, намеренно внедряя в них аномалии: пропуски, дубликаты, некорректные категории и выбросы. Это идеальный инструмент для проверки качества данных (Data Quality) и обучения моделей на устойчивость к шуму.

Установка:


uv pip install messydata
# или
pip install messydata

Суть библиотеки в декларативном подходе. Вы описываете схему данных в YAML, а MessyData превращает её в Pandas DataFrame.

Пример конфига (`config.yaml`):


name: sales_data
primary_key: transaction_id
records_per_primary_key:
  type: uniform
  min: 1
  max: 3
anomalies:
  - name: missing_values
    prob: 1.0   # инжектить всегда
    rate: 0.1   # 10% пропусков
    columns: any
fields:
  - name: transaction_id
    dtype: int32
    distribution:
      type: sequential
      start: 100
  - name: price
    dtype: float32
    distribution:
      type: lognormal
      mu: 4.0
      sigma: 0.5

Запуск в Python:


from messydata import Pipeline

pipeline = Pipeline.from_config("config.yaml")
df = pipeline.run(n_rows=1000, seed=42)

print(df.isna().sum()) # Проверяем внедренные пропуски

🔗 Github

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека питониста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4❤1🥰1

896 views12:34

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 6 векторных БД, которые должен знать каждый RAG-инженер

Если вы работаете с LLM, семантическим поиском или рекомендательными системами, выбор правильного хранилища векторов — это 50% успеха вашего проекта.

Разбираем топовые решения для разных задач.

1. Pinecone

Полностью управляемая облачная БД корпоративного уровня.

Плюсы: Zero infrastructure (серверы — не ваша забота), масштабируемость.
Лучший выбор для: Крупных продакшн-систем.

2. Chroma

Open-source база, которая встраивается прямо в ваше приложение.

Плюсы: Запускается локально (in-process), Python-native (всего 3 строчки кода для старта).
Лучший выбор для: Быстрого прототипирования и локальной разработки.

3. Weaviate

Мощная база с открытым кодом для текста, изображений и структурированных данных.

Плюсы: Нативная мультимодальность, гибридный поиск (GraphQL + векторный).
Лучший выбор для: Сложных мультимодальных RAG-систем.

4. Qdrant

Векторный движок на Rust, оптимизированный под экстремальные нагрузки.

Плюсы: Фильтрация метаданных (payload) во время запроса, самая высокая производительность на CPU.
Лучший выбор для: Высокопроизводительных систем (High Performance).

5. FAISS (от Meta*)

Библиотека для эффективного поиска сходства в плотных векторах.

Плюсы: GPU-ускорение, не требует сервера (просто Python-библиотека).
Лучший выбор для: Оффлайн-исследований и работы со статичными датасетами.

6. Redis Vector

In-memory поиск для приложений реального времени.

Плюсы: Подмиллисекундная задержка, объединяет кэширование и векторный поиск.
Лучший выбор для: Приложений с низким временем отклика (Low Latency).

А какую базу для векторов используете вы в своих проектах? Делитесь опытом в комментариях! 👇

*Meta признана экстремистской организацией в РФ.

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека питониста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤3

657 views11:27