Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.57K photos
137 videos
82 files
5.07K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по Ai-агентам: https://clc.to/9L0Tqg

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🛠 Python Itertools: как перестать писать вложенные циклы в Data Science

Модуль itertools — это набор «боевых» инструментов Python, которые делают перебор данных быстрым и элегантным.

Разбираем 5 самых полезных функций для DS-проектов.

1️⃣ combinations() — Ищем взаимодействия признаков

Вместо того чтобы вручную перебирать пары колонок для поиска зависимостей, используйте combinations. Она создаст все уникальные пары без повторений и учета порядка.

combinations(['A','B','C'], 2)(A,B), (A,C), (B,C)

2️⃣ combinations_with_replacement() — Полиномиальные признаки

Если вам нужны не только взаимодействия, но и квадраты признаков (например, для линейной регрессии), эта функция — маст-хэв. Она добавит к списку комбинаций пары самих с собой.

combinations_with_replacement(['A','B'], 2)(A,A), (A,B), (B,B)

3️⃣ permutations() — Когда порядок важен

Идеально для анализа последовательностей действий пользователей (например, login -> browse -> purchase`).

В отличие от комбинаций, здесь `(A, B) и (B, A) — это разные сущности.

4️⃣ product() — Декартово произведение

Нужно создать все возможные сочетания категориальных переменных (например, Level [Master, PhD] x City [NY, SF]`)? `product заменяет любое количество вложенных циклов.

product(['A','B'], [1, 2])(A,1), (A,2), (B,1), (B,2)

5️⃣ islice() — Умная нарезка данных

Если у вас гигантский датасет или итератор, и вы хотите взять только первые 100 строк для прототипа, не загружая всё в память — используйте islice.

Это работает как обычные срезы [start:stop], но для ленивых вычислений.

💻 Мини-шпаргалка по коду:

from itertools import combinations, product

features = ['age', 'income', 'experience']

# 1. Генерация взаимодействий
interactions = list(combinations(features, 2))

# 2. Сетка параметров для модели
params = {
'batch_size': [16, 32],
'lr': [0.01, 0.001]
}
grid = list(product(*params.values()))


📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🤩2
Мы собрали 8 базовых команд, которые закрывают 90% повседневных задач аналитика.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2😁1
🚫 Нейросети на чистом Python без библиотек

No-magic — это коллекция алгоритмов современного ИИ, написанных в одном файле и без единой внешней зависимости.

Репозиторий разбит на три логических блока:


⚡️ 01 — Foundations: База. GPT, BERT, CNN, диффузионные модели, эмбеддинги и токенизация.
⚡️ 02 — Alignment & Fine-tuning: Техники дообучения. LoRA, QLoRA, алгоритмы выравнивания (PPO, DPO) и MoE (Mix of Experts).
⚡️ 03 — Systems & Inference: KV-кэш, Flash Attention, квантование и роторные эмбеддинги (RoPE).

🔗 Заглянуть в «капот» ИИ: https://clc.to/3yI9yA

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍3😢1
📚 Топовый учебник по ИИ

Нестандартный Open Source учебник, который написан максимально по-человечески.

Автор — практик, который годами вел конспекты «для своих», объясняя всё на пальцах и на интуиции.

🔗 Ссылка на проект: https://clc.to/BWjLIA

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42
Твоя модель хороша в ноутбуке, но падает в проде?

Переход от model.fit() к рабочей агентной системе — это боль. В 2026-м недостаточно просто обучить модель, нужно заставить её работать предсказуемо. Мы пересобрали курс «Разработка AI-агентов» с упором на MLOps и инжиниринг.

Что внутри?

🔹 Метрики и эвалюация. Как измерить качество работы агента? Учим настраивать автоматическую оценку, выявлять галлюцинации и предотвращать регрессии.

🔹 Advanced RAG. Работа со сложными источниками (таблицы, сканы), улучшение ретривала и семантический поиск высокого уровня.

🔹 Архитектура. Управление ресурсами, кэширование, трассировка ошибок и оптимизация костов.

🔹 LangGraph PRO. Оркестрация агентов, time-travel и Human-in-the-loop.

Стартуй сейчас!
Материалы доступны сразу после покупки.

🎟 Промокод Agent — скидка 10 000 ₽ (до 28 февраля).

👉 Научиться строить продакшн-системы
3🙏1
Архитектура.png
5.9 MB
🤖 Разбор архитектуры microGPT

Недавно мы обсуждали громкий релиз от Андрея Карпати — его «арт-проект» microGPT. Это всего 243 строки на чистом Python, в которых уместился полный цикл обучения и работы языковой модели без единой внешней библиотеки.

Теперь давайте заглянем «под капот» этой архитектуры чуть подробнее:
⚡️ Собственный Autograd: Вместо PyTorch используется класс Value, который вручную реализует обратное распространение ошибки через скалярные вычисления.
⚡️Токенизатор «на минималках»: Текст разбивается просто по символам, где каждому знаку соответствует свой ID.
⚡️Трансформер-блок:
🔸 RMSNorm вместо привычного LayerNorm для стабилизации.
🔸 Multi-head Attention (4 головы), где модель учится контекстным связям между символами.
🔸 MLP (многослойный перцептрон) с активацией squared ReLU — именно здесь происходит основная «мыслительная» работа сети.
⚡️ Оптимизатор Adam: Также написан с нуля на чистом Python для обновления весов модели.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
3🥰2😢2🤩2
🏆 Экосистема Data & AI

Современный стек AI растет с невероятной скоростью.

Чтобы не утонуть в инструментах, мы подготовили структурированный гайд по ключевым слоям разработки, объединив теорию, практику и безопасность.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3🤔1
⚡️ Zvec: SQLite в мире векторных баз данных

Если вам нужен векторный поиск в приложении, но разворачивать ради этого тяжелый кластер или отдельный сервер (вроде Pinecone или Milvus) — это перебор, то Zvec — идеальное решение.

Это встраиваемая (in-process) векторная база данных, которая работает прямо внутри вашего кода. Построена на базе Proxima (проверенный движок от Alibaba), что дает промышленную скорость и надежность при минимальных усилиях.

Пример на Python (займет меньше минуты):

import zvec

# 1. Создаем схему коллекции
schema = zvec.CollectionSchema(
name="simple_index",
vectors=zvec.VectorSchema("embedding", zvec.DataType.VECTOR_FP32, 4),
)

# 2. Инициализируем базу локально
db = zvec.create_and_open(path="./my_zvec", schema=schema)

# 3. Добавляем данные
db.insert([
zvec.Doc(id="id_1", vectors={"embedding": [0.1, 0.2, 0.3, 0.4]}),
])

# 4. Ищем похожие
results = db.query(
zvec.VectorQuery("embedding", vector=[0.4, 0.3, 0.3, 0.1]),
topk=5
)
print(results)



Где использовать:
▪️ Локальные RAG-системы.
▪️ CLI-инструменты с умным поиском.
▪️ Edge-устройства и мобильные приложения.
▪️ Ноутбуки (Jupyter/Colab) для быстрых экспериментов.

📦 Установка:
pip install zvec (Python)
npm install @zvec/zvec (Node.js)

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🙏21😢1
Пора закрывать Jupyter Notebook и выводить LLM в продакшн

Обучить модель — только половина дела. Настоящая боль Data Science в 2026 году — это заставить ИИ-агента стабильно работать в реальном бизнесе, не галлюцинируя и не сжигая ресурсы.

Мы радикально обновили курс по AI-агентам. Теперь фокус смещён с базовых концепций на суровый MLOps и управляемый инжиниринг: метрики производительности, устранение регрессий и экономику токенов.

В программе обновлённого потока:

— RAG промышленного уровня: сложные пайплайны извлечения данных из таблиц и сканов;
— оркестрация на LangGraph: управление состояниями, откат на контрольные точки (time-travel);
— экономика агентов: лимитирование действий, кэширование и умный роутинг запросов;
— мониторинг: оценка качества генерации, логирование и отлов аномалий;
— комплаенс: интеграция LLM в закрытые контуры с учётом 152-ФЗ.

Успейте до 28 февраля — по промокоду Agent применяется скидка 10 000 рублей.

Сейчас активна акция «3 курса по цене 1»: забирайте агентов и ещё два курса в подарок.

Перейти на уровень Production-Ready
1🔥1🤩1
📈 От экспериментов в Jupyter к управляемым AI-системам в продакшене

Главная проблема современных агентов — непредсказуемость. Как измерить качество, избежать регрессий и оптимизировать RAG для работы с «грязными» данными? В новом запуске курса мы сделали упор на измеримость и промышленный подход.

📚 В обновлённой программе:

— продвинутый RAG: практические рекомендации по подготовке данных и продвинутые методы поиска;
— метрики и оценка: тестирование производительности и выявление деградации моделей;
— управление ресурсами: токены, кэширование и роутинг как инженерная дисциплина;
human-in-the-loop: интеграция человека в цепочки принятия решений LangGraph.

Материалы для предварительной подготовки доступны сразу — приступайте к изучению актуальных инструментов 2026 года.

Специальные условия до 28 февраля:

— введите промокод Agent для получения скидки 10 000 рублей**;
— участвуйте в **акции «3 курса по цене 1» — выберите два любых курса в дополнение к основному.

👉 Получить доступ к курсу и подаркам
3👍1
Чтобы не гадать, почему упала точность модели, подготовили для вас шпаргалку по мониторингу и борьбе с дрейфом данных.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
15😢3🎉2👍1
🆕 Свежие новости для дата‑сайентистов

Lockdown Mode в ChatGPT
OpenAI добавили режим повышенной изоляции для чувствительных сценариев и метки “Elevated Risk” для функций, уязвимых к prompt-injection.

Reverse-engineering GPT-5 tokenizer
Глубокий разбор того, как устроен токенайзер GPT-5 через библиотеку tiktoken.

Qwen3.5 — к «нативным» мультимодальным агентам
397B параметров, из которых активны только 17B за проход — гибрид linear attention + sparse MoE. Поддержка 200+ языков и упор на reasoning + агентику.

ZVEC — лёгкая in-process векторная БД от Alibaba
Открытая, быстрая, без отдельного сервиса. Подходит для ноутбуков, edge и прототипов.

Claude Sonnet 4.6
Anthropic обновили Sonnet: лучше кодинг, планирование и long-context reasoning, плюс 1M токенов контекста (в бете).

Prompt Caching 201
OpenAI подробно разобрали, как повторное использование префиксов снижает latency и стоимость. Практичный материал для тех, кто строит прод-агентов и устал платить за одинаковый system prompt 1000 раз.

От MNIST к Transformer — работа с памятью
Продолжение серии с упором на внутренние механизмы и архитектурные детали.

Хроники ML-инженера на крупнейшем хакатоне
Про гипотезы, быстрые эксперименты и реальность продакшена под давлением дедлайнов.

Трансформер своими руками (Numpy)
Реализация с нуля — отличный способ перестать бояться слов вроде “multi-head attention” и “positional encoding”.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍4😢1
🔝 10 самых ценных GitHub-репозиториев для изучения ИИ (2026)

Вот база, которая сделает вас сильнее в AI:

1. microsoft/generative-ai-for-beginners (~105k )
Полноценный курс от Microsoft по созданию GenAI-приложений. От теории до первых рабочих чат-ботов.

2. rasbt/LLMs-from-scratch (~83k )
Легендарный репозиторий Себастьяна Рашки. Пишем свою GPT-подобную модель с чистого листа: архитектура, обучение и инференс.

3. microsoft/ai-agents-for-beginners (~49k )
Курс по созданию ИИ-агентов. Инструменты, память, планирование и сложные рабочие процессы (agentic workflows).

4. microsoft/ML-For-Beginners (~83k )
Классика машинного обучения: 26 уроков по фундаментальным алгоритмам. Если не знаете, что под капотом у Scikit-Learn — вам сюда.

5. openai/openai-cookbook (~71k )
Официальные рецепты от OpenAI. Примеры использования API, паттерны промптов и готовые демки для продакшена.

6. jackfrued/Python-100-Days (~177k )
Интенсивный марафон: 100 дней практики Python. От основ до работы с данными. База, без которой в AI делать нечего.

7. pathwaycom/llm-app (~54k )
Набор шаблонов для RAG-систем. Как строить пайплайны, которые работают с вашими данными в реальном времени.

8. jakevdp/PythonDataScienceHandbook (~46k )
Золотой стандарт Data Science. Всё по NumPy, Pandas, Matplotlib и Scikit-Learn в одном месте.

9. CompVis/stable-diffusion (~72k )
Исходники первой Stable Diffusion. Лучший материал, чтобы понять, как работают диффузионные модели генерации изображений.

10. facebookresearch/segment-anything (~53k )
Модель SAM. Мастер-класс по сегментации изображений: как ИИ «видит» и выделяет объекты.

Сохраняйте подборку в «Избранное», чтобы не потерять.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Интерактивная хронология 171 LLM (2017–2026)

Если вам казалось, что новости про нейросети выходят слишком часто — вам не казалось. Разработчик собрал LLM Timeline — визуальную карту развития технологий от первой статьи про Transformer до новейших GPT-5.3 Codex.

🔗 Залипнуть в историю: https://clc.to/RP3Ppg

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🔥2🥰1
📚 Полка AI/ML инженера: 13 бесплатных книг на все случаи жизни

Автор репозитория бережно отбирал материалы, которые помогают «подтянуть» теорию, подготовиться к собесу в BigTech или разобраться в архитектуре систем.

Что в коллекции (самое интересное):
🌟 Deep Learning Interviews: 400+ вопросов и ответов по CNN, трансформерам и системному дизайну.
🌟 Machine Learning Systems: Свежий гайд от Гарварда по инженерии ML-систем — от распределенного обучения до оптимизации моделей уровня AGI.
🌟 The Matrix Cookbook: Легендарный справочник-шпаргалка по матричным вычислениям и производным.
🌟 OpenAI Guide to Building Practical Agents: Паттерны проектирования и «хитрости» для создания реальных ИИ-агентов.
🌟 Fine-tuning Guide: Исчерпывающий обзор технологий и лучших практик дообучения LLM.
🌟 Math for ML: Линейная алгебра, матанализ и тервер «на пальцах» специально для практиков.

🔗 Забрать библиотеку себе: https://clc.to/qpt1Rg

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍5
🏗 Metaxy: как перестать пересчитывать лишнее в ML-пайплайнах

В обычном Data Engineering всё просто: обновился файл — пересчитываем весь граф. Но в мультимодальном ML (видео + аудио + текст) такой подход — это прямой путь к сжиганию бюджета на облака.

Metaxy — это умный слой метаданных, который понимает внутреннюю структуру данных и умеет «отсекать» ненужные вычисления.

Данные (видео, картинки) лежат в S3, а Metaxy хранит их «цифровые следы»: версии, пути и связи. Но главное — он знает, какая часть файла нужна конкретной модели.

Кейс из жизни:
У вас есть пайплайн распознавания лиц. На вход идет видеофайл. Вы решили заменить в нем аудиодорожку на более качественную.

Обычный пайплайн: увидит изменение файла и заново запустит тяжелую модель распознавания лиц.
Metaxy: «поймет», что блок Face Recognition зависит только от видеокадров. Раз кадры не менялись — вычисления просто пропускаются (pruning).

🔗 Репозиторий проекта: https://clc.to/Jwgv2g

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👍1
За год мы провели три потока курса по ИИ-агентам, а теперь запускаем масштабное обновление!

В новом, четвёртом потоке мы учли все пожелания студентов, добавили большой блок про AgentOps и сместили фокус с базовых концепций на суровый инжиниринг. Написать скрипт генерации легко, а вот заставить агентов работать со сложным RAG, не галлюцинировать и соблюдать бюджет пайплайна в проде — задача со звёздочкой.

В программе:

— практика в Jupyter-ноутбуках: от прототипа до продакшена;
— продвинутый RAG: обработка разнородных документов и улучшение поиска;
— оркестрация в LangGraph: human-in-the-loop и механизм time-travel;
— метрики качества моделей и защита от деградации пайплайна;
— развёртывание локальных опенсорс-моделей с соблюдением 152-ФЗ.

В честь старта продаж действует спецпредложение: 3 курса по цене 1 (два дополнительных курса в подарок).

Доступ к материалам для предварительной подготовки откроется сразу после оплаты.

По промокоду Agent забирайте скидку 10 000 ₽ (89 000 ₽ вместо 99 000 ₽). Успейте занять место до 28 февраля!

👉 Присоединиться к четвёртому потоку и вывести пайплайны в прод
This media is not supported in your browser
VIEW IN TELEGRAM
💻 Узнай, какие LLM «взлетят» на твоем железе

Проблема локального запуска ИИ всегда одна: скачиваешь 50 ГБ весов, а в итоге получаешь 0.2 токена в секунду или ошибку Out of Memory. Этот инструмент решает проблему одной командой.

Что умеет тулза:
✔️Автодетект железа: Мгновенно сканирует вашу RAM, VRAM (включая Multi-GPU), CPU и архитектуру.
✔️Анализ 200+ моделей: Сверяет ваши ресурсы с базой данных из 206 моделей от 57 провайдеров.
✔️Умный скоринг: Каждая модель получает оценку по 4 параметрам.
✔️Динамическое квантование: Инструмент сам подскажет, в каком сжатии (Q4, Q8, IQ4_XS) модель лучше всего сбалансирует скорость и качество.

🔗 Попробовать: https://clc.to/U7aQyw

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
6🎉2👍1🔥1🙏1
📂 Идеальная структура Data Analysis проекта

Из чего состоит правильный проект:
config/: Централизованное хранение путей и параметров в config.yaml.
data/: Разделение данных на сырые (`raw`), промежуточные (`interim`) и готовые к анализу (`processed`).
— notebooks/: Только для экспериментов, EDA и черновых находок.
— src/: Здесь живет «чистый» и переиспользуемый код для очистки данных, генерации признаков и моделей.
— tests/: Юнит-тесты, которые гарантируют, что логика обработки данных не сломалась после правок.

Золотые правила работы:
1. Как только код в Jupyter стал стабильным и переиспользуемым — выносите его в модули в папку src/.
2. Читайте из raw, очищайте в src/ и сохраняйте результат в processed. Никогда не перезаписывайте сырые данные!
3. Описывайте методику и логику анализа в папке docs/, а не только в комментариях к коду.

👇 Забирайте шаблон себе в закладки.

📍 Навигация: ВакансииЗадачиСобесы

Библиотека дата-сайентиста

#буст
8😁2🤩2🙏2
🌸 Куда катятся LLM в 2026 году

Себастьян Рашка выпустил свой традиционный «весенний» обзор открытых моделей, и, кажется, индустрия окончательно переросла старый добрый Трансформер. Если вы думали, что в архитектурах нейросетей всё замерло — вы сильно ошибались.

Вот главные тезисы:
🌟 Прощай, классический Attention: Внедрение Sliding Window Attention (SWA) позволило моделям «переваривать» гигантские контексты без потери памяти.
🌟 Gated Attention: На выходе внимания теперь стоят сигмоидные «гейты» (как в Qwen3-Next). Это позволяет модели динамически решать, какие данные важны, а какие — шум.
🌟 Inference-time scaling: Главный хайп сезона. Модели учат «думать» дольше во время генерации (reasoning), что дает прирост качества без раздувания количества параметров.
🌟 Tiny is the new Big: Компактные модели вроде Tiny Aya (3.35B) показывают, что мультиязычность и интеллект теперь можно упаковать в смартфон.

🔗 Весь разбор здесь

📍 Навигация: ВакансииЗадачиСобесы

Библиотека дата-сайентиста
👍63🤩1