Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.4K subscribers
2.5K photos
127 videos
68 files
4.96K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
📊 datasetiq: Python-клиент для миллионов экономических датасетов

Вышла datasetiq v0.1.2 — лёгкая Python-библиотека для работы с глобальными макроэкономическими данными.

Она объединяет данные из FRED, IMF, World Bank, OECD, BLS, US Census и других источников и возвращает их сразу в виде чистых pandas DataFrame. Под капотом — кэширование, async-запросы и простая настройка, поэтому библиотека хорошо подходит и для ноутбуков, и для продакшена.

Пример использования:
import datasetiq as iq

iq.set_api_key("your_api_key_here")
df = iq.get("FRED/CPIAUCSL")

print(df.head())

df["yoy_inflation"] = df["value"].pct_change(12) * 100
print(df.tail())


В отличие от fredapi, pandas-datareader и похожих библиотек, datasetiq:
✔️ работает сразу с множеством источников;
✔️ имеет встроенное кэширование и защиту от rate limits;
✔️ сфокусирован именно на глобальных макро-данных и тайм-сериях.

Подойдёт аналитикам, исследователям, студентам и всем, кто работает с экономическими данными.

📱 GitHub: https://clc.to/O42hIA
🔗 Документация: https://clc.to/lO7Sng

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩53👍2🙏1
Что послушать: почему без математики и алгоритмов невозможно полноценно развиваться в ИИ. В новом эпизоде Machine Learning Podcast Алексей Толстиков, руководитель Школы анализа данных Яндекса, рассказывает, как фундаментальная математика помогает не просто запускать нейросети, а глубоко понимать, почему и как они работают.

В подкасте обсуждали полезные подходы и идеи:

Почему даже опытным ИИ, ML-спецам и датасаентистам полезно возвращаться к фундаментальным дисциплинам
Как математика реально прокачивает карьеру и приближает специалиста к заветному офферу
Почему теория — выжимка из тысяч успешных и неудачных практик, а не скучная формальность

Если вы хотите прокачать мышление в ИИ и Data и не теряться на рынке труда — этот выпуск для вас

👉Ссылка: https://mlpodcast.mave.digital/ep-76

#буст
🎉31
☎️ PyTorch + Unsloth: LLM теперь реально запускаются на смартфонах

Unsloth вместе с PyTorch показали, что деплой LLM на смартфон — это уже не демо из будущего, а рабочая практика. Модель можно дообучить и запустить локально прямо на Android или iPhone — без облаков и интернета.

Есть и практическая часть: выложен бесплатный Colab-ноутбук, где показан полный путь — от fine-tuning до экспорта модели для запуска на телефоне.

Кажется, «edge-LLM» окончательно перестали быть экспериментом и начали превращаться в нормальный инженерный сценарий.

🔗 Туториал

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍74
RAG, Vector DBs и мультиагентность: апгрейд курса по AI-агентам

Коллеги, мы знаем, что базовый DS-курс вам уже не интересен. Рынок требует инженерии: как заставить LLM работать с вашими данными и не галлюцинировать.

Мы перезапустили курс «Разработка AI-агентов», превратив его в мощный инструмент для ML-инженеров.

Что под капотом новой программы:

Hardcore Tech: LangGraph (state-машины), протоколы MCP и A2A .
Infrastructure: Работа с векторными БД (Pinecone, Weaviate) и семантическим поиском.
Science: Факультатив по RL и эмерджентному поведению.
Production: AgentOps, мониторинг через LangSmith, деплой.

⚡️ Киллер-фича: Студентам продвинутого трека даем доступ к GPU-кластеру для обучения моделей.

Строим production-ready решения, а не игрушки.

Программа и силлабус
🔥1🎉1
🧩 Угадай результат

Этот код выглядит безобидно.
Именно поэтому он опасен.

👉 Проверить себя

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🥰1
🎓 Твой опыт стоит дорого — стань экспертом Proglib Academy

Чувствуешь, что накопил достаточно знаний, чтобы делиться ими с другими?

Мы ищем сильных практиков, которые хотят попробовать себя в роли:

— преподавателей;
— авторов курсов;
— наставников.

Это возможность не только монетизировать экспертизу, но и прокачать личный бренд, структурировать собственные знания и вырастить новое поколение специалистов.

👉 Заполни короткую анкету
5🔥1
DS умер? Нет, он эволюционировал в Agent Engineering

Модели стали commodity. Теперь ценность не в model.fit(), а в том, как заставить LLM надежно выполнять сложные цепочки действий.

Мы представляем радикально обновленный курс «Разработка AI-агентов».

Старая версия (5 недель) была лишь введением. Новая — это 13 модулей хардкора.

Advanced Track для ML-инженеров:

RAG 2.0: Векторные БД (Pinecone, Chroma), семантический поиск, гибридные методы.
Fine-tuning & RL: Обучение агентов, RLHF, MARL (Multi-Agent Reinforcement Learning).
Frameworks: Глубокий дайв в CrewAI, AutoGen и LangGraph.
Infra: Доступ к GPU-кластеру для ваших экспериментов.

Мы учим не просто «промтить», а строить сложные системы с памятью и инструментами.

🧪 Акция 3 в 1:

Покупаешь этот курс — выбираешь два любых других в подарок.

Data Science 2026
3👍1😢1
🆕 Свежие новости для дата‑сайентистов

OpenAI выложила код и веса по sparsity-подходу
OpenAI продолжает ломать привычный пайплайн «сначала жирно, потом обрезаем» — теперь разреженность закладывается прямо в обучение. Самое любопытное: после жёсткого прунинга остаются маленькие, почти читаемые схемы, которые всё ещё работают. Похоже, мы всё ближе к моменту, когда «понять модель» станет не просто красивой метафорой.

NVIDIA выпускает Nemotron 3 — модели для многоагентных систем
Это не очередной чат-бот, а инфраструктура под агентные системы на масштабе. NVIDIA явно делает ставку на будущее, где один LLM — это мало, а вот десяток координирующихся агентов — норма.

Google анонсировала Gemini 3 Flash
Быстро, дёшево и почти как большой — классическая формула Flash. Google явно показывает, что «быстрее и дешевле» теперь важнее, чем «на 2% лучше в бенчмарке». Отличный кандидат для продакшена, где latency важнее эго.

OpenAI представила GPT-Image-1.5
Генерация картинок стала в 4 раза быстрее и заметно лучше управляется при редактировании. Модель тихо заменяет предыдущую версию — без революций, но с ощущением, что image-stack наконец-то взрослеет и перестаёт быть игрушкой.

В ChatGPT появился App Store
Теперь прямо из чата можно заказывать еду, собирать презентации и дергать сторонние сервисы через @. ChatGPT всё меньше «модель» и всё больше «операционная система».

OpenAI выпускает GPT-5.2-Codex
Специализированная версия GPT-5.2 под длинные инженерные задачи: рефакторинги, миграции, сложные пайплайны.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍4
📦 Docker & Kubernetes: визуальная шпаргалка

Современные приложения почти всегда живут в контейнерах и работают на кластерах.

Docker решает первую проблему — упаковать приложение со всеми зависимостями и запустить его где угодно: локально, на сервере, в облаке.

Kubernetes решает следующую — как запустить много таких контейнеров, следить, чтобы они не падали, масштабировать их под нагрузкой и обновлять без простоя.

💡 Проще говоря:
Docker — это «собрать и запустить одно приложение в коробке».
Kubernetes — это «надёжно управлять тысячами таких коробок на куче машин».

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
12🔥1
📁 Как LLM выбирают следующее слово: 4 стратегии генерации текста

Когда большая языковая модель генерирует текст, она каждый раз решает одну простую задачу:
какой токен выбрать следующим?


Но способов принять это решение — несколько. На инфографике показаны 4 основные стратегии, вот кратко и по делу:

1️⃣ Жадная стратегия (Greedy)

Самый простой и быстрый вариант. Модель всегда выбирает токен с максимальной вероятностью на текущем шаге (argmax).

Плюсы: быстро, детерминированно
Минусы: часто получается сухо, шаблонно и модель может застревать

2️⃣ Multinomial Sampling (сэмплирование)

Здесь модель не обязана выбирать самый вероятный токен. Она случайно сэмплирует слово из распределения вероятностей (softmax + temperature).

Плюсы: больше разнообразия и креативности
Минусы: может уехать в шум или бессмыслицу при плохих настройках

3️⃣ Beam Search (лучевой поиск)

Модель думает не только о следующем слове, а о всей последовательности целиком. Она параллельно держит несколько наиболее вероятных вариантов продолжения (beam width) и выбирает лучший путь.

Плюсы: более связный и логичный текст
Минусы: вычислительно дороже, иногда слишком «осторожный»

4️⃣ Contrastive Search (контрастный поиск)

Добавляет штраф за повторяемость. При выборе следующего токена учитывается не только вероятность, но и насколько он похож на уже сгенерированные слова (косинусное сходство).

Плюсы: меньше зацикливаний, текст выглядит живее
Минусы: сложнее в реализации

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62🔥1
🚛 Итоги 2025 для больших языковых моделей

Очень сильный обзор года от Андрея Карпати.
Про RLVR и «мышление» моделей, рваный интеллект, vibe coding, Cursor, Claude Code и то, почему LLM — это скорее призраки, а не животные.

Если хотите понять, что реально изменилось в LLM за 2025, а не просто посмотреть на бенчмарки — обязательно к прочтению.

🔗 Ссылка на статью

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
От экспериментов с LLM к автономным агентам в продакшене

Сегодня ценятся не просто промпты, а архитектура. Мы учим строить ИИ-агентов по «инженерному стандарту»: с фокусом на надёжность, RAG-пайплайны и мониторинг.

Технические акценты:


продвинутый `RAG` на базе Pinecone / Chroma для построения точного фундамента системы;
агентская логика в LangGraph для управления сложными стейт-машинами и памятью;
интеграция в прод через n8n для связи моделей с внешними инструментами и API;
анализ качества в LangSmith для оценки обоснованности решений нейросети.

Создавайте системы, которые работают эффективно и предсказуемо.

Программа и запись
1🎉1
Media is too big
VIEW IN TELEGRAM
💻 OpenTinker — RL-as-a-Service для foundation models

OpenTinker предлагает удобную инфраструктуру для обучения с подкреплением, где код и выполнение жёстко разделены.

Ты пишешь RL-логику на Python, а всё тяжёлое — распределённое обучение, GPU и масштабирование — происходит на стороне сервера.

Фишки:
✔️ не нужны локальные GPU
✔️ обучение и инференс используют один и тот же пайплайн
✔️ окружение и код обучения изолированы друг от друга
✔️ высокоуровневый Python API без боли с distributed-системами

Хороший вариант, если хочется работать с RL поверх foundation models, не превращаясь в DevOps.

📱 Github

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5😁41😢1🙏1🥱1
⌨️ Топ-вакансий для дата-сайентистов за неделю

Data Аналитик — 300 000 - 350 000₽, удалёнка

Anti-Fraud Analyst, удалёнка

Data Engineer (Financial Markets) — от 6 600 до 8 300 $, офис (Дубай)

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
2
🎅 Секретный Санта для айтишников от Proglib.academy

Весь этот год команда Академии запускала курсы для айтишников. А под Новый год мы запускаем новый курс по ИИ-агентам и ставим под ёлку самый свежий стек 2025 года и обучение проектированию автономных нейросетевых экосистем — от LLM и ReAct-циклов до мультиагентных систем, LangGraph, AutoGen и продакшн-практик.

🎁 Хотим дарить подарки и приглашаем вас поучаствовать в конкурсе:

1️⃣ Упомяните курс Академии у себя в блоге.
2️⃣ Пришлите скрин сюда.
3️⃣ Получите секретный промокод на 10 000 ₽ при оплате любого курса.

Подходит всё — соцсети, блоги, Telegram-каналы от 300 подписчиков и более.

🎄 Акция действует до Нового года.

Win-win, всё как мы любим!
👍1
🔍 Интерактивное исследование LLM изнутри

Инструмент позволяет буквально пошагово разобрать, как модель приходит к ответу:
✔️ выбираешь модель и промпт — запускаешь инференс
✔️ смотришь граф вкладов (contribution graph)
✔️ выбираешь токен, от которого строится граф
✔️ настраиваешь порог значимости вкладов
✔️ смотришь представление любого токена после любого блока

Для каждого представления можно:
➡️ увидеть проекцию в выходной словарь
➡️ понять, какие токены были усилены или подавлены предыдущим блоком

Всё интерактивно:
✔️ кликабельные рёбра → детали attention head
✔️ кликабельные головы → что именно они усиливают/подавляют
✔️ FFN-блоки → нейроны внутри них

📱 Github

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42
🎉 Вышел Apache Spark 4.1

Релиз получился внушительным — список изменений действительно большой:
👉 https://clc.to/50fxrg

Из основных обновлений и улучшений:
• улучшения в Spark SQL (скрипты, CTE, новые типы данных)
• прокачанный Structured Streaming для real-time сценариев
• Spark Connect стал стабильнее и быстрее
• ускорение Python-UDF через Arrow
• апдейты для Kubernetes и прод-деплоя
• поддержка новых версий Python

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
👍94
📕 Нейросети с нуля на С

Небольшой, но очень наглядный проект: автор шаг за шагом собирает минималистичную tensor-библиотеку на C, объясняя, как работают нейросети на базовом уровне.

Без PyTorch и NumPy — только математика, структуры данных и явные вычисления.

Материал рассчитан на программистов: ML-бэкграунд не обязателен.

📖 Статья и проект: https://clc.to/MQ3OGQ

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍91