Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.4K subscribers
2.46K photos
125 videos
66 files
4.92K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🔥 От нуля до инференса за 5 минут

Выберите сценарий использования и платформу — и получите готовые к запуску инструкции для нужной LFM-модели.

LFM (Large Foundation Model) — это универсальная базовая модель, обученная на больших объёмах данных и пригодная для разных задач: от чатов и кода до изображений и аудио.

Поддерживаемые кейсы:
🔤 чат-боты и генерация текста
🔤 понимание и анализ изображений
🔤 аудио и транскрибация
🔤 генерация и объяснение кода
🔤 эмбеддинги для поиска и рекомендаций
🔤 агентные workflow с вызовом функций

Быстрый старт, понятные примеры и минимум лишней настройки — можно сразу переходить к результату.

🔗 Ссылка на ресурс

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍72🤩1
🔈 Локальная расшифровка аудио в реальном времени с LFM2-Audio-1.5B

Появился наглядный пример того, как можно делать real-time audio-to-text полностью локально — без облаков и интернета. В основе связка llama.cpp и компактной модели LFM2-Audio-1.5B.

Идея простая: небольшая, но достаточно мощная аудиомодель + эффективный рантайм = транскрипция прямо на устройстве.

Фактически, это ещё один шаг к edge-ассистентам, которые умеют слушать и понимать речь без отправки данных в облако.

Репозиторий — хороший ориентир для тех, кто хочет собрать подобное решение у себя.

📱 Github

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍3😁2🎉1
⌨️ Топ-вакансий для дата-сайентистов за неделю

Senior Data Engineer — 4 000-5 000 $, удалёнка

Data Analyst — от 1 500 до 3 000 $, удалёнка

Data Analyst (Product, Marketing) — от 200 000 ₽, офис (Санкт-Петербург)

➡️ Еще больше топовых вакансий — в нашем канале Data jobs

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21
📊 datasetiq: Python-клиент для миллионов экономических датасетов

Вышла datasetiq v0.1.2 — лёгкая Python-библиотека для работы с глобальными макроэкономическими данными.

Она объединяет данные из FRED, IMF, World Bank, OECD, BLS, US Census и других источников и возвращает их сразу в виде чистых pandas DataFrame. Под капотом — кэширование, async-запросы и простая настройка, поэтому библиотека хорошо подходит и для ноутбуков, и для продакшена.

Пример использования:
import datasetiq as iq

iq.set_api_key("your_api_key_here")
df = iq.get("FRED/CPIAUCSL")

print(df.head())

df["yoy_inflation"] = df["value"].pct_change(12) * 100
print(df.tail())


В отличие от fredapi, pandas-datareader и похожих библиотек, datasetiq:
✔️ работает сразу с множеством источников;
✔️ имеет встроенное кэширование и защиту от rate limits;
✔️ сфокусирован именно на глобальных макро-данных и тайм-сериях.

Подойдёт аналитикам, исследователям, студентам и всем, кто работает с экономическими данными.

📱 GitHub: https://clc.to/O42hIA
🔗 Документация: https://clc.to/lO7Sng

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩53👍2🙏1
Что послушать: почему без математики и алгоритмов невозможно полноценно развиваться в ИИ. В новом эпизоде Machine Learning Podcast Алексей Толстиков, руководитель Школы анализа данных Яндекса, рассказывает, как фундаментальная математика помогает не просто запускать нейросети, а глубоко понимать, почему и как они работают.

В подкасте обсуждали полезные подходы и идеи:

Почему даже опытным ИИ, ML-спецам и датасаентистам полезно возвращаться к фундаментальным дисциплинам
Как математика реально прокачивает карьеру и приближает специалиста к заветному офферу
Почему теория — выжимка из тысяч успешных и неудачных практик, а не скучная формальность

Если вы хотите прокачать мышление в ИИ и Data и не теряться на рынке труда — этот выпуск для вас

👉Ссылка: https://mlpodcast.mave.digital/ep-76

#буст
🎉21
☎️ PyTorch + Unsloth: LLM теперь реально запускаются на смартфонах

Unsloth вместе с PyTorch показали, что деплой LLM на смартфон — это уже не демо из будущего, а рабочая практика. Модель можно дообучить и запустить локально прямо на Android или iPhone — без облаков и интернета.

Есть и практическая часть: выложен бесплатный Colab-ноутбук, где показан полный путь — от fine-tuning до экспорта модели для запуска на телефоне.

Кажется, «edge-LLM» окончательно перестали быть экспериментом и начали превращаться в нормальный инженерный сценарий.

🔗 Туториал

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍54
RAG, Vector DBs и мультиагентность: апгрейд курса по AI-агентам

Коллеги, мы знаем, что базовый DS-курс вам уже не интересен. Рынок требует инженерии: как заставить LLM работать с вашими данными и не галлюцинировать.

Мы перезапустили курс «Разработка AI-агентов», превратив его в мощный инструмент для ML-инженеров.

Что под капотом новой программы:

Hardcore Tech: LangGraph (state-машины), протоколы MCP и A2A .
Infrastructure: Работа с векторными БД (Pinecone, Weaviate) и семантическим поиском.
Science: Факультатив по RL и эмерджентному поведению.
Production: AgentOps, мониторинг через LangSmith, деплой.

⚡️ Киллер-фича: Студентам продвинутого трека даем доступ к GPU-кластеру для обучения моделей.

Строим production-ready решения, а не игрушки.

Программа и силлабус
🔥1🎉1
🧩 Угадай результат

Этот код выглядит безобидно.
Именно поэтому он опасен.

👉 Проверить себя

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🥰1
🎓 Твой опыт стоит дорого — стань экспертом Proglib Academy

Чувствуешь, что накопил достаточно знаний, чтобы делиться ими с другими?

Мы ищем сильных практиков, которые хотят попробовать себя в роли:

— преподавателей;
— авторов курсов;
— наставников.

Это возможность не только монетизировать экспертизу, но и прокачать личный бренд, структурировать собственные знания и вырастить новое поколение специалистов.

👉 Заполни короткую анкету
4🔥1
DS умер? Нет, он эволюционировал в Agent Engineering

Модели стали commodity. Теперь ценность не в model.fit(), а в том, как заставить LLM надежно выполнять сложные цепочки действий.

Мы представляем радикально обновленный курс «Разработка AI-агентов».

Старая версия (5 недель) была лишь введением. Новая — это 13 модулей хардкора.

Advanced Track для ML-инженеров:

RAG 2.0: Векторные БД (Pinecone, Chroma), семантический поиск, гибридные методы.
Fine-tuning & RL: Обучение агентов, RLHF, MARL (Multi-Agent Reinforcement Learning).
Frameworks: Глубокий дайв в CrewAI, AutoGen и LangGraph.
Infra: Доступ к GPU-кластеру для ваших экспериментов.

Мы учим не просто «промтить», а строить сложные системы с памятью и инструментами.

🧪 Акция 3 в 1:

Покупаешь этот курс — выбираешь два любых других в подарок.

Data Science 2026
2👍1😢1
🆕 Свежие новости для дата‑сайентистов

OpenAI выложила код и веса по sparsity-подходу
OpenAI продолжает ломать привычный пайплайн «сначала жирно, потом обрезаем» — теперь разреженность закладывается прямо в обучение. Самое любопытное: после жёсткого прунинга остаются маленькие, почти читаемые схемы, которые всё ещё работают. Похоже, мы всё ближе к моменту, когда «понять модель» станет не просто красивой метафорой.

NVIDIA выпускает Nemotron 3 — модели для многоагентных систем
Это не очередной чат-бот, а инфраструктура под агентные системы на масштабе. NVIDIA явно делает ставку на будущее, где один LLM — это мало, а вот десяток координирующихся агентов — норма.

Google анонсировала Gemini 3 Flash
Быстро, дёшево и почти как большой — классическая формула Flash. Google явно показывает, что «быстрее и дешевле» теперь важнее, чем «на 2% лучше в бенчмарке». Отличный кандидат для продакшена, где latency важнее эго.

OpenAI представила GPT-Image-1.5
Генерация картинок стала в 4 раза быстрее и заметно лучше управляется при редактировании. Модель тихо заменяет предыдущую версию — без революций, но с ощущением, что image-stack наконец-то взрослеет и перестаёт быть игрушкой.

В ChatGPT появился App Store
Теперь прямо из чата можно заказывать еду, собирать презентации и дергать сторонние сервисы через @. ChatGPT всё меньше «модель» и всё больше «операционная система».

OpenAI выпускает GPT-5.2-Codex
Специализированная версия GPT-5.2 под длинные инженерные задачи: рефакторинги, миграции, сложные пайплайны.

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍4
📦 Docker & Kubernetes: визуальная шпаргалка

Современные приложения почти всегда живут в контейнерах и работают на кластерах.

Docker решает первую проблему — упаковать приложение со всеми зависимостями и запустить его где угодно: локально, на сервере, в облаке.

Kubernetes решает следующую — как запустить много таких контейнеров, следить, чтобы они не падали, масштабировать их под нагрузкой и обновлять без простоя.

💡 Проще говоря:
Docker — это «собрать и запустить одно приложение в коробке».
Kubernetes — это «надёжно управлять тысячами таких коробок на куче машин».

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
10🔥1
Российские генеративные модели Kandinsky 5.0 Video Lite и Pro в международной text-to-video арене

🔘Pro версия является ТОП-1 опенсорсом в мире

🔘Lite версия (2B параметров) лучше первой версии Sora

🔘На данный момент Сбер уступает только топовым мировым бигтех компаниям: Google (Veo 3.1, Veo 3), OpenAI (Sora 2), Alibaba (Wan 2.5), KlingAI (Kling 2.5, 2.6); в паритете с Luma AI (Ray 3), MiniMax (Hailuo 2.3) — отрыв по ELO максимум 3 балла, при 95% доверительном интервале оценивания +-21 балла

🔘Для российских генеративных моделей выход на международную арену — уникальное событие

🚀 Полезные ссылки:
🔘Посмотреть весь лидерборд: lmarena
🔘Почитать подробнее про Kandinsky 5.0: пост, техрепорт
🔘Open Source Kandinsky 5.0: github и hf
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63🌚1
📁 Как LLM выбирают следующее слово: 4 стратегии генерации текста

Когда большая языковая модель генерирует текст, она каждый раз решает одну простую задачу:
какой токен выбрать следующим?


Но способов принять это решение — несколько. На инфографике показаны 4 основные стратегии, вот кратко и по делу:

1️⃣ Жадная стратегия (Greedy)

Самый простой и быстрый вариант. Модель всегда выбирает токен с максимальной вероятностью на текущем шаге (argmax).

Плюсы: быстро, детерминированно
Минусы: часто получается сухо, шаблонно и модель может застревать

2️⃣ Multinomial Sampling (сэмплирование)

Здесь модель не обязана выбирать самый вероятный токен. Она случайно сэмплирует слово из распределения вероятностей (softmax + temperature).

Плюсы: больше разнообразия и креативности
Минусы: может уехать в шум или бессмыслицу при плохих настройках

3️⃣ Beam Search (лучевой поиск)

Модель думает не только о следующем слове, а о всей последовательности целиком. Она параллельно держит несколько наиболее вероятных вариантов продолжения (beam width) и выбирает лучший путь.

Плюсы: более связный и логичный текст
Минусы: вычислительно дороже, иногда слишком «осторожный»

4️⃣ Contrastive Search (контрастный поиск)

Добавляет штраф за повторяемость. При выборе следующего токена учитывается не только вероятность, но и насколько он похож на уже сгенерированные слова (косинусное сходство).

Плюсы: меньше зацикливаний, текст выглядит живее
Минусы: сложнее в реализации

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62
🚛 Итоги 2025 для больших языковых моделей

Очень сильный обзор года от Андрея Карпати.
Про RLVR и «мышление» моделей, рваный интеллект, vibe coding, Cursor, Claude Code и то, почему LLM — это скорее призраки, а не животные.

Если хотите понять, что реально изменилось в LLM за 2025, а не просто посмотреть на бенчмарки — обязательно к прочтению.

🔗 Ссылка на статью

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
От экспериментов с LLM к автономным агентам в продакшене

Сегодня ценятся не просто промпты, а архитектура. Мы учим строить ИИ-агентов по «инженерному стандарту»: с фокусом на надёжность, RAG-пайплайны и мониторинг.

Технические акценты:


продвинутый `RAG` на базе Pinecone / Chroma для построения точного фундамента системы;
агентская логика в LangGraph для управления сложными стейт-машинами и памятью;
интеграция в прод через n8n для связи моделей с внешними инструментами и API;
анализ качества в LangSmith для оценки обоснованности решений нейросети.

Создавайте системы, которые работают эффективно и предсказуемо.

Программа и запись
1🎉1
Media is too big
VIEW IN TELEGRAM
💻 OpenTinker — RL-as-a-Service для foundation models

OpenTinker предлагает удобную инфраструктуру для обучения с подкреплением, где код и выполнение жёстко разделены.

Ты пишешь RL-логику на Python, а всё тяжёлое — распределённое обучение, GPU и масштабирование — происходит на стороне сервера.

Фишки:
✔️ не нужны локальные GPU
✔️ обучение и инференс используют один и тот же пайплайн
✔️ окружение и код обучения изолированы друг от друга
✔️ высокоуровневый Python API без боли с distributed-системами

Хороший вариант, если хочется работать с RL поверх foundation models, не превращаясь в DevOps.

📱 Github

📍 Навигация: ВакансииЗадачиСобесы

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4😁31😢1🥱1