Машинное обучение RU
18K subscribers
1.69K photos
241 videos
11 files
2.13K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
Download Telegram
Forwarded from Machinelearning
✔️ MiniMax показали тизер Sparse Attention для M3.

На 1M токенов - 9.7x ускорение префилла и 15.6x на декоде против M2.

В марте их лид по претрейну писал, почему для M2 откатились на full attention: эффективные варианты не были готовы к проду.

Спустя полгода готовы.

Схема двухстадийная. Сначала лёгкая index-ветка выбирает релевантные блоки KV. Дальше sparse attention считается только по ним, а не по всему контексту.

Дешёвый 1M-контекст в опенсорсе - это другой режим работы с длинным контекстом и другая экономика инференса для агентов.

Ждём техрепорт и замеры качества. Ну и приятно, что всё это в опенсорсе.

https://x.com/MiniMax_AI/status/2059286515155599595

#MSA #OpenSource #M3
Please open Telegram to view this post
VIEW IN TELEGRAM
👍54
Я Наша подписка на Claude истекла.

Начальник: Давай создадим нашего собственного Claude, чтобы снизить затраты для нашего стартапа?
👍21😁148🔥3
🐍 Python Roadmap 2026: наконец-то полноценная актуальная карта изучения Python, а не список ссылок «разберись сам»

На GitHub выложили большой русскоязычный роадмап по Python на 2026 год - от первых скриптов до уровня Middle+/Senior.

Маршрут собран под современный Python:

- Python 3.13+
- free-threaded mode без GIL
- JIT
- uv вместо боли с pip/venv/poetry
- ruff, pyright, pytest, hypothesis
- async-first подход
- типизация
- CPython внутри
- web, базы, ML/AI, DevOps и архитектура

В роадмапе есть нормальная последовательность: сначала окружение и база, потом идиомы, ООП, типы, стандартная библиотека, асинхронность, тестирование, внутренности CPython, web, базы данных, AI-направление, продакшн и архитектура.

Отдельный плюс - практический формат. На каждом этапе есть задачи, чеклисты, примеры кода и бесплатные ресурсы. То есть это не мотивационная простыня, а маршрут, по которому реально можно идти несколько месяцев и видеть прогресс.

Для новичков - понятный путь без хаоса.
Для джунов - способ закрыть дыры.
Для тех, кто уже пишет на Python - хороший чеклист, чтобы понять, где ты всё ещё плаваешь.

Python в 2026 году - это tooling, типы, async, инфраструктура, AI и продакшн-дисциплина. И этот роадмап как раз про такой Python.

https://github.com/justxor/pythonroamap2026
👎4🔥42👍1
🖥 Python в 2026 - уже не просто «первый язык программирования».

Это инструмент, с которым можно автоматизировать задачи, писать скрипты, собирать проекты, работать с данными, делать ботов и использовать ИИ как ускоритель разработки.

Но есть проблема: большинство новичков учат Python кусками. Немного синтаксиса, пару задачек, немного теории - и потом ступор: «а что с этим делать дальше?»

Этот курс сделан иначе. Здесь упор на реальную практику: вы не просто смотрите уроки, а постепенно учитесь писать код, разбирать ошибки, собирать рабочие решения и понимать, как Python применяется в нормальных задачах.

Что внутри:

- Python с нуля понятным языком
- практика вместо бесконечной сухой теории
- реальные задачи и проекты
- автоматизация рутины
- работа с файлами, данными и API
- понятная логика программирования
- современный подход к разработке с ИИ
- отдельный акцент на вайбкодинг

Вайбкодинг -это умение правильно ставить задачу, проверять код, понимать результат и ускорять работу без слепого копирования. В 2026 году это уже не бонус, а нормальный навык разработчика.


Сегодня скидка 60 процентов:
https://stepik.org/course/288218/info
Please open Telegram to view this post
VIEW IN TELEGRAM
2👎2👍1
PaddleOCR-VL 1.6 официально вышел

PaddlePaddle выпустили PaddleOCR-VL 1.6 - новую версию модели для распознавания документов.

Результат: 96.33% на OmniDocBench. Это новый SOTA, причём модель обошла как open-source, так и закрытые решения в распознавании текста, формул и таблиц.

Что улучшили:

- первое место на OmniDocBench v1.5 и Real5-OmniDocBench
- заметно лучше распознаёт таблицы, обычный текст и редкие символы
- улучшено распознавание печатей, отдельных фрагментов и графиков
- полная совместимость с архитектурой v1.5
- миграция не нужна - можно подключать как plug-and-play

Где это полезно:

- финансовые контракты
- юридические документы
- исследовательские отчёты
- исторические архивы
- RAG-пайплайны
- подготовка качественных данных для LLM

https://github.com/PaddlePaddle/PaddleOCR

#PaddlePaddle #PaddleOCR #AI #ComputerVision
8👍3🔥2
Устал инициализировать претрейны весами Qwen? Приходи к нам — мы честно учим с нуля! 😉

Ищем Senior/Senior+ AI Engineer и продактов в RnD-команду: как отдельных специалистов, так и целые команды, — которые готовы разрабатывать прорывные AI-решения.

Познакомиться ближе с нашими направлениями и оставить отклик можно на сайте.

А если хотите следить за тем, как команда RnD ML Сбера исследует и разрабатывает AI-технологии, — подписывайтесь на Telegram-канал команды. Там делятся исследованиями, экспериментами и инсайтами из мира AI, а также свежими вакансиями 🚀
1
VINS-120K - полезный датасет для следующего этапа image editing моделей: редактирование изображений в 4K+ без развала мелких деталей.

Сейчас многие модели неплохо правят обычные картинки, но на сверхвысоком разрешении быстро всплывают проблемы: текстуры мажутся, локальные правки портят соседние области, а результат выглядит хорошо только после уменьшения. Для реального продакшена этого мало.

VINS-120K закрывает именно этот разрыв. В датасете 120 тысяч троек: инструкция, исходное изображение и отредактированная версия. Все изображения выше 4K, данные собраны из реальных видео высокого разрешения и качественных открытых источников, затем отфильтрованы по визуальному качеству, соответствию инструкции и эстетике.

Покрытие тоже широкое: 13 типов редактирования в 4 категориях - локальные правки, глобальные изменения, движение камеры и персонализированная генерация.

Paper: https://modelscope.ai/papers/2605.23518
Dataset: https://modelscope.cn/datasets/vivo/VINS-120K
2👍2
Forwarded from Machinelearning
⚡️ Сэм Альтман подтвердил возвращение OpenAI к разработке воплощенного ИИ

Проект вырос из исследований по симуляции физического мира, к которым присоединилась команда видеогенератора Sora.

На начальном этапе компания сосредоточится на разработке специализированных машин для помощи в строительстве инфраструктуры.  

Конечная цель проекта - обеспечить каждого человека персональным роботом, способным выполнять любые бытовые и рабочие поручения.

В 2020 году компания закрыла предыдущие проекты в робототехнике из-за дефицита обучающих данных.

Для перезапуска направления OpenAI открыла наем инженеров по аппаратному обеспечению, системной интеграции и ML.

Возвращение связано с развитием воплощенного ИИ: взаимодействие алгоритмов с физической средой позволит собрать массивы данных, необходимых для обучения AGI.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥31👎1🎉1
🚀 Упрощение разработки с GSD Redux

GSD Redux — это легковесная система для метапромптинга и управления контекстом, помогающая разработчикам эффективно работать с AI. Она решает проблему деградации качества контекста, позволяя создавать четкие спецификации и контролировать процесс разработки.

🚀 Основные моменты:
- Легкая интеграция с различными AI-платформами.
- Поддержка автоматизации разработки и управления проектами.
- Обеспечивает безопасность и прозрачность через аудит.
- Подходит для индивидуальных разработчиков и небольших команд.

📌 GitHub: https://github.com/open-gsd/get-shit-done-redux

#javascript
🚀 GPU-библиотека для классического машинного обучения

FlashLib предлагает высокопроизводительные реализации операторов машинного обучения, таких как kmeans, PCA и DBSCAN, с использованием Triton и CuteDSL. Библиотека позволяет эффективно обрабатывать данные на GPU, обеспечивая простоту использования и высокую скорость выполнения.

🚀Основные моменты:
- Поддержка 15 высокоуровневых примитивов для машинного обучения.
- Информативный API для оценки производительности операций.
- Оптимизированные реализации для кластеризации, регрессии и декомпозиции.
- Легкая интеграция с PyTorch и sklearn.

📌 GitHub: https://github.com/FlashML-org/flashlib

#python
👍3