Data Science by ODS.ai 🦜
43.3K subscribers
1.04K photos
109 videos
7 files
2.06K links
First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev
Download Telegram
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ СuML от NVIDIA: Scikit-learn на скорости GPU – без единой строчки нового кода!

Все мы любим scikit-learn за его простоту и мощь. Но что если ваши модели обучаются слишком долго на больших данных? 🤔 NVIDIA предлагает решение!

Вы берете свой обычный скрипт cо scikit-learn, добавляете всего две строки в начало, и он начинает работать в 10, 50, а то и 100+ раз быстрее на NVIDIA GPU! 🔥

Как это работает?

Библиотека cuml от NVIDIA содержит супероптимизированные для GPU версии многих алгоритмов машинного обучения. С помощью простого вызова cuml.patch.apply() вы "патчите" установленный у вас scikit-learn прямо в памяти.

Теперь, когда вы вызываете, например, KNeighborsClassifier или PCA из sklearn:

▶️Патч проверяет, есть ли у вас GPU NVIDIA.
▶️Проверяет, есть ли в cuml быстрая GPU-версия этого алгоритма.
▶️Если да – запускает ускоренную версию на GPU! 🏎️
▶️Если нет (нет GPU или алгоритм не поддерживается) – спокойно запускает обычную CPU-версию scikit-learn.

Ключевые преимущества:

✔️ Нулевые изменения кода: Ваш scikit-learn код остается прежним. Добавляете только 2 строчки:
import cuml.patch и cuml.patch.apply().
✔️ Колоссальное ускорение: Получите прирост производительности на порядки для поддерживаемых алгоритмов (KNN, PCA, линейные модели, Random Forest (инференс), UMAP, DBSCAN, KMeans и др.) за счет мощи GPU.
✔️Автоматическое переключение между GPU и CPU. Ваш скрипт будет работать в любом случае.

Топ инструмент для всех, кто работает с scikit-learn на задачах, требующих значительных вычислений, и у кого есть GPU от NVIDIA.

👇 Как использовать:

Установите RAPIDS cuml (лучше через conda, см. сайт RAPIDS):


python
conda install -c rapidsai -c conda-forge -c nvidia cuml rapids-build-backend


Добавьте в начало скрипта:


import cuml.patch
cuml.patch.apply()


Используйте scikit-learn как обычно!

Попробуйте и почувствуйте разницу! 😉

Блог-пост
Colab
Github
Ускоряем Pandas

@ai_machinelearning_big_data


#python #datascience #machinelearning #scikitlearn #rapids #cuml #gpu #nvidia #ускорение #машинноеобучение #анализданных
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥214👍3🤡1
🌍🚀 Многоязычная модель перевода Hunyuan-MT

Hunyuan-MT — это мощная модель перевода, поддерживающая 33 языка, включая редкие языки Китая. Она включает в себя как базовую модель Hunyuan-MT-7B, так и ансамблевую модель Hunyuan-MT-Chimera, обеспечивая высокое качество перевода и выдающиеся результаты на международных конкурсах.

🚀Основные моменты:
- Первое место в 30 из 31 категории на WMT25.
- Лидер по производительности среди моделей аналогичного масштаба.
- Первая открытая ансамблевая модель перевода.
- Комплексная структура обучения для достижения SOTA результатов.

📌 GitHub: https://github.com/Tencent-Hunyuan/Hunyuan-MT

#python
🎤 Создание речи с Qwen3-TTS

Qwen3-TTS — это мощный инструм
ент для генерации речи, предлагающий поддержку клонирования голоса, дизайна голоса и высококачественной синтезированной речи. Модель поддерживает множество языков и позволяет управлять интонацией и эмоциями в зависимости от текста.

🚀 Основные моменты:
- Поддержка 10 языков и различных диалектов.
- Высокая скорость генерации с низкой задержкой.
- Интуитивное управление голосом через текстовые команды.
- Эффективная архитектура для качественного синтеза речи.

📌 GitHub: https://github.com/QwenLM/Qwen3-TTS

#python
👍1
🚀 Встречайте asr_eval: наш новый открытый инструментарий для оценки и сравнения ASR-моделей!

Мы в SibNN постоянно работаем над тем, чтобы наше распознавание речи было самым точным и быстрым. Но как объективно сравнить новую модель с предыдущей версией или с SOTA-решениями от Sber, NVIDIA, OpenAI и другими open-source проектами? Раньше это была боль: разные метрики, форматы, тайминги, куча скриптов под каждый эксперимент.

Чтобы упростить себе жизнь и дать сообществу удобный стандарт, мы разработали asr_eval — open-source Python-библиотеку, которая меняет подход к тестированию систем распознавания речи. Репозиторий только что открыт, и мы ищем первых пользователей и контрибьюторов!

Зачем это нужно?
До сих пор сравнение ASR-моделей часто было головной болью. asr_eval решает эти проблемы «из коробки», предлагая единый, гибкий и мощный фреймворк.

Что умеет библиотека?

🧪 Глубокая оценка (Evaluation)
Поддерживает расширенный синтаксис аннотаций с множественными референсами и блоками. Это позволяет тестировать модели на сложных кейсах (например, с разными вариантами расшифровки или шумами).

⚙️ Масштабный бенчмаркинг (Benchmarking)
Позволяет запускать сравнительные тесты моделей в автоматическом режиме. С его помощью мы регулярно сравниваем наши модели с популярными решениями (Whisper, Wav2Vec2, Nemo и др.) на единых датасетах. А встроенный веб-дашборд делает анализ результатов наглядным и удобным. Идеально для выбора лучшей модели под вашу задачу!

Поддержка стриминга (Streaming)
Уникальная фича! Библиотека содержит базовые классы и буферы для оценки моделей в реальном времени. Вы можете строить диаграммы задержек и качества прямо в процессе потокового распознавания — критично для голосовых ассистентов.

📦 Для кого это?
Разработчиков голосовых помощников, исследователей speech technologies, дата-сайентистов, которым нужен прозрачный и воспроизводимый процесс валидации ASR.

Мы выложили код на GitHub и активно развиваем проект. Приглашаем вас попробовать, форкнуть, предложить идеи или просто оценить.

👉 GitHub: https://github.com/SibNN/asr_eval
📚 Документация: sibnn.github.io/asr_eval/
📄 Препринт статьи с подробным описанием методологии и экспериментов: https://arxiv.org/abs/2601.20992

Сделаем ASR-оценку прозрачной и удобной вместе! 🔥

#asr_eval #sibnn #ASR #SpeechRecognition #OpenSource #Python #MachineLearning
👍51🤯1