Машинное обучение RU

⚡️ Снижение цен на API за последние 30 дней для лучших SOTA LLM

@machinelearning_ru

👍3❤2🔥2

2.36K viewsedited 07:17

🌟Qwen2-Audio: Общайтесь с LLM помощью голоса.

Qwen2-Audio - аудио-языковых модель, которая способна принимать аудио и текст на вход и генерировать текст на выходе.

Предусмотрено два режима взаимодействия:

🟠

голосовой чат: пользователи могут использовать голос для передачи инструкций модели без без ввода текста;

🟠

аудио-анализ: пользователи могут предоставлять аудиоинформацию (включая речь, звук, музыку) и текстовые инструкции для анализа.

Обе опубликованные модели поддерживают 8 языков и диалектов: китайский, английский, кантонский, французский, итальянский, испанский, немецкий и японский:

🟢

Qwen2-Audio-7B

🟢

Qwen2-Audio-7B-Instruct

Инференс на transformers в cli возможен в нескольких режимах:

🟠простой инференс модели Qwen2-Audio;

🟠

пакетный инференс (например, несколько текстовых запросов к аудиофайлу);

🟠

инференс анализа аудио (в этом режиме доступны и текстовые и аудио-инструкции);

🟠

инференс голосового чата.

▶️Локальный запуск с GradioUI:


# Ensure you have latest Hugging face transformers
pip install git+https://github.com/huggingface/transformers

# to build a web UI demoinstall the following packages
pip install -r requirements_web_demo.txt

# run Gradio web UI
python demo/web_demo_audio.py

📌Лицензирование : Apache 2.0

▪Страница проекта
▪Коллекция моделей на HF
▪Arxiv
▪Сообщество в Discord
▪Demo
▪Github [ Stars: 618 | Issues: 7 | Forks: 17]

@ai_machinelearning_big_data

#AI #LLM #ML #Qwen2

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤2🔥2

1.89K views08:47

Машинное обучение RU

0:58

This media is not supported in your browser

VIEW IN TELEGRAM

🖼 Живые портреты🔥

LivePortrait: Эффективная анимация портретов с возможностью сшивания и управления ретаргетингом

🧬code: https://github.com/KwaiVGI/LivePortrait
🍇runpod serverless: https://github.com/camenduru/live-portrait-i2v-tost
🍇runpod template: https://github.com/camenduru/liveportrait-runpod
🍊jupyter: https://github.com/camenduru/LivePortrait-jupyter

@machinelearning_ru

👍3❤2🔥2

2.19K views08:51

Машинное обучение RU

Как сократить расходы на инференс LLM? Кейс компании “Актион”
22 августа, 16:00

Selectel проводет вебинар, на котором расскажет, как команда «Актион» сократила расходы на GPU на 60% и увеличила пропускную способность в 36 раз благодаря решению Compressa на инфраструктуре Selectel.

Вместе с коллегами из Compressa и «Актион» обсудим способы оптимизации open-source LLM-моделей на своем сервере и преимущества использования облака для инференса LLM. Сравним производительность LLM и стоимость токенов до и после оптимизации. Разберем кейс «Актион» и Compressa по обработке 100 000+ генераций в день всего на одной GPU-карте и узнаем, как удалось сократить расходы на инференс LLM.

Мероприятие бесплатное. Посмотреть программу вебинара и зарегистрироваться можно по ссылке: https://slc.tl/xkpd9

Реклама АО «Селектел». ИНН: 7810962785
Erid: 2VtzquuKHNc

👍1

2.09K views08:49

Машинное обучение RU

Forwarded from Machinelearning

🌟Parler-TTS: качественный синтез речи по тексту на английском языке.

Parler-TTS - это модели текст-в-речь (TTS), способные генерировать качественную, естественно звучащую речь в заданном стиле (пол, тон, тип речи и т. д.).
Все датасеты обучения, предварительная обработка, код обучения и веса выпускаются публично, что даст возможность сообществу строить на нашей работе и разрабатывать свои собственные модифицированные модели TTS. Обе модели обучались на 45 тысячах часов англоязычных аудиокниг.

Parler-TTS - это авторегрессионная модель, основанная на трансформерах, которая генерирует аудиотокены в причинно-следственном порядке. Код для инференса Parler-TTS оптимизирован для быстрой генерации благодаря совместимости с SDPA и Flash Attention 2.

Архитектура Parler-TTS состоит из трех частей: текстовый кодировщик (Flan-T5), декодер и аудиокодек DAC. Текстовый кодировщик преобразует текст в скрытые состояния, декодер генерирует аудиотокены на основе этих состояний, а аудиокодек восстанавливает аудиосигнал из аудиотокенов.

Модели:

🟢

Parler-TTS Mini - 880 миллионов параметров

🟢

Parler-TTS Large - 2,3 миллиарда параметров

Характеристиками речи (пол, темп речи, высота тона и реверберация) можно управлять непосредственно через текстовый промпт. Например:

🟠Добавьте промпт "very clear audio" для создания аудио высокого качества, а "very noisy audio" - для высокого уровня фонового шума;
🟠Пунктуация может использоваться для управления просодией генерации - используйте запятые, чтобы добавить небольшие паузы в речь.

▶️Установка и запуск:

# Clone repository and install dependences:
pip install git+https://github.com/huggingface/parler-tts.git

# Inference with random voice
import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf

device = "cuda:0" if torch.cuda.is_available() else "cpu"

model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-mini-v1").to(device)
tokenizer = AutoTokenizer.from_pretrained("parler-tts/parler-tts-mini-v1")

prompt = "Hey, how are you doing today?"
description = "A female speaker delivers a slightly expressive and animated speech with a moderate speed and pitch. The recording is of very high quality, with the speaker's voice sounding clear and very close up."

input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)

generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
audio_arr = generation.cpu().numpy().squeeze()
sf.write("parler_tts_out.wav", audio_arr, model.config.sampling_rate)y

📌Лицензирование : Apache-2.0 license

🟡

Модель Parler-TTS Mini

🟡

Модель Parler-TTS Large

🟡

Arxiv

🟡

Demo Video

🟡

Google Collab (файнтюн)

🟡

Demo

🖥

Github [ Stars: 3.4K | Issues: 49 | Forks: 338]

@ai_machinelearning_big_data

#AI #Parler #ML #TTS

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1🔥1

1.7K views10:52

Машинное обучение RU

Сейчас много говорят про машинное обучение, и у каждого свое видение. Мои друзья из VK сделали классный канал, где команды, занимающиеся ML, делятся своим опытом. Каждый месяц там появляются новые посты о сервисах, продуктах, процессах создания моделей, и даже атмосфере внутри команд. Всё по-настоящему и без прикрас!

Вот что мне особенно запомнилось:
- Про современные подходы к кластеризации текста с помощью больших языковых моделей
- Про создание персонального эмбеддинга пользователя

Если вам тоже интересно машинное обучение, обязательно загляните в канал. #ML #машиннообучение #подписывайся

👍6❤4🔥3

2.19K views11:02

🍏🍎🍒 FruitNeRF: CV система поиска и подсчета фруктов на основе нейронного поля Radiance Field

Использует NeRFs для подсчета фруктов любого типа в 3D пространстве.
Код является расширением Nerf studio!

Статья: https://arxiv.org/abs/2408.06190
Проект: https://meyerls.github.io/fruit_nerf/
Код: https://github.com/meyerls/FruitNeRF

@machinelearning_ru

🔥15❤4👍3

2.55K views07:16

Машинное обучение RU

🔥 Выпущен Keras 3.5.0

- Добавлена интеграция с Hugging Face Hub.
Теперь можно сохранять модели на Hugging Face Hub напрямую через keras.Model.save(), а также загружать .keras модели с Hub с помощью keras.saving.load_model().

- Обеспечена совместимость с NumPy 2.0.

- Добавлены новые методы и операции.

- Исправлены ошибки и улучшена производительность.

📌Github

@machinelearning_ru

👍7❤2🔥2😁1

2.25K viewsedited 07:14

Машинное обучение RU

0:26

This media is not supported in your browser

VIEW IN TELEGRAM

Представляем FLUX. LoRa - Explorer 🧭✨

FLUX "LoRA the Explorer" — эта нейросеть, может похвастаться одним из самых точных пониманий промпта и отличается исключительной работой с текстом.

▶️ https://huggingface.co/spaces/multimodalart/flux-lora-the-explorer

@machinelearning_ru

👍6❤2🔥2

2.47K views10:52

Машинное обучение RU

Forwarded from Анализ данных (Data analysis)

1:28

Media is too big

VIEW IN TELEGRAM

🌟

NVIDIA Kaolin — библиотека PyTorch для ускорения работы с 3D

pip install kaolin==0.16.0 -f https://nvidia-kaolin.s3.us-east-2.amazonaws.com/torch-{TORCH_VERSION}_cu{CUDA_VERSION}.html

Библиотека NVIDIA Kaolin предоставляет PyTorch API для работы с различными 3D-представлениями и включает коллекцию GPU-оптимизированных операций, таких как модульный рендеринг, быстрые преобразования между представлениями и других операций.

🖥

GitHub

🟡

Страничка NVIDIA Kaolin

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🔥4

2.11K views15:49

Машинное обучение RU

Новый пакет на Python, который превращает "Рецепт обучения нейронных сетей" от Андрея Карпати.
в простой в использовании код! 🔧

Больше не нужно беспорядочно копаться в вашем PyTorch DNN для его отладки.

Вы можете просто поставить себе этот пакет:
pip intall neural_net_checklist

и использовать пакет torch_diagnostic для проверки кода на наличие ошибок.

📌 Github

@machinelearning_ru

👍9❤4🔥4

2.78K views08:20

Машинное обучение RU

⭐️

Модель VAR+CLIP для генерации изображений

модель, которая позволяет создавать детализированные изображения, которые точно соответствуют текстовому промнут, комбинируя методы визуальной авторегрессии с CLIP!

Обучена на очень большом дотаяете данных изображения-текст.

📌 Github

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤2🔥2

2.28K views10:35

Машинное обучение RU

🔥 Создание изображения с высоким разрешением 16к, с использованием модели Flux-Dev + промыты для обучения Controlnet.

Датасет: https://huggingface.co/datasets/kadirnar/fluxdev_controlnet_16k

Датасет промптов: https://huggingface.co/datasets/gokaygokay/prompt-enhancer-dataset

@machinelearning_ru

👍4❤3🔥2

2.17K views16:02

Машинное обучение RU

Forwarded from Machinelearning

🌟DeepSeek-Prover: Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search.

DeepSeek-Prover-V1.5 - набор из языковых моделей для доказательства теорем в Lean 4.
"V1.5" означает обновление DeepSeek-Prover-V1 с некоторыми ключевыми нововведениями.

Во-первых, процесс обучения: предварительная подготовка на базе DeepSeekMath, затем контрольная работа с набором данных, включающим логические комментарии на естественном языке и код Lean 4. Это устраняет разрыв между рассуждениями на естественном языке и формальным доказательством теоремы. В набор данных также входит информация о промежуточном тактическом состоянии, которая помогает модели эффективно использовать обратную связь с компилятором.

Во-вторых, проводится обучение с подкреплением, используя алгоритм GRPO для изучения обратной связи с помощником по проверке. Тут выравнивается соответствие модели формальным спецификациям системы проверки.

В-третьих, RMaxTS, варианте поиска в дереве по методу Монте-Карло. Он присваивает встроенные вознаграждения на основе изучения тактического пространства состояний, побуждая модель генерировать различные пути доказательства. Это приводит к более обширному исследованию пространства доказательств.

В результате получился набор моделей с абсолютной точностью генерации в 46,3% на тестовом наборе miniF2F. Этот показатель лучше, чем у GPT-4 и моделей RL, специализирующихся на доказательстве теорем.

Набор DeepSeek-Prover:

🟠

DeepSeek-Prover-V1.5 Base. Идеально подходит для первоначального изучения и понимания возможностей модели и основ для формальных математических рассуждений, но требует дальнейшего обучения для оптимальной работы;

🟠

DeepSeek-Prover-V1.5 SFT. Модель для задач, требующих умеренных навыков доказательства теорем за счет рассуждений на естественном языке и информации о тактическом состоянии.

🟠

DeepSeek-Prover-V1.5 RL. Рекомендуется для решений, требующих высочайшей точности и производительности при формальном доказательстве теорем. К SFT-версии добавлены дополнительная оптимизация на основе Proof Assistant Feedback и обучение с подкреплением.

▶️Установка и запуск:

# Clone the repository:
git clone --recurse-submodules git@github.com:deepseek-ai/DeepSeek-Prover-V1.5.git
cd DeepSeek-Prover-V1.5

# Install dependencies:
pip install -r requirements.txt

# Build Mathlib4:
cd mathlib4
lake build

# Run paper experiments:
python -m prover.launch --config=configs/RMaxTS.py --log_dir=logs/RMaxTS_results