Forwarded from Machinelearning
Qwen2-Audio - аудио-языковых модель, которая способна принимать аудио и текст на вход и генерировать текст на выходе.
Предусмотрено два режима взаимодействия:
Обе опубликованные модели поддерживают 8 языков и диалектов: китайский, английский, кантонский, французский, итальянский, испанский, немецкий и японский:
Инференс на transformers в cli возможен в нескольких режимах:
# Ensure you have latest Hugging face transformers
pip install git+https://github.com/huggingface/transformers
# to build a web UI demoinstall the following packages
pip install -r requirements_web_demo.txt
# run Gradio web UI
python demo/web_demo_audio.py
📌Лицензирование : Apache 2.0
▪Страница проекта
▪Коллекция моделей на HF
▪Arxiv
▪Сообщество в Discord
▪Demo
▪Github [ Stars: 618 | Issues: 7 | Forks: 17]
@ai_machinelearning_big_data
#AI #LLM #ML #Qwen2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🖼 Живые портреты🔥
LivePortrait: Эффективная анимация портретов с возможностью сшивания и управления ретаргетингом
🧬code: https://github.com/KwaiVGI/LivePortrait
🍇runpod serverless: https://github.com/camenduru/live-portrait-i2v-tost
🍇runpod template: https://github.com/camenduru/liveportrait-runpod
🍊jupyter: https://github.com/camenduru/LivePortrait-jupyter
@machinelearning_ru
LivePortrait: Эффективная анимация портретов с возможностью сшивания и управления ретаргетингом
🧬code: https://github.com/KwaiVGI/LivePortrait
🍇runpod serverless: https://github.com/camenduru/live-portrait-i2v-tost
🍇runpod template: https://github.com/camenduru/liveportrait-runpod
🍊jupyter: https://github.com/camenduru/LivePortrait-jupyter
@machinelearning_ru
👍3❤2🔥2
Как сократить расходы на инференс LLM? Кейс компании “Актион”
22 августа, 16:00
Selectel проводет вебинар, на котором расскажет, как команда «Актион» сократила расходы на GPU на 60% и увеличила пропускную способность в 36 раз благодаря решению Compressa на инфраструктуре Selectel.
Вместе с коллегами из Compressa и «Актион» обсудим способы оптимизации open-source LLM-моделей на своем сервере и преимущества использования облака для инференса LLM. Сравним производительность LLM и стоимость токенов до и после оптимизации. Разберем кейс «Актион» и Compressa по обработке 100 000+ генераций в день всего на одной GPU-карте и узнаем, как удалось сократить расходы на инференс LLM.
Мероприятие бесплатное. Посмотреть программу вебинара и зарегистрироваться можно по ссылке: https://slc.tl/xkpd9
Реклама АО «Селектел». ИНН: 7810962785
Erid: 2VtzquuKHNc
22 августа, 16:00
Selectel проводет вебинар, на котором расскажет, как команда «Актион» сократила расходы на GPU на 60% и увеличила пропускную способность в 36 раз благодаря решению Compressa на инфраструктуре Selectel.
Вместе с коллегами из Compressa и «Актион» обсудим способы оптимизации open-source LLM-моделей на своем сервере и преимущества использования облака для инференса LLM. Сравним производительность LLM и стоимость токенов до и после оптимизации. Разберем кейс «Актион» и Compressa по обработке 100 000+ генераций в день всего на одной GPU-карте и узнаем, как удалось сократить расходы на инференс LLM.
Мероприятие бесплатное. Посмотреть программу вебинара и зарегистрироваться можно по ссылке: https://slc.tl/xkpd9
Реклама АО «Селектел». ИНН: 7810962785
Erid: 2VtzquuKHNc
👍1
Forwarded from Machinelearning
Parler-TTS - это модели текст-в-речь (TTS), способные генерировать качественную, естественно звучащую речь в заданном стиле (пол, тон, тип речи и т. д.).
Все датасеты обучения, предварительная обработка, код обучения и веса выпускаются публично, что даст возможность сообществу строить на нашей работе и разрабатывать свои собственные модифицированные модели TTS. Обе модели обучались на 45 тысячах часов англоязычных аудиокниг.
Parler-TTS - это авторегрессионная модель, основанная на трансформерах, которая генерирует аудиотокены в причинно-следственном порядке. Код для инференса Parler-TTS оптимизирован для быстрой генерации благодаря совместимости с SDPA и Flash Attention 2.
Архитектура Parler-TTS состоит из трех частей: текстовый кодировщик (Flan-T5), декодер и аудиокодек DAC. Текстовый кодировщик преобразует текст в скрытые состояния, декодер генерирует аудиотокены на основе этих состояний, а аудиокодек восстанавливает аудиосигнал из аудиотокенов.
Модели:
Характеристиками речи (пол, темп речи, высота тона и реверберация) можно управлять непосредственно через текстовый промпт. Например:
# Clone repository and install dependences:
pip install git+https://github.com/huggingface/parler-tts.git
# Inference with random voice
import torch
from parler_tts import ParlerTTSForConditionalGeneration
from transformers import AutoTokenizer
import soundfile as sf
device = "cuda:0" if torch.cuda.is_available() else "cpu"
model = ParlerTTSForConditionalGeneration.from_pretrained("parler-tts/parler-tts-mini-v1").to(device)
tokenizer = AutoTokenizer.from_pretrained("parler-tts/parler-tts-mini-v1")
prompt = "Hey, how are you doing today?"
description = "A female speaker delivers a slightly expressive and animated speech with a moderate speed and pitch. The recording is of very high quality, with the speaker's voice sounding clear and very close up."
input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)
generation = model.generate(input_ids=input_ids, prompt_input_ids=prompt_input_ids)
audio_arr = generation.cpu().numpy().squeeze()
sf.write("parler_tts_out.wav", audio_arr, model.config.sampling_rate)y
@ai_machinelearning_big_data
#AI #Parler #ML #TTS
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1🔥1
Сейчас много говорят про машинное обучение, и у каждого свое видение. Мои друзья из VK сделали классный канал, где команды, занимающиеся ML, делятся своим опытом. Каждый месяц там появляются новые посты о сервисах, продуктах, процессах создания моделей, и даже атмосфере внутри команд. Всё по-настоящему и без прикрас!
Вот что мне особенно запомнилось:
- Про современные подходы к кластеризации текста с помощью больших языковых моделей
- Про создание персонального эмбеддинга пользователя
Если вам тоже интересно машинное обучение, обязательно загляните в канал. #ML #машиннообучение #подписывайся
Вот что мне особенно запомнилось:
- Про современные подходы к кластеризации текста с помощью больших языковых моделей
- Про создание персонального эмбеддинга пользователя
Если вам тоже интересно машинное обучение, обязательно загляните в канал. #ML #машиннообучение #подписывайся
👍6❤4🔥3
Media is too big
VIEW IN TELEGRAM
🍏🍎🍒 FruitNeRF: CV система поиска и подсчета фруктов на основе нейронного поля Radiance Field
Использует NeRFs для подсчета фруктов любого типа в 3D пространстве.
Код является расширением Nerf studio!
Статья: https://arxiv.org/abs/2408.06190
Проект: https://meyerls.github.io/fruit_nerf/
Код: https://github.com/meyerls/FruitNeRF
@machinelearning_ru
Использует NeRFs для подсчета фруктов любого типа в 3D пространстве.
Код является расширением Nerf studio!
Статья: https://arxiv.org/abs/2408.06190
Проект: https://meyerls.github.io/fruit_nerf/
Код: https://github.com/meyerls/FruitNeRF
@machinelearning_ru
🔥15❤4👍3
🔥 Выпущен Keras 3.5.0
- Добавлена интеграция с Hugging Face Hub.
Теперь можно сохранять модели на Hugging Face Hub напрямую через
- Обеспечена совместимость с NumPy 2.0.
- Добавлены новые методы и операции.
- Исправлены ошибки и улучшена производительность.
📌Github
@machinelearning_ru
- Добавлена интеграция с Hugging Face Hub.
Теперь можно сохранять модели на Hugging Face Hub напрямую через
keras.Model.save(), а также загружать .keras модели с Hub с помощью keras.saving.load_model().- Обеспечена совместимость с NumPy 2.0.
- Добавлены новые методы и операции.
- Исправлены ошибки и улучшена производительность.
📌Github
@machinelearning_ru
👍7❤2🔥2😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Представляем FLUX. LoRa - Explorer 🧭✨
FLUX "LoRA the Explorer" — эта нейросеть, может похвастаться одним из самых точных пониманий промпта и отличается исключительной работой с текстом.
▶️ https://huggingface.co/spaces/multimodalart/flux-lora-the-explorer
@machinelearning_ru
FLUX "LoRA the Explorer" — эта нейросеть, может похвастаться одним из самых точных пониманий промпта и отличается исключительной работой с текстом.
▶️ https://huggingface.co/spaces/multimodalart/flux-lora-the-explorer
@machinelearning_ru
👍6❤2🔥2
Forwarded from Анализ данных (Data analysis)
pip install kaolin==0.16.0 -f https://nvidia-kaolin.s3.us-east-2.amazonaws.com/torch-{TORCH_VERSION}_cu{CUDA_VERSION}.htmlБиблиотека NVIDIA Kaolin предоставляет PyTorch API для работы с различными 3D-представлениями и включает коллекцию GPU-оптимизированных операций, таких как модульный рендеринг, быстрые преобразования между представлениями и других операций.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥4
Новый пакет на Python, который превращает "Рецепт обучения нейронных сетей" от Андрея Карпати.
в простой в использовании код! 🔧
Больше не нужно беспорядочно копаться в вашем PyTorch DNN для его отладки.
Вы можете просто поставить себе этот пакет:
и использовать пакет
📌 Github
@machinelearning_ru
в простой в использовании код! 🔧
Больше не нужно беспорядочно копаться в вашем PyTorch DNN для его отладки.
Вы можете просто поставить себе этот пакет:
pip intall neural_net_checklist и использовать пакет
torch_diagnostic для проверки кода на наличие ошибок.📌 Github
@machinelearning_ru
👍9❤4🔥4
модель, которая позволяет создавать детализированные изображения, которые точно соответствуют текстовому промнут, комбинируя методы визуальной авторегрессии с CLIP!
Обучена на очень большом дотаяете данных изображения-текст.
📌 Github
@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤2🔥2
🔥 Создание изображения с высоким разрешением 16к, с использованием модели Flux-Dev + промыты для обучения Controlnet.
Датасет: https://huggingface.co/datasets/kadirnar/fluxdev_controlnet_16k
Датасет промптов: https://huggingface.co/datasets/gokaygokay/prompt-enhancer-dataset
@machinelearning_ru
Датасет: https://huggingface.co/datasets/kadirnar/fluxdev_controlnet_16k
Датасет промптов: https://huggingface.co/datasets/gokaygokay/prompt-enhancer-dataset
@machinelearning_ru
👍4❤3🔥2
Forwarded from Machinelearning
DeepSeek-Prover-V1.5 - набор из языковых моделей для доказательства теорем в Lean 4.
"V1.5" означает обновление DeepSeek-Prover-V1 с некоторыми ключевыми нововведениями.
Во-первых, процесс обучения: предварительная подготовка на базе DeepSeekMath, затем контрольная работа с набором данных, включающим логические комментарии на естественном языке и код Lean 4. Это устраняет разрыв между рассуждениями на естественном языке и формальным доказательством теоремы. В набор данных также входит информация о промежуточном тактическом состоянии, которая помогает модели эффективно использовать обратную связь с компилятором.
Во-вторых, проводится обучение с подкреплением, используя алгоритм GRPO для изучения обратной связи с помощником по проверке. Тут выравнивается соответствие модели формальным спецификациям системы проверки.
В-третьих, RMaxTS, варианте поиска в дереве по методу Монте-Карло. Он присваивает встроенные вознаграждения на основе изучения тактического пространства состояний, побуждая модель генерировать различные пути доказательства. Это приводит к более обширному исследованию пространства доказательств.
В результате получился набор моделей с абсолютной точностью генерации в 46,3% на тестовом наборе miniF2F. Этот показатель лучше, чем у GPT-4 и моделей RL, специализирующихся на доказательстве теорем.
Набор DeepSeek-Prover:
# Clone the repository:
git clone --recurse-submodules git@github.com:deepseek-ai/DeepSeek-Prover-V1.5.git
cd DeepSeek-Prover-V1.5
# Install dependencies:
pip install -r requirements.txt
# Build Mathlib4:
cd mathlib4
lake build
# Run paper experiments:
python -m prover.launch --config=configs/RMaxTS.py --log_dir=logs/RMaxTS_results
@ai_machinelearning_big_data
#AI #LLM #Math #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥2