Voice stuff
1.66K subscribers
426 photos
50 videos
3 files
581 links
Канал про голосовые технологии.

Чат группы @voice_stuff_chat

Здесь говорят про свежие подходы и решения в областях распознавания и синтеза речи, голосовой биометрии и про машинное обучение в целом.
Контакт: @frappuccino_o
Download Telegram
Giga IDE

Попробовал я Giga IDE. Сами модельки для кодинга кажется уже примерно одинаково хороши/плохи везде.

Скачиваю.
1. сразу нужно делать xattr - будто аппка пиратская. Наверно сберу это тяжело исправить, но уверен моя мама не справится уже на этом этапе.

2. запускаю IDE и вижу там PyCharm вместо VSCode. Vscode люблю тем что на нём нормально работает SSH. В GigaChat (PyCharm) чтобы писать код в удалённом проекте, его нужно скачать локально. Это может быть неприменимо по ряду причин. Думаю если GigaChat, да и PyCharm хотят стать крутыми IDE, то это надо пофиксить. Я не разрабатываю локально для ML ничего, т.к. на ноутах ничего не обучишь.

3. Генерация кода спрятана в меню, хотя её легко найти было. В курсоре удачи не найти где AI генерация кода.

4. Сама генерация кода через IDE не сработала. Конечно, надо наверно где-то что-то нажать чтобы залогинится, но я за 5 минут так и не нашёл.

В общем, у меня не получилось влить эту IDE в свой рабочий процесс.
Я тут выяснил что почти все wav2vec, которые лежат на huggingface - это вообще едва рабочие системы. Ну вот сами посмотрите:
https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-russian

Fine-tuned facebook/wav2vec2-large-xlsr-53 on Russian using the train and validation splits of Common Voice 6.1 and CSS10.


Common Voice, спросите любого - это вообще не точные данные. Там хоть и 200 с лишним часов, с ними всё равно не получится нормально работать.
CSS10 - там 21 час русской речи.

И получается система распознавания речи на таком языке как русский всего на ~300 часах грязных данных? Да у нас Иркутские школьники даже такими трейн сетами побрезгуют.

А это, на секундочку, модель, которую скачали 8М раз за ноябрь 2025. И именно на этой модели работает (не работает, кстати) whisperX: https://github.com/m-bain/whisperX/blob/d32ec3e3012ec4c0934f4088424c32f3f038b249/whisperx/alignment.py#L49

Напишите в комментариях какие алайнеры вы используете и может стоит адаптировать алайнер из whisperX под работу с https://github.com/facebookresearch/omnilingual-asr?
2
😁25👍5❤‍🔥3🤨1
https://annas-archive.li/blog/backing-up-spotify.html

70% песен на spotify почти никто не прослушал.
Зато самые популярные песни очень популярны.
👍3
Небольшая просьба к вам: скачайте любое видео, где много болтовни и это видео на незнакомом вам языке и любым удобным сервисом перевести на русский язык с дубляжом.

Например: “влог по путешествиям” или “новогодние традиции” перевести на корейский/китайский/турецкий/любой, вбить в google translate и результат закинуть в поиск по youtube. Потом это видео скачать и залить на какой-нибудь сервис ИИ-дубляжа, например langswap.app, но можно и любой другой из поисковика.

Как только закончите - заполните пожалуйста вот эту форму:
https://docs.google.com/forms/d/e/1FAIpQLScEdDFyq6Dcr8aYjg1DXNoGwqOyPwnS4sr2Qbd8LsIQpyc3cQ/viewform?usp=publish-editor

Мне очень важны ваши ответы! На их основе я хочу написать репортаж.
🖕81
Forwarded from GenAI monitor
📰 Qwen Research - Qwen3-TTS Steps Up: Voice Cloning and Voice Design!
**Qwen3-TTS** family has launched two new models: the voice design model Qwen3-TTS-VD-Flash (accessible via the [Qwen API](https://www.alibabacloud.com/help/en/model-studio/qwen-tts-voice-design)) and the voice cloning model Qwen3-TTS-VC-Flash (accessible via the [Qwen API](https://www.alibabacloud.

https://qwen.ai/blog?id=qwen3-tts-vc-voicedesign&from=research.latest-advancements-list


📰 Qwen Research - Qwen-Image-Edit-2511: Improve Consistency
We are excited to introduce Qwen-Image-Edit-2511, an enhanced version over Qwen-Image-Edit-2509, featuring multiple improvements—including notably better consistency. To try out the latest model, please visit [Qwen Chat](https://chat.qwen.ai/?inputFeature=image_edit) and select the Image Editing fea

https://qwen.ai/blog?id=qwen-image-edit-2511&from=research.latest-advancements-list
1
Нашёл сегодня довольно элегантный способ искать идеи для сервисов:

https://www.google.com/search?q=site%3Areddit.com+%22is+there+any+tool%3F%22+%22ai%22
7👍4
#gen #nf #flow
Нормализующий поток (NF) - это дифференцируемое обратимое преобразование из данных в случайный шум. Под потоком понимается, что таких преобразований много и они выполняются последовательно.
Нормализующие потоки позволяют оценивать плотность распределения и сэмплировать из распределения.
Пусть имеется истинное сложное распределение данных и с помощью последовательного применения обратимых преобразований получается простое распределение, с помощью которого происходит семплирования сложных объектов.
Использование нормализующих потоков при построении архитектуры нейронной сети накладывает требования, что преобразования (слои) должны быть дифференцируемы и обратимы.
Минимизация прямой KL дивергенции это максимизация правдоподобия для потоков. Чтобы в этом убедится запишем KL дивергенцию между исходным распределением p(x) и p(x|O) параметрическим распределением которое мы стараемся приблизить к истинному:
KL[p(x) || p(x|O)] = E[ log p(x) / p(x|O) ] = E[log p(x)] - E[log(p(f(x)) + log|det|J||]

где параметрическое распределение p(x|O) для нормализующих потоков выражается используя теорему о замене переменной: p(x|O) = p(f(x)) * log |det(J)| , а |det(J)| - определитель матрицы частных производных преобразования f (якобиан),

Теорема о дуальности KL дивергенции очень полезный трюк для оптимизации нормализующих потоков и вариационных автоэнкодеров.

Предположим имеется наше истинное распределение p(x) и имеется отображение f(x) с помощью которого получается простое распределение p(z) (нормальное). То по теореме дуальности KL дивергенции, мы самостоятельно можем выбирать пространство для оптимизации. Т.е. пусть p(x) истинное распределение, p(x|O) параметрическое распределение которое мы стараемся приблизить к истинному. Также у нас есть распределение p(z) и p(z|O) которые получаются через отображение f(x).
Тогда argmin KL(p(x) || p(x|O)) = argmin KL (p(z|O) || p(z))
и KL(p(x|O) || p(x)) = argmin KL (p(z) || p(z|O))
🤓6🔥1
Forwarded from Slavik
Недавно вышел Fun-CosyVoice3-0.5B-2512.
Русский поддерживает.
Пока проверил только TTS голосом по образцу и переозвучку другим голосом. Словил пару артефактов, где-то модель не попала в эмоции, но в целом однозначно заслуживающая внимания.

Вроде поддерживает теги для эмоций, интонации, и т.д.
2
Нашёл лекции ШАДа по обработке речи за 2025 год. Думаю прослушать его и вам того же желаю.

https://github.com/yandexdataschool/speech_course
13👍3🎉2🔥1
X (twitter) опубликовали свой алгоритм
Я его закинул в claude code и вот что выяснил. Собственно, я немного расстроился ведь секретного рецепта нет и всё довольно прямолинейно.

На основе кода алгоритма рекомендаций X, вот что влияет на вовлеченность и почему:

Для создателей контента

1. Максимизируйте ценные действия вовлеченности

Модель Phoenix предсказывает 14+ типов вовлеченности и комбинирует их с весами:
Финальный Score = Σ (вес × P(действие))

Сигналы высокой ценности (положительные веса):
- Ответы (Replies) - Указывает на контент, начинающий разговор
- Репосты/Цитаты - Сильный сигнал усиления
- Шеры - Ценность вне платформы
- Время просмотра (Dwell time) - Люди действительно читают ваш контент
- Клики на профиль - Интерес узнать о вас больше
- Подписка на автора - Самый сильный долгосрочный сигнал

Почему это работает: Эти действия имеют больший вес, потому что указывают на настоящий интерес, а не
пассивное потребление.

2. Избегайте негативных сигналов

Негативные действия (отрицательные веса):
- not_interested, block_author, mute_author, report

Почему это работает: Они напрямую снижают ваш score. Пост с высокой предсказанной вероятностью
жалобы/блокировки получает пониженную оценку.

3. Постите регулярно, но не спамьте

AuthorDiversityScorer снижает оценки повторяющихся авторов для обеспечения разнообразия ленты.

Почему это работает: Если вы опубликуете 10 постов подряд, каждый последующий пост получит прогрессивно
более низкие оценки. Алгоритм хочет разнообразия в ленте.

4. Развивайте базу подписчиков

Thunder получает посты "в сети" от аккаунтов, на которые подписан пользователь, давая им базовое
присутствие перед ML-оценкой.

Почему это работает: Ваши подписчики видят ваш контент по умолчанию (в сети), затем модель Phoenix
оценивает его. Начинать с охвата подписчиков легче, чем стать вирусным с нуля.

5. Создавайте контент, который заставляет читать

P(dwell) - одно из предсказываемых действий - как долго кто-то остается на вашем посте.

Почему это работает: Трансформер Grok учится, что посты с высоким временем просмотра ценны. Пишите
содержательный контент, а не просто горячие высказывания.

В комментах ответ целиком. Сюда он не влез с картинкой

https://github.com/xai-org/x-algorithm
3
VibeVoice-ASR

🔥 Ключевые возможности

🕒 Однопроходная обработка до 60 минут: В отличие от классических ASR-моделей, которые режут аудио на короткие фрагменты (часто теряя общий контекст), VibeVoice ASR принимает до 60 минут непрерывного аудиоввода в пределах окна в 64K токенов. Это обеспечивает стабильное отслеживание спикеров и семантическую связность на протяжении всего часа.

👤 Пользовательские «горячие слова» (hotwords): Пользователи могут задавать свои hotwords (например, имена, технические термины или справочную информацию), чтобы направлять процесс распознавания и заметно повышать точность на доменно-специфичном контенте.

📝 Расширенная расшифровка (кто, когда, что): Модель одновременно выполняет ASR, диаризацию и проставление таймкодов, выдавая структурированный результат — кто что сказал и когда.

https://huggingface.co/microsoft/VibeVoice-ASR
🔥8
Voice stuff
Небольшая просьба к вам: скачайте любое видео, где много болтовни и это видео на незнакомом вам языке и любым удобным сервисом перевести на русский язык с дубляжом. Например: “влог по путешествиям” или “новогодние традиции” перевести на корейский/китай…
Я делаю материал для Forbes про AI-дубляж. Нужны реальные тесты от живых людей по поводу ИИ-дубляжа.

Задача простая:
1. Найдите любое видео с болтовнёй на языке, который вы НЕ понимаете (корейский/китайский/турецкий/и т.д.).
Примеры запросов: travel vlog / street interview / new year traditions / “как готовят” -> переводим через гугл перевод на другой язык и вбиваем в ютюб

2. Прогоните его через ЛЮБОЙ AI-дубляж.

3. Заполните короткую форму: что было кринж, что внезапно ок, где такое вообще приемлемо.

Бонус: каждому, кто сделает тест и заполнит форму - $200 кредитов на langswap.app. Этого хватит на перевод 100 видео. Кредиты не сгорают. Вдруг мы когда-то станем крутым сервисом - у вас будет практически неограниченный бесплатный доступ.

Форма: https://docs.google.com/forms/d/e/1FAIpQLScEdDFyq6Dcr8aYjg1DXNoGwqOyPwnS4sr2Qbd8LsIQpyc3cQ/viewform

Почему это важно: я хочу честно показать границы технологии - где AI-дубляж уже “норм”, а где пока опасно/неэтично/портит смысл. Ваши ответы пойдут в основу статьи.

Если сделаете - напишите в форме как вас узнать (ник/телега/email), чтобы я выдал кредиты.
🖕3🤝1
Тут мой дружище запускается на producthunt. Предлагает проверить ваш договор аренды жилья на типовые проблемы.

Заливайте свой договор ради интереса. Там есть free tier.

https://www.producthunt.com/products/check-rental-agreement
😁8👍4🥱3🔥2🖕2👎1🗿1
А вы кстати видели что завирусился clawdbot? Что думаете по этому поводу? Кто-то локально развернул уже, юзает?
В Forbes вышла моя статья про автодубляж 🤩

https://www.forbes.ru/tekhnologii/554358-masinal-naa-ozvucka-v-cem-zaklucautsa-problemy-ii-dublaza
2🔥19👍53👎1