Voice stuff
1.66K subscribers
426 photos
50 videos
3 files
581 links
Канал про голосовые технологии.

Чат группы @voice_stuff_chat

Здесь говорят про свежие подходы и решения в областях распознавания и синтеза речи, голосовой биометрии и про машинное обучение в целом.
Контакт: @frappuccino_o
Download Telegram
Облака

У меня складывается впечатление что нужно отказываться от облачных сервисов. ChatGPT в облаке, фотки в облаке, музыка в облаке, почта в облаке. Это всё действительно удобно с той позиции что не забивает места на телефоне и на ноуте и есть доступ отовсюду. Но кажется времена сильно изменились и эти удобства превращаются больше в блокер, чем в фичу.

У меня в какой-то момент весь слепок моей жизни был в vk.com: фотки, музыка, видео, друзья, социальные связи - всё было там. ВК все перестали пользоваться и переехали на другие соцсети.

Потом меня больше впечатлил instagram, часть жизни переехала туда - там крутые фотки, крутые сторисы, контакты людей. В одночасье теперь это невозможно ни достать ни использовать как-то. Они больше не оперируют в РФ.

Сейчас у меня многое в телеграме - вот даже этот канал. Разумеется если телеграм передумает со мной дружить - это невозможно никуда портировать.

С финансовой точки зрения тоже есть вопросы.
Раньше платил за Netflix потому что много контента было. Теперь сколько подписок бы у меня не было - я могу остаться без сериала/фильма и приходится идти на торренты. Тогда зачем вообще платить изначально было?

По музыке теперь у каждого сервиса тоже есть уникальный контент. Ни на яндекс музыке, ни на apple музыке, ни на ВК нет всеобъемлющей библиотеки всех треков и плейлисты невозможно пошарить. В какой-то момент я листаю свои избранные треки, а там одно 💩 осталось - оказалось что из яндекс музыки копирайтом вынесли пол библиотеки.

Ну и платить за все подписки это ещё и очень дорого. Я как-то платил по $600/мес за все свои подписки. Там был Amazon Prime, Youtube, Netflix, Google One, Apple 1tb, Яндекс, ChatGPT, Cursor, Chase (банк), Ventureloop, Invoicehome, Toggl tracker, calendly, linkedin, почта на ionos, forwardemail, perplexity, notion, adobe, zoom, telegram и что-то ещё. Нормально так набегает!

Это можно бесконечно продолжать. Я дарю сервисам свои данные и деньги в обмен на удобство, но enshittification поджидает каждый сервис и это невозможно не замечать. Потом из этих сервисов крайне тяжело выйти. Удачи экспортировать плейлисты, выкачать фотки, сохранить историю сообщений.

Думаю как бы из всего этого выбраться. У меня куча компов, два статических IP и я точно могу распихать какие-то критические удобства по своим сервакам. Да и в конце концов, компы уже такие мощные что можно без особого труда запускать даже клоны chatgpt локально на ноуте, чего уж там говорить про музыку и фотогалерею, которые вообще из коробки заводились на любом компе ещё на 20 лет назад.

В общем, рассматриваю побольше разворачивать сервисов локально в ближайшем будущем.

Так вот, у меня одного такие ощущения? Какие у вас мысли на этот счёт? Пытались ли что-то подобное сделать? Получилось или плюнули?
14👍9🔥3
Giga IDE

Попробовал я Giga IDE. Сами модельки для кодинга кажется уже примерно одинаково хороши/плохи везде.

Скачиваю.
1. сразу нужно делать xattr - будто аппка пиратская. Наверно сберу это тяжело исправить, но уверен моя мама не справится уже на этом этапе.

2. запускаю IDE и вижу там PyCharm вместо VSCode. Vscode люблю тем что на нём нормально работает SSH. В GigaChat (PyCharm) чтобы писать код в удалённом проекте, его нужно скачать локально. Это может быть неприменимо по ряду причин. Думаю если GigaChat, да и PyCharm хотят стать крутыми IDE, то это надо пофиксить. Я не разрабатываю локально для ML ничего, т.к. на ноутах ничего не обучишь.

3. Генерация кода спрятана в меню, хотя её легко найти было. В курсоре удачи не найти где AI генерация кода.

4. Сама генерация кода через IDE не сработала. Конечно, надо наверно где-то что-то нажать чтобы залогинится, но я за 5 минут так и не нашёл.

В общем, у меня не получилось влить эту IDE в свой рабочий процесс.
Я тут выяснил что почти все wav2vec, которые лежат на huggingface - это вообще едва рабочие системы. Ну вот сами посмотрите:
https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-russian

Fine-tuned facebook/wav2vec2-large-xlsr-53 on Russian using the train and validation splits of Common Voice 6.1 and CSS10.


Common Voice, спросите любого - это вообще не точные данные. Там хоть и 200 с лишним часов, с ними всё равно не получится нормально работать.
CSS10 - там 21 час русской речи.

И получается система распознавания речи на таком языке как русский всего на ~300 часах грязных данных? Да у нас Иркутские школьники даже такими трейн сетами побрезгуют.

А это, на секундочку, модель, которую скачали 8М раз за ноябрь 2025. И именно на этой модели работает (не работает, кстати) whisperX: https://github.com/m-bain/whisperX/blob/d32ec3e3012ec4c0934f4088424c32f3f038b249/whisperx/alignment.py#L49

Напишите в комментариях какие алайнеры вы используете и может стоит адаптировать алайнер из whisperX под работу с https://github.com/facebookresearch/omnilingual-asr?
2
😁25👍5❤‍🔥3🤨1
https://annas-archive.li/blog/backing-up-spotify.html

70% песен на spotify почти никто не прослушал.
Зато самые популярные песни очень популярны.
👍3
Небольшая просьба к вам: скачайте любое видео, где много болтовни и это видео на незнакомом вам языке и любым удобным сервисом перевести на русский язык с дубляжом.

Например: “влог по путешествиям” или “новогодние традиции” перевести на корейский/китайский/турецкий/любой, вбить в google translate и результат закинуть в поиск по youtube. Потом это видео скачать и залить на какой-нибудь сервис ИИ-дубляжа, например langswap.app, но можно и любой другой из поисковика.

Как только закончите - заполните пожалуйста вот эту форму:
https://docs.google.com/forms/d/e/1FAIpQLScEdDFyq6Dcr8aYjg1DXNoGwqOyPwnS4sr2Qbd8LsIQpyc3cQ/viewform?usp=publish-editor

Мне очень важны ваши ответы! На их основе я хочу написать репортаж.
🖕81
Forwarded from GenAI monitor
📰 Qwen Research - Qwen3-TTS Steps Up: Voice Cloning and Voice Design!
**Qwen3-TTS** family has launched two new models: the voice design model Qwen3-TTS-VD-Flash (accessible via the [Qwen API](https://www.alibabacloud.com/help/en/model-studio/qwen-tts-voice-design)) and the voice cloning model Qwen3-TTS-VC-Flash (accessible via the [Qwen API](https://www.alibabacloud.

https://qwen.ai/blog?id=qwen3-tts-vc-voicedesign&from=research.latest-advancements-list


📰 Qwen Research - Qwen-Image-Edit-2511: Improve Consistency
We are excited to introduce Qwen-Image-Edit-2511, an enhanced version over Qwen-Image-Edit-2509, featuring multiple improvements—including notably better consistency. To try out the latest model, please visit [Qwen Chat](https://chat.qwen.ai/?inputFeature=image_edit) and select the Image Editing fea

https://qwen.ai/blog?id=qwen-image-edit-2511&from=research.latest-advancements-list
1
Нашёл сегодня довольно элегантный способ искать идеи для сервисов:

https://www.google.com/search?q=site%3Areddit.com+%22is+there+any+tool%3F%22+%22ai%22
7👍4
#gen #nf #flow
Нормализующий поток (NF) - это дифференцируемое обратимое преобразование из данных в случайный шум. Под потоком понимается, что таких преобразований много и они выполняются последовательно.
Нормализующие потоки позволяют оценивать плотность распределения и сэмплировать из распределения.
Пусть имеется истинное сложное распределение данных и с помощью последовательного применения обратимых преобразований получается простое распределение, с помощью которого происходит семплирования сложных объектов.
Использование нормализующих потоков при построении архитектуры нейронной сети накладывает требования, что преобразования (слои) должны быть дифференцируемы и обратимы.
Минимизация прямой KL дивергенции это максимизация правдоподобия для потоков. Чтобы в этом убедится запишем KL дивергенцию между исходным распределением p(x) и p(x|O) параметрическим распределением которое мы стараемся приблизить к истинному:
KL[p(x) || p(x|O)] = E[ log p(x) / p(x|O) ] = E[log p(x)] - E[log(p(f(x)) + log|det|J||]

где параметрическое распределение p(x|O) для нормализующих потоков выражается используя теорему о замене переменной: p(x|O) = p(f(x)) * log |det(J)| , а |det(J)| - определитель матрицы частных производных преобразования f (якобиан),

Теорема о дуальности KL дивергенции очень полезный трюк для оптимизации нормализующих потоков и вариационных автоэнкодеров.

Предположим имеется наше истинное распределение p(x) и имеется отображение f(x) с помощью которого получается простое распределение p(z) (нормальное). То по теореме дуальности KL дивергенции, мы самостоятельно можем выбирать пространство для оптимизации. Т.е. пусть p(x) истинное распределение, p(x|O) параметрическое распределение которое мы стараемся приблизить к истинному. Также у нас есть распределение p(z) и p(z|O) которые получаются через отображение f(x).
Тогда argmin KL(p(x) || p(x|O)) = argmin KL (p(z|O) || p(z))
и KL(p(x|O) || p(x)) = argmin KL (p(z) || p(z|O))
🤓6🔥1
Forwarded from Slavik
Недавно вышел Fun-CosyVoice3-0.5B-2512.
Русский поддерживает.
Пока проверил только TTS голосом по образцу и переозвучку другим голосом. Словил пару артефактов, где-то модель не попала в эмоции, но в целом однозначно заслуживающая внимания.

Вроде поддерживает теги для эмоций, интонации, и т.д.
2
Нашёл лекции ШАДа по обработке речи за 2025 год. Думаю прослушать его и вам того же желаю.

https://github.com/yandexdataschool/speech_course
13👍3🎉2🔥1
X (twitter) опубликовали свой алгоритм
Я его закинул в claude code и вот что выяснил. Собственно, я немного расстроился ведь секретного рецепта нет и всё довольно прямолинейно.

На основе кода алгоритма рекомендаций X, вот что влияет на вовлеченность и почему:

Для создателей контента

1. Максимизируйте ценные действия вовлеченности

Модель Phoenix предсказывает 14+ типов вовлеченности и комбинирует их с весами:
Финальный Score = Σ (вес × P(действие))

Сигналы высокой ценности (положительные веса):
- Ответы (Replies) - Указывает на контент, начинающий разговор
- Репосты/Цитаты - Сильный сигнал усиления
- Шеры - Ценность вне платформы
- Время просмотра (Dwell time) - Люди действительно читают ваш контент
- Клики на профиль - Интерес узнать о вас больше
- Подписка на автора - Самый сильный долгосрочный сигнал

Почему это работает: Эти действия имеют больший вес, потому что указывают на настоящий интерес, а не
пассивное потребление.

2. Избегайте негативных сигналов

Негативные действия (отрицательные веса):
- not_interested, block_author, mute_author, report

Почему это работает: Они напрямую снижают ваш score. Пост с высокой предсказанной вероятностью
жалобы/блокировки получает пониженную оценку.

3. Постите регулярно, но не спамьте

AuthorDiversityScorer снижает оценки повторяющихся авторов для обеспечения разнообразия ленты.

Почему это работает: Если вы опубликуете 10 постов подряд, каждый последующий пост получит прогрессивно
более низкие оценки. Алгоритм хочет разнообразия в ленте.

4. Развивайте базу подписчиков

Thunder получает посты "в сети" от аккаунтов, на которые подписан пользователь, давая им базовое
присутствие перед ML-оценкой.

Почему это работает: Ваши подписчики видят ваш контент по умолчанию (в сети), затем модель Phoenix
оценивает его. Начинать с охвата подписчиков легче, чем стать вирусным с нуля.

5. Создавайте контент, который заставляет читать

P(dwell) - одно из предсказываемых действий - как долго кто-то остается на вашем посте.

Почему это работает: Трансформер Grok учится, что посты с высоким временем просмотра ценны. Пишите
содержательный контент, а не просто горячие высказывания.

В комментах ответ целиком. Сюда он не влез с картинкой

https://github.com/xai-org/x-algorithm
3
VibeVoice-ASR

🔥 Ключевые возможности

🕒 Однопроходная обработка до 60 минут: В отличие от классических ASR-моделей, которые режут аудио на короткие фрагменты (часто теряя общий контекст), VibeVoice ASR принимает до 60 минут непрерывного аудиоввода в пределах окна в 64K токенов. Это обеспечивает стабильное отслеживание спикеров и семантическую связность на протяжении всего часа.

👤 Пользовательские «горячие слова» (hotwords): Пользователи могут задавать свои hotwords (например, имена, технические термины или справочную информацию), чтобы направлять процесс распознавания и заметно повышать точность на доменно-специфичном контенте.

📝 Расширенная расшифровка (кто, когда, что): Модель одновременно выполняет ASR, диаризацию и проставление таймкодов, выдавая структурированный результат — кто что сказал и когда.

https://huggingface.co/microsoft/VibeVoice-ASR
🔥8
Voice stuff
Небольшая просьба к вам: скачайте любое видео, где много болтовни и это видео на незнакомом вам языке и любым удобным сервисом перевести на русский язык с дубляжом. Например: “влог по путешествиям” или “новогодние традиции” перевести на корейский/китай…
Я делаю материал для Forbes про AI-дубляж. Нужны реальные тесты от живых людей по поводу ИИ-дубляжа.

Задача простая:
1. Найдите любое видео с болтовнёй на языке, который вы НЕ понимаете (корейский/китайский/турецкий/и т.д.).
Примеры запросов: travel vlog / street interview / new year traditions / “как готовят” -> переводим через гугл перевод на другой язык и вбиваем в ютюб

2. Прогоните его через ЛЮБОЙ AI-дубляж.

3. Заполните короткую форму: что было кринж, что внезапно ок, где такое вообще приемлемо.

Бонус: каждому, кто сделает тест и заполнит форму - $200 кредитов на langswap.app. Этого хватит на перевод 100 видео. Кредиты не сгорают. Вдруг мы когда-то станем крутым сервисом - у вас будет практически неограниченный бесплатный доступ.

Форма: https://docs.google.com/forms/d/e/1FAIpQLScEdDFyq6Dcr8aYjg1DXNoGwqOyPwnS4sr2Qbd8LsIQpyc3cQ/viewform

Почему это важно: я хочу честно показать границы технологии - где AI-дубляж уже “норм”, а где пока опасно/неэтично/портит смысл. Ваши ответы пойдут в основу статьи.

Если сделаете - напишите в форме как вас узнать (ник/телега/email), чтобы я выдал кредиты.
🖕3🤝1
Тут мой дружище запускается на producthunt. Предлагает проверить ваш договор аренды жилья на типовые проблемы.

Заливайте свой договор ради интереса. Там есть free tier.

https://www.producthunt.com/products/check-rental-agreement
😁8👍4🥱3🔥2🖕2👎1🗿1
А вы кстати видели что завирусился clawdbot? Что думаете по этому поводу? Кто-то локально развернул уже, юзает?
В Forbes вышла моя статья про автодубляж 🤩

https://www.forbes.ru/tekhnologii/554358-masinal-naa-ozvucka-v-cem-zaklucautsa-problemy-ii-dublaza
2🔥19👍53👎1