Giga IDE
Попробовал я Giga IDE. Сами модельки для кодинга кажется уже примерно одинаково хороши/плохи везде.
Скачиваю.
1. сразу нужно делать xattr - будто аппка пиратская. Наверно сберу это тяжело исправить, но уверен моя мама не справится уже на этом этапе.
2. запускаю IDE и вижу там PyCharm вместо VSCode. Vscode люблю тем что на нём нормально работает SSH. В GigaChat (PyCharm) чтобы писать код в удалённом проекте, его нужно скачать локально. Это может быть неприменимо по ряду причин. Думаю если GigaChat, да и PyCharm хотят стать крутыми IDE, то это надо пофиксить. Я не разрабатываю локально для ML ничего, т.к. на ноутах ничего не обучишь.
3. Генерация кода спрятана в меню, хотя её легко найти было. В курсоре удачи не найти где AI генерация кода.
4. Сама генерация кода через IDE не сработала. Конечно, надо наверно где-то что-то нажать чтобы залогинится, но я за 5 минут так и не нашёл.
В общем, у меня не получилось влить эту IDE в свой рабочий процесс.
Попробовал я Giga IDE. Сами модельки для кодинга кажется уже примерно одинаково хороши/плохи везде.
Скачиваю.
1. сразу нужно делать xattr - будто аппка пиратская. Наверно сберу это тяжело исправить, но уверен моя мама не справится уже на этом этапе.
2. запускаю IDE и вижу там PyCharm вместо VSCode. Vscode люблю тем что на нём нормально работает SSH. В GigaChat (PyCharm) чтобы писать код в удалённом проекте, его нужно скачать локально. Это может быть неприменимо по ряду причин. Думаю если GigaChat, да и PyCharm хотят стать крутыми IDE, то это надо пофиксить. Я не разрабатываю локально для ML ничего, т.к. на ноутах ничего не обучишь.
3. Генерация кода спрятана в меню, хотя её легко найти было. В курсоре удачи не найти где AI генерация кода.
4. Сама генерация кода через IDE не сработала. Конечно, надо наверно где-то что-то нажать чтобы залогинится, но я за 5 минут так и не нашёл.
В общем, у меня не получилось влить эту IDE в свой рабочий процесс.
Forwarded from grokaem себя
GitHub
GitHub - LqNoob/Neural-Codec-and-Speech-Language-Models: Awesome Neural Codec Models, Text-to-Speech Synthesizers & Speech Language…
Awesome Neural Codec Models, Text-to-Speech Synthesizers & Speech Language Models - LqNoob/Neural-Codec-and-Speech-Language-Models
👍3🔥2
Я тут выяснил что почти все wav2vec, которые лежат на huggingface - это вообще едва рабочие системы. Ну вот сами посмотрите:
https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-russian
Common Voice, спросите любого - это вообще не точные данные. Там хоть и 200 с лишним часов, с ними всё равно не получится нормально работать.
CSS10 - там 21 час русской речи.
И получается система распознавания речи на таком языке как русский всего на ~300 часах грязных данных? Да у нас Иркутские школьники даже такими трейн сетами побрезгуют.
А это, на секундочку, модель, которую скачали 8М раз за ноябрь 2025. И именно на этой модели работает (не работает, кстати) whisperX: https://github.com/m-bain/whisperX/blob/d32ec3e3012ec4c0934f4088424c32f3f038b249/whisperx/alignment.py#L49
Напишите в комментариях какие алайнеры вы используете и может стоит адаптировать алайнер из whisperX под работу с https://github.com/facebookresearch/omnilingual-asr?
https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-russian
Fine-tuned facebook/wav2vec2-large-xlsr-53 on Russian using the train and validation splits of Common Voice 6.1 and CSS10.
Common Voice, спросите любого - это вообще не точные данные. Там хоть и 200 с лишним часов, с ними всё равно не получится нормально работать.
CSS10 - там 21 час русской речи.
И получается система распознавания речи на таком языке как русский всего на ~300 часах грязных данных? Да у нас Иркутские школьники даже такими трейн сетами побрезгуют.
А это, на секундочку, модель, которую скачали 8М раз за ноябрь 2025. И именно на этой модели работает (не работает, кстати) whisperX: https://github.com/m-bain/whisperX/blob/d32ec3e3012ec4c0934f4088424c32f3f038b249/whisperx/alignment.py#L49
Напишите в комментариях какие алайнеры вы используете и может стоит адаптировать алайнер из whisperX под работу с https://github.com/facebookresearch/omnilingual-asr?
huggingface.co
jonatasgrosman/wav2vec2-large-xlsr-53-russian · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
❤2
Forwarded from Фоточки для мамы
https://annas-archive.li/blog/backing-up-spotify.html
70% песен на spotify почти никто не прослушал.
Зато самые популярные песни очень популярны.
70% песен на spotify почти никто не прослушал.
Зато самые популярные песни очень популярны.
👍3
Небольшая просьба к вам: скачайте любое видео, где много болтовни и это видео на незнакомом вам языке и любым удобным сервисом перевести на русский язык с дубляжом.
Например: “влог по путешествиям” или “новогодние традиции” перевести на корейский/китайский/турецкий/любой, вбить в google translate и результат закинуть в поиск по youtube. Потом это видео скачать и залить на какой-нибудь сервис ИИ-дубляжа, например langswap.app, но можно и любой другой из поисковика.
Как только закончите - заполните пожалуйста вот эту форму:
https://docs.google.com/forms/d/e/1FAIpQLScEdDFyq6Dcr8aYjg1DXNoGwqOyPwnS4sr2Qbd8LsIQpyc3cQ/viewform?usp=publish-editor
Мне очень важны ваши ответы! На их основе я хочу написать репортаж.
Например: “влог по путешествиям” или “новогодние традиции” перевести на корейский/китайский/турецкий/любой, вбить в google translate и результат закинуть в поиск по youtube. Потом это видео скачать и залить на какой-нибудь сервис ИИ-дубляжа, например langswap.app, но можно и любой другой из поисковика.
Как только закончите - заполните пожалуйста вот эту форму:
https://docs.google.com/forms/d/e/1FAIpQLScEdDFyq6Dcr8aYjg1DXNoGwqOyPwnS4sr2Qbd8LsIQpyc3cQ/viewform?usp=publish-editor
Мне очень важны ваши ответы! На их основе я хочу написать репортаж.
Google Docs
Опрос по дубляжу видео
Вы протестировали AI-дубляж. Цель опроса — понять ваш опыт, где видите границы применения, какие риски и возможности.
🖕8❤1
Forwarded from GenAI monitor
📰 Qwen Research - Qwen3-TTS Steps Up: Voice Cloning and Voice Design!
**Qwen3-TTS** family has launched two new models: the voice design model Qwen3-TTS-VD-Flash (accessible via the [Qwen API](https://www.alibabacloud.com/help/en/model-studio/qwen-tts-voice-design)) and the voice cloning model Qwen3-TTS-VC-Flash (accessible via the [Qwen API](https://www.alibabacloud.
https://qwen.ai/blog?id=qwen3-tts-vc-voicedesign&from=research.latest-advancements-list
📰 Qwen Research - Qwen-Image-Edit-2511: Improve Consistency
We are excited to introduce Qwen-Image-Edit-2511, an enhanced version over Qwen-Image-Edit-2509, featuring multiple improvements—including notably better consistency. To try out the latest model, please visit [Qwen Chat](https://chat.qwen.ai/?inputFeature=image_edit) and select the Image Editing fea
https://qwen.ai/blog?id=qwen-image-edit-2511&from=research.latest-advancements-list
**Qwen3-TTS** family has launched two new models: the voice design model Qwen3-TTS-VD-Flash (accessible via the [Qwen API](https://www.alibabacloud.com/help/en/model-studio/qwen-tts-voice-design)) and the voice cloning model Qwen3-TTS-VC-Flash (accessible via the [Qwen API](https://www.alibabacloud.
https://qwen.ai/blog?id=qwen3-tts-vc-voicedesign&from=research.latest-advancements-list
📰 Qwen Research - Qwen-Image-Edit-2511: Improve Consistency
We are excited to introduce Qwen-Image-Edit-2511, an enhanced version over Qwen-Image-Edit-2509, featuring multiple improvements—including notably better consistency. To try out the latest model, please visit [Qwen Chat](https://chat.qwen.ai/?inputFeature=image_edit) and select the Image Editing fea
https://qwen.ai/blog?id=qwen-image-edit-2511&from=research.latest-advancements-list
Alibabacloud
Qwen-TTS voice design API reference - Alibaba Cloud Model Studio - Alibaba Cloud Documentation Center
Qwen-TTS voice design API reference,Alibaba Cloud Model Studio:Voice design generates custom voices from text descriptions. It supports multi-language and multi-dimensional voice characteristics, making it suitable for applications such as ad voiceovers,…
❤1
Нашёл сегодня довольно элегантный способ искать идеи для сервисов:
https://www.google.com/search?q=site%3Areddit.com+%22is+there+any+tool%3F%22+%22ai%22
https://www.google.com/search?q=site%3Areddit.com+%22is+there+any+tool%3F%22+%22ai%22
www.google.com
🔎 site:reddit.com "is there any tool?" "ai" - Google Search
❤7👍4
Forwarded from От обезьяны к LLM💡
#gen #nf #flow
Нормализующий поток (NF) - это дифференцируемое обратимое преобразование из данных в случайный шум. Под потоком понимается, что таких преобразований много и они выполняются последовательно.
Нормализующие потоки позволяют оценивать плотность распределения и сэмплировать из распределения.
Пусть имеется истинное сложное распределение данных и с помощью последовательного применения обратимых преобразований получается простое распределение, с помощью которого происходит семплирования сложных объектов.
Использование нормализующих потоков при построении архитектуры нейронной сети накладывает требования, что преобразования (слои) должны быть дифференцируемы и обратимы.
Минимизация прямой KL дивергенции это максимизация правдоподобия для потоков. Чтобы в этом убедится запишем KL дивергенцию между исходным распределением
где параметрическое распределение
Теорема о дуальности
Предположим имеется наше истинное распределение
Тогда
и
Нормализующий поток (NF) - это дифференцируемое обратимое преобразование из данных в случайный шум. Под потоком понимается, что таких преобразований много и они выполняются последовательно.
Нормализующие потоки позволяют оценивать плотность распределения и сэмплировать из распределения.
Пусть имеется истинное сложное распределение данных и с помощью последовательного применения обратимых преобразований получается простое распределение, с помощью которого происходит семплирования сложных объектов.
Использование нормализующих потоков при построении архитектуры нейронной сети накладывает требования, что преобразования (слои) должны быть дифференцируемы и обратимы.
Минимизация прямой KL дивергенции это максимизация правдоподобия для потоков. Чтобы в этом убедится запишем KL дивергенцию между исходным распределением
p(x) и p(x|O) параметрическим распределением которое мы стараемся приблизить к истинному:KL[p(x) || p(x|O)] = E[ log p(x) / p(x|O) ] = E[log p(x)] - E[log(p(f(x)) + log|det|J||]где параметрическое распределение
p(x|O) для нормализующих потоков выражается используя теорему о замене переменной: p(x|O) = p(f(x)) * log |det(J)| , а |det(J)| - определитель матрицы частных производных преобразования f (якобиан), Теорема о дуальности
KL дивергенции очень полезный трюк для оптимизации нормализующих потоков и вариационных автоэнкодеров. Предположим имеется наше истинное распределение
p(x) и имеется отображение f(x) с помощью которого получается простое распределение p(z) (нормальное). То по теореме дуальности KL дивергенции, мы самостоятельно можем выбирать пространство для оптимизации. Т.е. пусть p(x) истинное распределение, p(x|O) параметрическое распределение которое мы стараемся приблизить к истинному. Также у нас есть распределение p(z) и p(z|O) которые получаются через отображение f(x).Тогда
argmin KL(p(x) || p(x|O)) = argmin KL (p(z|O) || p(z))и
KL(p(x|O) || p(x)) = argmin KL (p(z) || p(z|O))🤓6🔥1
Forwarded from Slavik
Недавно вышел Fun-CosyVoice3-0.5B-2512.
Русский поддерживает.
Пока проверил только TTS голосом по образцу и переозвучку другим голосом. Словил пару артефактов, где-то модель не попала в эмоции, но в целом однозначно заслуживающая внимания.
Вроде поддерживает теги для эмоций, интонации, и т.д.
Русский поддерживает.
Пока проверил только TTS голосом по образцу и переозвучку другим голосом. Словил пару артефактов, где-то модель не попала в эмоции, но в целом однозначно заслуживающая внимания.
Вроде поддерживает теги для эмоций, интонации, и т.д.
❤2
Нашёл лекции ШАДа по обработке речи за 2025 год. Думаю прослушать его и вам того же желаю.
https://github.com/yandexdataschool/speech_course
https://github.com/yandexdataschool/speech_course
GitHub
GitHub - yandexdataschool/speech_course: YSDA course in Speech Processing.
YSDA course in Speech Processing. . Contribute to yandexdataschool/speech_course development by creating an account on GitHub.
❤13👍3🎉2🔥1
X (twitter) опубликовали свой алгоритм
Я его закинул в claude code и вот что выяснил. Собственно, я немного расстроился ведь секретного рецепта нет и всё довольно прямолинейно.
На основе кода алгоритма рекомендаций X, вот что влияет на вовлеченность и почему:
Для создателей контента
1. Максимизируйте ценные действия вовлеченности
Модель Phoenix предсказывает 14+ типов вовлеченности и комбинирует их с весами:
Финальный Score = Σ (вес × P(действие))
Сигналы высокой ценности (положительные веса):
- Ответы (Replies) - Указывает на контент, начинающий разговор
- Репосты/Цитаты - Сильный сигнал усиления
- Шеры - Ценность вне платформы
- Время просмотра (Dwell time) - Люди действительно читают ваш контент
- Клики на профиль - Интерес узнать о вас больше
- Подписка на автора - Самый сильный долгосрочный сигнал
Почему это работает: Эти действия имеют больший вес, потому что указывают на настоящий интерес, а не
пассивное потребление.
2. Избегайте негативных сигналов
Негативные действия (отрицательные веса):
- not_interested, block_author, mute_author, report
Почему это работает: Они напрямую снижают ваш score. Пост с высокой предсказанной вероятностью
жалобы/блокировки получает пониженную оценку.
3. Постите регулярно, но не спамьте
AuthorDiversityScorer снижает оценки повторяющихся авторов для обеспечения разнообразия ленты.
Почему это работает: Если вы опубликуете 10 постов подряд, каждый последующий пост получит прогрессивно
более низкие оценки. Алгоритм хочет разнообразия в ленте.
4. Развивайте базу подписчиков
Thunder получает посты "в сети" от аккаунтов, на которые подписан пользователь, давая им базовое
присутствие перед ML-оценкой.
Почему это работает: Ваши подписчики видят ваш контент по умолчанию (в сети), затем модель Phoenix
оценивает его. Начинать с охвата подписчиков легче, чем стать вирусным с нуля.
5. Создавайте контент, который заставляет читать
P(dwell) - одно из предсказываемых действий - как долго кто-то остается на вашем посте.
Почему это работает: Трансформер Grok учится, что посты с высоким временем просмотра ценны. Пишите
содержательный контент, а не просто горячие высказывания.
В комментах ответ целиком. Сюда он не влез с картинкой
https://github.com/xai-org/x-algorithm
Я его закинул в claude code и вот что выяснил. Собственно, я немного расстроился ведь секретного рецепта нет и всё довольно прямолинейно.
На основе кода алгоритма рекомендаций X, вот что влияет на вовлеченность и почему:
Для создателей контента
1. Максимизируйте ценные действия вовлеченности
Модель Phoenix предсказывает 14+ типов вовлеченности и комбинирует их с весами:
Финальный Score = Σ (вес × P(действие))
Сигналы высокой ценности (положительные веса):
- Ответы (Replies) - Указывает на контент, начинающий разговор
- Репосты/Цитаты - Сильный сигнал усиления
- Шеры - Ценность вне платформы
- Время просмотра (Dwell time) - Люди действительно читают ваш контент
- Клики на профиль - Интерес узнать о вас больше
- Подписка на автора - Самый сильный долгосрочный сигнал
Почему это работает: Эти действия имеют больший вес, потому что указывают на настоящий интерес, а не
пассивное потребление.
2. Избегайте негативных сигналов
Негативные действия (отрицательные веса):
- not_interested, block_author, mute_author, report
Почему это работает: Они напрямую снижают ваш score. Пост с высокой предсказанной вероятностью
жалобы/блокировки получает пониженную оценку.
3. Постите регулярно, но не спамьте
AuthorDiversityScorer снижает оценки повторяющихся авторов для обеспечения разнообразия ленты.
Почему это работает: Если вы опубликуете 10 постов подряд, каждый последующий пост получит прогрессивно
более низкие оценки. Алгоритм хочет разнообразия в ленте.
4. Развивайте базу подписчиков
Thunder получает посты "в сети" от аккаунтов, на которые подписан пользователь, давая им базовое
присутствие перед ML-оценкой.
Почему это работает: Ваши подписчики видят ваш контент по умолчанию (в сети), затем модель Phoenix
оценивает его. Начинать с охвата подписчиков легче, чем стать вирусным с нуля.
5. Создавайте контент, который заставляет читать
P(dwell) - одно из предсказываемых действий - как долго кто-то остается на вашем посте.
Почему это работает: Трансформер Grok учится, что посты с высоким временем просмотра ценны. Пишите
содержательный контент, а не просто горячие высказывания.
В комментах ответ целиком. Сюда он не влез с картинкой
https://github.com/xai-org/x-algorithm
❤3
VibeVoice-ASR
🔥 Ключевые возможности
🕒 Однопроходная обработка до 60 минут: В отличие от классических ASR-моделей, которые режут аудио на короткие фрагменты (часто теряя общий контекст), VibeVoice ASR принимает до 60 минут непрерывного аудиоввода в пределах окна в 64K токенов. Это обеспечивает стабильное отслеживание спикеров и семантическую связность на протяжении всего часа.
👤 Пользовательские «горячие слова» (hotwords): Пользователи могут задавать свои hotwords (например, имена, технические термины или справочную информацию), чтобы направлять процесс распознавания и заметно повышать точность на доменно-специфичном контенте.
📝 Расширенная расшифровка (кто, когда, что): Модель одновременно выполняет ASR, диаризацию и проставление таймкодов, выдавая структурированный результат — кто что сказал и когда.
https://huggingface.co/microsoft/VibeVoice-ASR
🔥 Ключевые возможности
🕒 Однопроходная обработка до 60 минут: В отличие от классических ASR-моделей, которые режут аудио на короткие фрагменты (часто теряя общий контекст), VibeVoice ASR принимает до 60 минут непрерывного аудиоввода в пределах окна в 64K токенов. Это обеспечивает стабильное отслеживание спикеров и семантическую связность на протяжении всего часа.
👤 Пользовательские «горячие слова» (hotwords): Пользователи могут задавать свои hotwords (например, имена, технические термины или справочную информацию), чтобы направлять процесс распознавания и заметно повышать точность на доменно-специфичном контенте.
📝 Расширенная расшифровка (кто, когда, что): Модель одновременно выполняет ASR, диаризацию и проставление таймкодов, выдавая структурированный результат — кто что сказал и когда.
https://huggingface.co/microsoft/VibeVoice-ASR
🔥8
Voice stuff
Небольшая просьба к вам: скачайте любое видео, где много болтовни и это видео на незнакомом вам языке и любым удобным сервисом перевести на русский язык с дубляжом. Например: “влог по путешествиям” или “новогодние традиции” перевести на корейский/китай…
Я делаю материал для Forbes про AI-дубляж. Нужны реальные тесты от живых людей по поводу ИИ-дубляжа.
Задача простая:
1. Найдите любое видео с болтовнёй на языке, который вы НЕ понимаете (корейский/китайский/турецкий/и т.д.).
Примеры запросов: travel vlog / street interview / new year traditions / “как готовят” -> переводим через гугл перевод на другой язык и вбиваем в ютюб
2. Прогоните его через ЛЮБОЙ AI-дубляж.
3. Заполните короткую форму: что было кринж, что внезапно ок, где такое вообще приемлемо.
Бонус: каждому, кто сделает тест и заполнит форму - $200 кредитов на langswap.app. Этого хватит на перевод 100 видео. Кредиты не сгорают. Вдруг мы когда-то станем крутым сервисом - у вас будет практически неограниченный бесплатный доступ.
Форма: https://docs.google.com/forms/d/e/1FAIpQLScEdDFyq6Dcr8aYjg1DXNoGwqOyPwnS4sr2Qbd8LsIQpyc3cQ/viewform
Почему это важно: я хочу честно показать границы технологии - где AI-дубляж уже “норм”, а где пока опасно/неэтично/портит смысл. Ваши ответы пойдут в основу статьи.
Если сделаете - напишите в форме как вас узнать (ник/телега/email), чтобы я выдал кредиты.
Задача простая:
1. Найдите любое видео с болтовнёй на языке, который вы НЕ понимаете (корейский/китайский/турецкий/и т.д.).
Примеры запросов: travel vlog / street interview / new year traditions / “как готовят” -> переводим через гугл перевод на другой язык и вбиваем в ютюб
2. Прогоните его через ЛЮБОЙ AI-дубляж.
3. Заполните короткую форму: что было кринж, что внезапно ок, где такое вообще приемлемо.
Бонус: каждому, кто сделает тест и заполнит форму - $200 кредитов на langswap.app. Этого хватит на перевод 100 видео. Кредиты не сгорают. Вдруг мы когда-то станем крутым сервисом - у вас будет практически неограниченный бесплатный доступ.
Форма: https://docs.google.com/forms/d/e/1FAIpQLScEdDFyq6Dcr8aYjg1DXNoGwqOyPwnS4sr2Qbd8LsIQpyc3cQ/viewform
Почему это важно: я хочу честно показать границы технологии - где AI-дубляж уже “норм”, а где пока опасно/неэтично/портит смысл. Ваши ответы пойдут в основу статьи.
Если сделаете - напишите в форме как вас узнать (ник/телега/email), чтобы я выдал кредиты.
Google Docs
Опрос по дубляжу видео
Вы протестировали AI-дубляж. Цель опроса — понять ваш опыт, где видите границы применения, какие риски и возможности.
🖕3🤝1
Тут мой дружище запускается на producthunt. Предлагает проверить ваш договор аренды жилья на типовые проблемы.
Заливайте свой договор ради интереса. Там есть free tier.
https://www.producthunt.com/products/check-rental-agreement
Заливайте свой договор ради интереса. Там есть free tier.
https://www.producthunt.com/products/check-rental-agreement
Product Hunt
Check Rental Agreement: Renting a flat and not a lawyer? Check Your Rental Agreement | Product Hunt
Hi there, I recently moved to the new country. I found the flat via some local website and the landlord sent to me the contract - with 10+ pages - in a language that I don't know (it was Hebrew) - with the law jurisdiction that I knew nothing I signed my…
😁8👍4🥱3🔥2🖕2👎1🗿1
А вы кстати видели что завирусился clawdbot? Что думаете по этому поводу? Кто-то локально развернул уже, юзает?
В Forbes вышла моя статья про автодубляж 🤩
https://www.forbes.ru/tekhnologii/554358-masinal-naa-ozvucka-v-cem-zaklucautsa-problemy-ii-dublaza
https://www.forbes.ru/tekhnologii/554358-masinal-naa-ozvucka-v-cem-zaklucautsa-problemy-ii-dublaza
2🔥19👍5❤3👎1
Forwarded from GenAI monitor
🆕 [HF Models] mistralai - Voxtral-Mini-4B-Realtime-2602
https://huggingface.co/mistralai/Voxtral-Mini-4B-Realtime-2602
https://huggingface.co/mistralai/Voxtral-Mini-4B-Realtime-2602
huggingface.co
mistralai/Voxtral-Mini-4B-Realtime-2602 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
❤1