🎸 ЗВУК 🎸
Riffusion: обновили инструмент Vibes, позволяющий генерировать музыку в стиле загруженного трека. Улучшилось следование референсу, смешивание вайбов, а также повысилось качество звучания, и разнообразие длины треков.
Suno: разрешили делать ремиксы чьих-угодно треков на платформе, не только своих. Под ремиксом тут понимается возможность через меню трека делать кавер, расширение, или использование промта. Создание ремикса не даёт коммерческих прав на трек. Можно запретить делать ремиксы на свои треки, если что.
Ace-Step: опенсорсный генератор музыки, который за секунды ваяет треки длиной в несколько минут, и обладает множеством функций: инпейнт, вариация выделенного фрагмента, расширение, итд. Можно тренировать лоры. Есть демо.
Udio: сделали мобильную апу для iOS.
ResembleAI: выпустили генератор речи (TTS) Chatterbox, который неплохо себя показывает на бенчах. Маленький, шустрый, с клонированием голоса без трени и лайтовыми рульками для контроля. Лицензия MIT, позволяющая коммерческое использование, но генерит с водяными знаками и на русском не пашет. Демо // Гитхаб
Tiger: модель для выделения из аудио диалогов, эффектов, и музыки.
KDTalker: опенсорсный генератор говорящих голов обзавёлся заменой фона и контролем эмоций.
Stability: выпустили мелкую модельку Stable Audio Open Small для генерации аудио на телефонах с Arm.
ElevenLabs: релизнули Conversational AI 2 с голосовыми агентами на лету переключающимися на нужный язык, удерживающими роли нескольких персонажей, а также встроенным RAG, и не только. Пилят приложение на iOS.
Heygen: запустили модель Avatar IV для создания реалистичных аватаров по фото/скрипту и аудио.
Bytedance: к модели для опенсорсного липсинка добавилась поддержка MCP.
MEMO: липсинк людей и персонажей по диалогам и пению.
Hedra: добавили в свой генератор говорящих голов возможность задать кто сейчас должен произносить речь, когда несколько персонажей в кадре.
Riffusion: обновили инструмент Vibes, позволяющий генерировать музыку в стиле загруженного трека. Улучшилось следование референсу, смешивание вайбов, а также повысилось качество звучания, и разнообразие длины треков.
Suno: разрешили делать ремиксы чьих-угодно треков на платформе, не только своих. Под ремиксом тут понимается возможность через меню трека делать кавер, расширение, или использование промта. Создание ремикса не даёт коммерческих прав на трек. Можно запретить делать ремиксы на свои треки, если что.
Ace-Step: опенсорсный генератор музыки, который за секунды ваяет треки длиной в несколько минут, и обладает множеством функций: инпейнт, вариация выделенного фрагмента, расширение, итд. Можно тренировать лоры. Есть демо.
Udio: сделали мобильную апу для iOS.
ResembleAI: выпустили генератор речи (TTS) Chatterbox, который неплохо себя показывает на бенчах. Маленький, шустрый, с клонированием голоса без трени и лайтовыми рульками для контроля. Лицензия MIT, позволяющая коммерческое использование, но генерит с водяными знаками и на русском не пашет. Демо // Гитхаб
Tiger: модель для выделения из аудио диалогов, эффектов, и музыки.
KDTalker: опенсорсный генератор говорящих голов обзавёлся заменой фона и контролем эмоций.
Stability: выпустили мелкую модельку Stable Audio Open Small для генерации аудио на телефонах с Arm.
ElevenLabs: релизнули Conversational AI 2 с голосовыми агентами на лету переключающимися на нужный язык, удерживающими роли нескольких персонажей, а также встроенным RAG, и не только. Пилят приложение на iOS.
Heygen: запустили модель Avatar IV для создания реалистичных аватаров по фото/скрипту и аудио.
Bytedance: к модели для опенсорсного липсинка добавилась поддержка MCP.
MEMO: липсинк людей и персонажей по диалогам и пению.
Hedra: добавили в свой генератор говорящих голов возможность задать кто сейчас должен произносить речь, когда несколько персонажей в кадре.
🤖 ЧАТЫ 🤖
OWUI: в V 0.6.13 опенсорсного UI для чата с языковыми моделями (LLM) добавили расширенную настройку параметров ллм, визуализацию загруженных моделей и их выгрузку из памяти, а также улучшения в производительности и работе с RAG, итд.
DeepSeek: выпустили DeepSeek-R1-0528, новую версию ллм DeepSeek-R1 со значительно улучшенной глубиной рассуждений. Размер 685B, так что локально никак не погонять. Тем не менее есть дистиллят, полученный на основе Qwen3-8B, который может выдавать ответы уровня Qwen3-235B. Вместе с этим обновился и DeepSite для генерации веб-приложений по тексту (новый дипсик выбирается в настройках ввода). Демо // Хаггинг // Ollama
Ollama: добавлена поддержка стриминга ответов и размышлений (DeepSeek-R1-0528 или Qwen3). Также улучшена работа с памятью, и движок стал поддерживать мультимодальные модели лама 4, Gemma 3, Qwen2.5 VL, и другие для чата по визуалу, в том числе и на webp.
LMStudio: вышла из превью возможность шарить пресеты настроек/промтов ллм. Теперь можно сохранять KV кэш в GPU, и вызывать ллм в терминале командой lms chat. Ещё добавилась поддержка DeepSeek-R1-0528 и обновилась архитектура для работы с MLX моделями на маках.
Bolt: этот локальный редактор кода обновился до V 1.0.0. Добавлена возможность восстановления проекта из снимка, поддержка Grok 3 и Claude 3.7 по API, интеграция с Vercel и Supabase (опенсорсная альтернатива Firebase), итд.
n8n: ElevenLabs стали верифицированными партнёрами n8n. Теперь в AI-агентном воркфлоу можно использовать голосовые модели ElevenLabs напрямую.
Советы по вайбкодингу от создателя протокола BitTorrent Брэма Коена.
Amazon: выпустили опенсорсный фреймворк Agent-Squad для оркестровки AI-агентов.
Workflow Use для автоматизации выполнения AI-агентами задач на компе. От создателей Browser Use.
Локальный запуск Deep Research на связке ollama + Langgraph.
Маководы теперь могут через MLX LM запускать ллмки с хаггина у себя локально с помощью Use this model. Нужно включить поддержку MLX LM в настройках хаггинга.
Anthropic: выпустили Claude 4, который на бенчах бьёт Gemini 2.5 в написании кода. Может использовать размышление вместе с глубоким поиском (а не что-то одно), задействовать разные инструменты параллельно, и не только. Claude Code теперь доступен широкой публике.
Google: провели конфу I/O, на которой показали видеомодель Veo 3, которая на данный момент в топе по качеству и генерит со звуком. Также представили генератор картинок Imagen 4, музыкальную модель Lyria 2, и другое. Внедряют AI во все Google сервисы и дружат их с MCP.
Microsoft: провели конфу Build, на которой представили Windows ML как аналог ollama для запуска ллм моделей прямо на твоём железе (CPU, GPU, NPU). Также заявили нативную поддержку MCP в Windows 11, и AI-агентного движа для запуска и автономной работы агентов на твоём компе.
OpenAI: Operator и ChatGPT теперь использует актуальную рассуждающую модель. Также запустили AI-агента Codex с фокусом на разработке софта, и завезли его на iOS. GPT-4.1 теперь доступен в ChatGPT.
Perplexity: выпустили инструмент Perplexity Labs, который может ваять таблицы и дашборды, создавать приложения, генерить отчеты, итд.
Stepfun: релизнули рассуждающую модель OR1 в размерах от 7B до 32B. На бенчах показывает себя лучше Qwen3 32B.
Qwen: добавили в Qwen Chat глубокий поиск и запустили режим веб-разработчика для быстрой генерации веб-приложений а-ля DeepSite.
Alibaba: в свою очередь тоже выпустили рассуждалку DistilQwen-ThoughtX в размерах от 7B до 32B на основе Qwen2.5.
Grok: голосовой режим на андройде теперь доступен глобально, а ещё Grok научился ваять графики.
Bytedance: выпустили Bagel, единую рассуждающую модель для генерации изображений, их редактирования текстом, или чата по загруженным.
Gen-Verse: тоже дропнули единую модель для понимания, генерации и редактирования картинок под названием MMaDA.
Nvidia: релизнули рассуждающую AceReason в размерах от 7B до 32B для задач по математике и коду.
OWUI: в V 0.6.13 опенсорсного UI для чата с языковыми моделями (LLM) добавили расширенную настройку параметров ллм, визуализацию загруженных моделей и их выгрузку из памяти, а также улучшения в производительности и работе с RAG, итд.
DeepSeek: выпустили DeepSeek-R1-0528, новую версию ллм DeepSeek-R1 со значительно улучшенной глубиной рассуждений. Размер 685B, так что локально никак не погонять. Тем не менее есть дистиллят, полученный на основе Qwen3-8B, который может выдавать ответы уровня Qwen3-235B. Вместе с этим обновился и DeepSite для генерации веб-приложений по тексту (новый дипсик выбирается в настройках ввода). Демо // Хаггинг // Ollama
Ollama: добавлена поддержка стриминга ответов и размышлений (DeepSeek-R1-0528 или Qwen3). Также улучшена работа с памятью, и движок стал поддерживать мультимодальные модели лама 4, Gemma 3, Qwen2.5 VL, и другие для чата по визуалу, в том числе и на webp.
LMStudio: вышла из превью возможность шарить пресеты настроек/промтов ллм. Теперь можно сохранять KV кэш в GPU, и вызывать ллм в терминале командой lms chat. Ещё добавилась поддержка DeepSeek-R1-0528 и обновилась архитектура для работы с MLX моделями на маках.
Bolt: этот локальный редактор кода обновился до V 1.0.0. Добавлена возможность восстановления проекта из снимка, поддержка Grok 3 и Claude 3.7 по API, интеграция с Vercel и Supabase (опенсорсная альтернатива Firebase), итд.
n8n: ElevenLabs стали верифицированными партнёрами n8n. Теперь в AI-агентном воркфлоу можно использовать голосовые модели ElevenLabs напрямую.
Советы по вайбкодингу от создателя протокола BitTorrent Брэма Коена.
Amazon: выпустили опенсорсный фреймворк Agent-Squad для оркестровки AI-агентов.
Workflow Use для автоматизации выполнения AI-агентами задач на компе. От создателей Browser Use.
Локальный запуск Deep Research на связке ollama + Langgraph.
Маководы теперь могут через MLX LM запускать ллмки с хаггина у себя локально с помощью Use this model. Нужно включить поддержку MLX LM в настройках хаггинга.
Anthropic: выпустили Claude 4, который на бенчах бьёт Gemini 2.5 в написании кода. Может использовать размышление вместе с глубоким поиском (а не что-то одно), задействовать разные инструменты параллельно, и не только. Claude Code теперь доступен широкой публике.
Google: провели конфу I/O, на которой показали видеомодель Veo 3, которая на данный момент в топе по качеству и генерит со звуком. Также представили генератор картинок Imagen 4, музыкальную модель Lyria 2, и другое. Внедряют AI во все Google сервисы и дружат их с MCP.
Microsoft: провели конфу Build, на которой представили Windows ML как аналог ollama для запуска ллм моделей прямо на твоём железе (CPU, GPU, NPU). Также заявили нативную поддержку MCP в Windows 11, и AI-агентного движа для запуска и автономной работы агентов на твоём компе.
OpenAI: Operator и ChatGPT теперь использует актуальную рассуждающую модель. Также запустили AI-агента Codex с фокусом на разработке софта, и завезли его на iOS. GPT-4.1 теперь доступен в ChatGPT.
Perplexity: выпустили инструмент Perplexity Labs, который может ваять таблицы и дашборды, создавать приложения, генерить отчеты, итд.
Stepfun: релизнули рассуждающую модель OR1 в размерах от 7B до 32B. На бенчах показывает себя лучше Qwen3 32B.
Qwen: добавили в Qwen Chat глубокий поиск и запустили режим веб-разработчика для быстрой генерации веб-приложений а-ля DeepSite.
Alibaba: в свою очередь тоже выпустили рассуждалку DistilQwen-ThoughtX в размерах от 7B до 32B на основе Qwen2.5.
Grok: голосовой режим на андройде теперь доступен глобально, а ещё Grok научился ваять графики.
Bytedance: выпустили Bagel, единую рассуждающую модель для генерации изображений, их редактирования текстом, или чата по загруженным.
Gen-Verse: тоже дропнули единую модель для понимания, генерации и редактирования картинок под названием MMaDA.
Nvidia: релизнули рассуждающую AceReason в размерах от 7B до 32B для задач по математике и коду.
This media is not supported in your browser
VIEW IN TELEGRAM
Flux Kontex + Wan VACE
Норм пример замены окружения без зеленки. И детали хорошо обрабатывает: когда стоит на краю здания тень под ногой падает на конструкцию, а также освещение неплохо ложится при смене дня и ночи. При этом сам персонаж в целом остаётся стабильным, кроме мест на стыке (см воротник).
Твит
Норм пример замены окружения без зеленки. И детали хорошо обрабатывает: когда стоит на краю здания тень под ногой падает на конструкцию, а также освещение неплохо ложится при смене дня и ночи. При этом сам персонаж в целом остаётся стабильным, кроме мест на стыке (см воротник).
Твит
PlayAI: выпустили в опенсорс генератор речи PlayDiffusion с возможность редактирования сказанного.
Традиционные модели на авторегрессии для этого не предназначены — они либо генерируют все заново (теряя ритм), либо выпячивают артефакты, либо ломают произношение на границах редактирования.
PlayDiffusion использует другой подход. Он выполняет инпейтинг поверх дискретных токенов аудио, маскируя область под замену, и генерирует новую версию, которая плавно сливается с окружающей речью. Работает как с реальным, так и с синтетическим аудио.
Модель используется под капотом их недавно внедрённого редактора речи Speech Editor. Можно вкидывать видео или просто аудио длиной до 50 секунд, и после распознавания речи, менять слова. На русском работает хуже, чем на инглише, но работает. Лицензия Apache 2, разрешающая коммерческое использование.
Ещё подрубили инструмент для липсинка. Его бы тоже в опенсорс.
PlayDiffusion должна запуститься на массовом железе. Если что, есть онлайн демка на хаггинге.
Демо (сайт PlayAI)
Демо (хаггинг)
Анонс
Гитхаб
Хаггинг
Традиционные модели на авторегрессии для этого не предназначены — они либо генерируют все заново (теряя ритм), либо выпячивают артефакты, либо ломают произношение на границах редактирования.
PlayDiffusion использует другой подход. Он выполняет инпейтинг поверх дискретных токенов аудио, маскируя область под замену, и генерирует новую версию, которая плавно сливается с окружающей речью. Работает как с реальным, так и с синтетическим аудио.
Модель используется под капотом их недавно внедрённого редактора речи Speech Editor. Можно вкидывать видео или просто аудио длиной до 50 секунд, и после распознавания речи, менять слова. На русском работает хуже, чем на инглише, но работает. Лицензия Apache 2, разрешающая коммерческое использование.
Ещё подрубили инструмент для липсинка. Его бы тоже в опенсорс.
PlayDiffusion должна запуститься на массовом железе. Если что, есть онлайн демка на хаггинге.
Демо (сайт PlayAI)
Демо (хаггинг)
Анонс
Гитхаб
Хаггинг
Там на Runpod завезли RTX 6000 PRO с 96 ГБ VRAM. Та самая видюха в форм-факторе обычной 2-слотовой карты, но по цене $10 000. А на ранподе аренда $1,79/час.
При этом H100 стоит $2,39/час, а А100 $1,64/час, но у них по 80 ГБ VRAM. То есть это самое дешевое решение с таким объёмом VRAM внутри одной видюхи. Остальные потребуют multi-GPU, и там будут свои ограничения.
Вместе с этим Runpod в бета-режиме запустили Hub, через который AI-приложения можно разворачивать в пару кликов в serverless режиме, то есть с оплатой только за использование, а не по времени.
Runpod
Обзор (Level1)
Обзор (Der8auer)
При этом H100 стоит $2,39/час, а А100 $1,64/час, но у них по 80 ГБ VRAM. То есть это самое дешевое решение с таким объёмом VRAM внутри одной видюхи. Остальные потребуют multi-GPU, и там будут свои ограничения.
Вместе с этим Runpod в бета-режиме запустили Hub, через который AI-приложения можно разворачивать в пару кликов в serverless режиме, то есть с оплатой только за использование, а не по времени.
Runpod
Обзор (Level1)
Обзор (Der8auer)
Замена головы сына Арнольда на него самого с помощью Wan VACE.
Выглядит весьма хорошо на средних планах. На крупных как обычно могут выдавать глаза, но в целом тоже неплохо. Если вам нужно поменять актёра, но дипфейк лица не походит голове по пропорциям, то можно попробовать это решение.
Воркфлоу для Comfy лежит на OpenMuse. Я его когда закинул, сначала глазами начал вскарабкиваться по стене кастомных нод, которые надо установить. Затем, когда всё поставил и перезапустил комфи, моментально был ослеплён сложносочинённой поэзией этой бешенной вермишели. В бортовом компьютере космического корабля рулек и то меньше будет.
Когда нащупал кнопкуВася Run выяснилось, что это ещё не всё, и некоторые ноды надо поставить с гитхаба напрямую в Custom Nodes, ибо их нет в менеджере.
Ок, поставил, запустил. Первый раз мне выдало ошибку, что что-то не так с Depth Crafter. Я оставил как есть, закрыл и ушел. Когда запустил заново, ошибка была уже в чём-то другом, а лог километровой длины. Comfy-лутбоксики, каждый раз что-то новое.
Если у вас запустится, скидывайте результаты в комменты.
Comfy воркфлоу
Выглядит весьма хорошо на средних планах. На крупных как обычно могут выдавать глаза, но в целом тоже неплохо. Если вам нужно поменять актёра, но дипфейк лица не походит голове по пропорциям, то можно попробовать это решение.
Воркфлоу для Comfy лежит на OpenMuse. Я его когда закинул, сначала глазами начал вскарабкиваться по стене кастомных нод, которые надо установить. Затем, когда всё поставил и перезапустил комфи, моментально был ослеплён сложносочинённой поэзией этой бешенной вермишели. В бортовом компьютере космического корабля рулек и то меньше будет.
Когда нащупал кнопку
Ок, поставил, запустил. Первый раз мне выдало ошибку, что что-то не так с Depth Crafter. Я оставил как есть, закрыл и ушел. Когда запустил заново, ошибка была уже в чём-то другом, а лог километровой длины. Comfy-лутбоксики, каждый раз что-то новое.
Если у вас запустится, скидывайте результаты в комменты.
Comfy воркфлоу
Luma: выпустили инструмент Modify Video для своего видеогенератора Ray2.
Позволяет через vid-2-vid сменить стиль видео длиной до 10 сек с сохранением динамики персонажей, лицевой анимации, и деталей фона. Или изолировать отдельные элементы вроде одежды, лиц, и предметов, чтобы стайлтрансфер их не касался.
Можно скармливать как футажи с телефона, так и 3D превизы. И подавать вместе с этим на вход визуальные референсы для больше контроля контента на выходе.
В плане качества пока в глаза бросаются артефакты. Если только что-то стилизованное делать вроде мультипликации. Runway с Gen-4 по ощущениям ушли вперед, да собственно и опенсорс см VACE не отстаёт. Хотя Luma в анонсе бок-о-бок сравнивают себя Runway, показывая что у них лучше отрабатывает динамика.
Пока раскатано на Unlimited и Enterprise тарифы.
Анонс
Сайт
Позволяет через vid-2-vid сменить стиль видео длиной до 10 сек с сохранением динамики персонажей, лицевой анимации, и деталей фона. Или изолировать отдельные элементы вроде одежды, лиц, и предметов, чтобы стайлтрансфер их не касался.
Можно скармливать как футажи с телефона, так и 3D превизы. И подавать вместе с этим на вход визуальные референсы для больше контроля контента на выходе.
В плане качества пока в глаза бросаются артефакты. Если только что-то стилизованное делать вроде мультипликации. Runway с Gen-4 по ощущениям ушли вперед, да собственно и опенсорс см VACE не отстаёт. Хотя Luma в анонсе бок-о-бок сравнивают себя Runway, показывая что у них лучше отрабатывает динамика.
Пока раскатано на Unlimited и Enterprise тарифы.
Анонс
Сайт
1
This media is not supported in your browser
VIEW IN TELEGRAM
FishAudio: выпустили генератор речи OpenAudio S1.
Модель натренирована на 2 млн часов аудио, поддерживает клонирование голоса, настройку эмоций, тона, и эффектов вроде смеха толпы или стоновやめて下さい
На сайте нет генерации на русском, как и про это не сказано в анонсе. Но если вкинуть русский текст и выбрать инглишь, то модель спокойно произнесет его, просто с английским акцентом. То бишь из 2 млн часов на русском что-то в ней есть. Собственно на хаггинге указано, что опенсорсная версия поддерживает русский.
Есть две модели: полная S1 размером 4B, которая доступна только на сайте, и S1-mini, размером 0.5B выложенная в опенсорс и доступная в демке на хаггинге. Также скоро выпустят модель для перевода голоса в текст с разбивкой по спикерам и описанию эмоций.
Mini модель кушает 10 ГБ VRAM. Возможно поэтому крупняк и не выложили. Или просто ход для монетизации. Видео-рисовую братву гигантские размеры моделей никогда не останавливали от доминирования пространства твоего SSD/VRAM.
А вчера мы на руки получили ттс PlayDiffusion с контролем речи.
Анонс
Демо (сайт)
Демо (хаггинг)
Гитхаб
Модель натренирована на 2 млн часов аудио, поддерживает клонирование голоса, настройку эмоций, тона, и эффектов вроде смеха толпы или стонов
На сайте нет генерации на русском, как и про это не сказано в анонсе. Но если вкинуть русский текст и выбрать инглишь, то модель спокойно произнесет его, просто с английским акцентом. То бишь из 2 млн часов на русском что-то в ней есть. Собственно на хаггинге указано, что опенсорсная версия поддерживает русский.
Есть две модели: полная S1 размером 4B, которая доступна только на сайте, и S1-mini, размером 0.5B выложенная в опенсорс и доступная в демке на хаггинге. Также скоро выпустят модель для перевода голоса в текст с разбивкой по спикерам и описанию эмоций.
Mini модель кушает 10 ГБ VRAM. Возможно поэтому крупняк и не выложили. Или просто ход для монетизации. Видео-рисовую братву гигантские размеры моделей никогда не останавливали от доминирования пространства твоего SSD/VRAM.
А вчера мы на руки получили ттс PlayDiffusion с контролем речи.
Анонс
Демо (сайт)
Демо (хаггинг)
Гитхаб
This media is not supported in your browser
VIEW IN TELEGRAM
А вот это уже хорошо. В Comfy на следующей неделе добавят возможность не просто группировать ноды, а объединять куски воркфлоу в суб-графы. Собственно групповые ноды автоматом будут заменены на них.
Помимо очевидного использования для причёсывания хаоса, это ещё интересно тем, что потенциально можно много ворфлоу сцеплять между собой, например для генерации длительной сцены (благодаря новым методам и оптимизациям мы в любом случае к этому придём). Если нужно что-то в кадре изменить, суб-граф можно раскрыть, поменять промт, параметры, итд.
Можно даже вкладывать суб-граф внутрь суб-графа внутрь суб-графа....
При этом, если найден баг и он исправлен в одном инстансе, то остальные в воркфлоу обновляются автоматом. А если нужно, чтобы они работали изолированно: клонируете суб-граф, это делает его уникальным, и правки применяются только к нему.
Кому не терпится ветка с суб-графами уже публична на гитхабе фронтенда Comfy.
Анонс
Гитхаб
Помимо очевидного использования для причёсывания хаоса, это ещё интересно тем, что потенциально можно много ворфлоу сцеплять между собой, например для генерации длительной сцены (благодаря новым методам и оптимизациям мы в любом случае к этому придём). Если нужно что-то в кадре изменить, суб-граф можно раскрыть, поменять промт, параметры, итд.
Можно даже вкладывать суб-граф внутрь суб-графа внутрь суб-графа....
При этом, если найден баг и он исправлен в одном инстансе, то остальные в воркфлоу обновляются автоматом. А если нужно, чтобы они работали изолированно: клонируете суб-граф, это делает его уникальным, и правки применяются только к нему.
Кому не терпится ветка с суб-графами уже публична на гитхабе фронтенда Comfy.
Анонс
Гитхаб
Это самое качественное 4D из сплатов, которое я видел на данный момент.
Пока для его создания нужен риг из множества камер. Но учитывая как развивается генерация видео и 3D, скоро можно будет полученные сцены конвертить в 4D, чтобы зритель мог как угодно крутить камерой.
Покрутить камеру
Пока для его создания нужен риг из множества камер. Но учитывая как развивается генерация видео и 3D, скоро можно будет полученные сцены конвертить в 4D, чтобы зритель мог как угодно крутить камерой.
Покрутить камеру
Дайджест:
📹 ВИДЕО + АРТ 🎨
Comfy: добавили информационные страницы, призванные помочь разобраться с нодами. И собираются обновить сами ноды до V3, чтобы уменьшить количество конфликтов в воркфлоу.
WanGP: в фреймворк для запуска видеомоделей на малом количестве VRAM добавлен Hunyuan Video Avatar. Требования снижены до 10 ГБ VRAM.
Epic Games: в рамках конференции State of Unreal представили Unreal Engine 5.6 и обновлённый Metahuman, с помощью которого можно делать реалистичные анимации персонажей, используя, например, вебку или камеру смартфона. Также сделали AI-ассистента, помогающего в разработке контента для Fortnite и работе с Verse кодом.
Google: видеомодель Veo3 теперь доступна на Krea, Fal, Replicate и Flora.
Higgsfield: добавили Speak для генерации видео с липсинком.
Генератор LUT для цветокоррекции.
Pinokio: поменял домен на pinokio.co (со старым возникла проблема из-за Squarespace) и выпустил версию V 3.9 исправляющую не загружавшуюся страницу Discovery.
Хуньянь: выпустили код и веса для HunyuanCustom для создания видео из нескольких рефов.
Комфи ноды Gaze для отслеживания взгляда, и OmniConsistency для стайлтрансфера.
World Labs: выпустили в опенсорс Forge, движок для рендера сплатов в вебе. Гитхаб
Bytedance: релизнули ContentV, фреймворк для эффективной тренировки видеомоделей, и одноимённый видеогенератор размером 8B.
Nvidia: дропнули визуальный энкодер PS3-4K-SigLIP, вытаскивающий данные из изображений в разрешении до 4К.
Stability: выпустили обновление v 1.1 для своей виртуальной камеры. Теперь объект крутится не в отрыве от окружения.
DCM: ещё один ускоритель для видеомоделей. На примерах даёт 10х буст Хуньяню, сокращая генерацию с 1500 сек до 120 сек.
DualParal: метод генерации видео через распределенку.
Microsoft: выпустили Bing Video Creator, через который можно бесплатно погенерить видео через Sora.
🎸 ЗВУК 🎸
Suno: улучшили UI редактора треков и пришили больше контроля над генерируемой музыкой. Теперь можно загружать композиции длиной до 8 минут и вытаскивать до 12 стемов.
ElevenLabs: выпустили в альфа-режиме модель Eleven V3, которая звучит экспрессивно, чисто, и обладает рульками для контроля генерируемой речи. В демке на сайте на русском не пашет, но бравые подписчики нашли способ разговорить на русском через кастомные голоса. Также разговорные AI-агенты теперь поддерживают мультиголосовой режим.
Hume: релизнули генератор речи EVI 3, который может выдавать разные эмоциональные голоса, а не только на выбор из списка спикеров.
Heygen: запустили AI Studio для создания аватаров с клонированием/переносом голоса (Voice Mirroring), его контролем (Voice Director), и не только.
🤖 ЧАТЫ 🤖
n8n: в фреймворке для автоматизации AI-агентов теперь можно с помощью Evaluations оценивать работоспособность собранного воркфлоу без влияния на продакшен.
Qwen: выпустили серию моделей Embedding плюс Reranker для генерации вытаскивания инфы из документов, RAG, классификации, итд.
Xenova: сделал WebGPU варики на новые модели Qwen и приложение для реалтайм общения с ллм в браузере.
Hcompany: выпустили AI-агента Holo1 в размерах от 3B до 7B для выполнения заданий в вебе.
VideoXL2: опенсорсная модель для понимания длинных видео и чата по ним.
Sakana: представили машину Гёделя, которая пишет свой код и сама себя улучшает.
Google: обновили ллм Gemini 2.5 Pro, улучшив результаты в рассуждениях, кодинге, и науке. А ещё недавно они выпустили приложение Gallery для запуска ллм у себя на Android или iOS.
OpenAI: немного улучшили кросс-чатовую память для бесплатных пользователей. Также раскатали Codex на владельцев Plus подписки, дали ChatGPT возможность тянуть реалтайм данные из внутренней документации, и обновили расширенный голосовой режим.
📹 ВИДЕО + АРТ 🎨
Comfy: добавили информационные страницы, призванные помочь разобраться с нодами. И собираются обновить сами ноды до V3, чтобы уменьшить количество конфликтов в воркфлоу.
WanGP: в фреймворк для запуска видеомоделей на малом количестве VRAM добавлен Hunyuan Video Avatar. Требования снижены до 10 ГБ VRAM.
Epic Games: в рамках конференции State of Unreal представили Unreal Engine 5.6 и обновлённый Metahuman, с помощью которого можно делать реалистичные анимации персонажей, используя, например, вебку или камеру смартфона. Также сделали AI-ассистента, помогающего в разработке контента для Fortnite и работе с Verse кодом.
Google: видеомодель Veo3 теперь доступна на Krea, Fal, Replicate и Flora.
Higgsfield: добавили Speak для генерации видео с липсинком.
Генератор LUT для цветокоррекции.
Pinokio: поменял домен на pinokio.co (со старым возникла проблема из-за Squarespace) и выпустил версию V 3.9 исправляющую не загружавшуюся страницу Discovery.
Хуньянь: выпустили код и веса для HunyuanCustom для создания видео из нескольких рефов.
Комфи ноды Gaze для отслеживания взгляда, и OmniConsistency для стайлтрансфера.
World Labs: выпустили в опенсорс Forge, движок для рендера сплатов в вебе. Гитхаб
Bytedance: релизнули ContentV, фреймворк для эффективной тренировки видеомоделей, и одноимённый видеогенератор размером 8B.
Nvidia: дропнули визуальный энкодер PS3-4K-SigLIP, вытаскивающий данные из изображений в разрешении до 4К.
Stability: выпустили обновление v 1.1 для своей виртуальной камеры. Теперь объект крутится не в отрыве от окружения.
DCM: ещё один ускоритель для видеомоделей. На примерах даёт 10х буст Хуньяню, сокращая генерацию с 1500 сек до 120 сек.
DualParal: метод генерации видео через распределенку.
Microsoft: выпустили Bing Video Creator, через который можно бесплатно погенерить видео через Sora.
🎸 ЗВУК 🎸
Suno: улучшили UI редактора треков и пришили больше контроля над генерируемой музыкой. Теперь можно загружать композиции длиной до 8 минут и вытаскивать до 12 стемов.
ElevenLabs: выпустили в альфа-режиме модель Eleven V3, которая звучит экспрессивно, чисто, и обладает рульками для контроля генерируемой речи. В демке на сайте на русском не пашет, но бравые подписчики нашли способ разговорить на русском через кастомные голоса. Также разговорные AI-агенты теперь поддерживают мультиголосовой режим.
Hume: релизнули генератор речи EVI 3, который может выдавать разные эмоциональные голоса, а не только на выбор из списка спикеров.
Heygen: запустили AI Studio для создания аватаров с клонированием/переносом голоса (Voice Mirroring), его контролем (Voice Director), и не только.
🤖 ЧАТЫ 🤖
n8n: в фреймворке для автоматизации AI-агентов теперь можно с помощью Evaluations оценивать работоспособность собранного воркфлоу без влияния на продакшен.
Qwen: выпустили серию моделей Embedding плюс Reranker для генерации вытаскивания инфы из документов, RAG, классификации, итд.
Xenova: сделал WebGPU варики на новые модели Qwen и приложение для реалтайм общения с ллм в браузере.
Hcompany: выпустили AI-агента Holo1 в размерах от 3B до 7B для выполнения заданий в вебе.
VideoXL2: опенсорсная модель для понимания длинных видео и чата по ним.
Sakana: представили машину Гёделя, которая пишет свой код и сама себя улучшает.
Google: обновили ллм Gemini 2.5 Pro, улучшив результаты в рассуждениях, кодинге, и науке. А ещё недавно они выпустили приложение Gallery для запуска ллм у себя на Android или iOS.
OpenAI: немного улучшили кросс-чатовую память для бесплатных пользователей. Также раскатали Codex на владельцев Plus подписки, дали ChatGPT возможность тянуть реалтайм данные из внутренней документации, и обновили расширенный голосовой режим.
This media is not supported in your browser
VIEW IN TELEGRAM
Apple анонсировали, что WebGPU заедет в Safari 26 в бета-режиме. До этого она в течение года работала в превью.
WebGPU это технология для рендера 3D и запуска AI прямо в браузере без необходимости установки — модель и сопутствующие файлы ставятся сами на фоне. Можно гонять игры, сайты с графикой, генераторы текста/ картинок/ музыки/ итд.
Компания считает WebGPU заменит WebGL на операционках их экосистемы, она лучше работает с железом и графическим API Metal, а также предпочтительней для новых сайтов и веб-приложений. Сделали для разработчиков видео о технологии WebGPU и её применении.
Вот вам приколюхи на WebGPU:
* сайт-визитка
* генератор речи на основе Kokoro
* FPS шутер
* и мой пост на тему как MPC толпа может использовать WebGPU
Анонс
Видео про WebGPU от Apple
WebGPU это технология для рендера 3D и запуска AI прямо в браузере без необходимости установки — модель и сопутствующие файлы ставятся сами на фоне. Можно гонять игры, сайты с графикой, генераторы текста/ картинок/ музыки/ итд.
Компания считает WebGPU заменит WebGL на операционках их экосистемы, она лучше работает с железом и графическим API Metal, а также предпочтительней для новых сайтов и веб-приложений. Сделали для разработчиков видео о технологии WebGPU и её применении.
Вот вам приколюхи на WebGPU:
* сайт-визитка
* генератор речи на основе Kokoro
* FPS шутер
* и мой пост на тему как MPC толпа может использовать WebGPU
Анонс
Видео про WebGPU от Apple
This media is not supported in your browser
VIEW IN TELEGRAM
Adobe: ...ты ли это?
Представили метод Self Forcing, позволяющий генерить видео реалтайм в режиме стриминга на одной 4090.
Технология имитирует процесс инференса во время тренировки видеомодели, выполняя авторегрессионную развертку с KV-кэшированием. Это позволяет добиться высокого соответствия выходных результатов оригинальным видосам.
Сделали модель на основе Wan 2.1, которая после разогрева в 0,8 сек генерирует 480p 10 fps в реалтайме на 4090. На H100 выдаёт 16 fps. В целом по требованиям нужно минимум 24 ГБ VRAM и 64 ГБ RAM (первый раз как-то явно RAM прописывается).
В отличии от большинства анонсов Адоба, где тебе только пускают бумажную пыль в глаза, здесь есть код. Но тестировалось только на Linux. Ну штош Ubuntu, настало твоё время.
Сайт
Гитхаб
Хаггинг
Представили метод Self Forcing, позволяющий генерить видео реалтайм в режиме стриминга на одной 4090.
Технология имитирует процесс инференса во время тренировки видеомодели, выполняя авторегрессионную развертку с KV-кэшированием. Это позволяет добиться высокого соответствия выходных результатов оригинальным видосам.
Сделали модель на основе Wan 2.1, которая после разогрева в 0,8 сек генерирует 480p 10 fps в реалтайме на 4090. На H100 выдаёт 16 fps. В целом по требованиям нужно минимум 24 ГБ VRAM и 64 ГБ RAM (первый раз как-то явно RAM прописывается).
В отличии от большинства анонсов Адоба, где тебе только пускают бумажную пыль в глаза, здесь есть код. Но тестировалось только на Linux. Ну штош Ubuntu, настало твоё время.
Сайт
Гитхаб
Хаггинг
This media is not supported in your browser
VIEW IN TELEGRAM
Topaz: запустили креативный апскейлер Astra для повышения разрешения видео до 4к, интерполяции кадров до 120 fps (или х8 слоумо), и генерации новых деталей.
При этом может работать в Precise режиме, чтобы максимально придерживаться оригинала. Есть выбор фокуса на качестве или на скорости. Последний вариант в 4 раза быстрее и в 3 раза дешевле модели Starlight.
До этого они представили линейку моделей Bloom для креативного апскейла картинок.
Пока доступно в приватном режиме. Доступ запрашивается у них в комментах в твитторе.
Анонс
Сайт
При этом может работать в Precise режиме, чтобы максимально придерживаться оригинала. Есть выбор фокуса на качестве или на скорости. Последний вариант в 4 раза быстрее и в 3 раза дешевле модели Starlight.
До этого они представили линейку моделей Bloom для креативного апскейла картинок.
Пока доступно в приватном режиме. Доступ запрашивается у них в комментах в твитторе.
Анонс
Сайт