6
Там Midjourney издалека намекают, что готовят к релизу свой видеогенератор и вопрошают каким мы хотели бы его видеть.
Форма опроса
Форма опроса
2
This media is not supported in your browser
VIEW IN TELEGRAM
Wan: теперь есть лора на контроль кадра через карту глубины. Натренировано на основе DepthAnythingV2-small.
Хаггинг
Хаггинг
DreamMesh: инструмент для преобразования 3D объекта из облака точек в меш.
Можно, например, снять облёт объекта на видео —> кинуть его в Postshot —> получить поинтклауд и обрезать лишнее —> скормить в DreamMesh для ретопологии. А дальше анимируем в блендоре, или чём ещё.
Тестировалось на железе с A100 и выше. Но авось найдётся способ оптимизировать и для пользовательских машин.
Сайт
Гитхаб
Хаггинг
Можно, например, снять облёт объекта на видео —> кинуть его в Postshot —> получить поинтклауд и обрезать лишнее —> скормить в DreamMesh для ретопологии. А дальше анимируем в блендоре, или чём ещё.
Тестировалось на железе с A100 и выше. Но авось найдётся способ оптимизировать и для пользовательских машин.
Сайт
Гитхаб
Хаггинг
Comfy: добавилась поддержка SkipLayerGuidance для улучшения видео в Wan, плюс работа с лорами на контроль кадра. Также подрубили Hunyuan 3D v2 с его мультивью версией. Гитхаб
Glif: появился глиф для создания стабильных RPG персонажей с помощью редактирования промтом в Gemini.
Invoke: уменьшено потребление VRAM, добавлена поддержка Flux Tools (Fill в пре-релизе), работа с форматом WEBP, и не только.
Zluda: CUDA для видюх AMD. Теперь cuDNN работает в A1111 форке для AMD GPU.
Stepfun: выпустили видеогенератор на основе текста и картинки (TI2V) размером 30B (не влезет в 24 ГБ) и организовали для него Comfy.
Kling: добавили эффект DizzyDizzy как MicroWave в PixVerse.
Pika: тизерят технологию манипулирования объектами на видео.
Stability: выпустили фреймворк для виртуального управления камерой..., который работает нестабильно.
Roblox: дропнули в опенсорс 3D генератор Cube. Демо... особо не впечатляет // Гитхаб // Pinokio
Tencent: обновили Хуньянь 3D V2 и добавили версии: Mini для работы на 3 ГБ VRAM, и Multi-view для получения 3D объекта из нескольких точек обзора. Также выпустили фреймворк Turbo (FlashVDM) для ускорения генерации просто меша за 1~5 сек, и текстурированного меша за 30~100 сек. Хаггинг // Pinokio // Comfy
Nvidia: выпустили код 3DGRUT, метода получения 3D сцен из фотографий, который, в отличие от сплатов, сочетает в себе и растеризацию прямых лучей и рейтрейсинг для работы с отражениями, преломлениями, и тенями.
Также на GTC они анонсировали новые рабочие станции для AI задач. Ещё представили RTX 6000 PRO с 96 ГБ VRAM и серверные Blackwell Ultra. Полная преза.
Google: в свою очередь релизнули код EVER, метода получения 3D сцен с меньшим количеством артефактов, чем в оригинальных сплатах. Позволяет выдавать ~30 fps 720p на 4090, и, благодаря поддержке рейтрейсинга, работает с дефокусом, блюром, и дисторшеном.
PostShot: добавили Splat3 метод для обработки кадров, немного улучшающий детали.
PlayCanvas: обновили движок, ускорив его работу, и добавив обработчик теней.
Два метода повышения качества сплатов HTGS и PGSR.
Phygital+: обновили creative upscale, вариации и апскейл Midjourney, добавили ноду для замены фона.
SeeLe: ускорение сплатов на мобильных устройствах до 90 fps.
D2GV: быстрый и качественный рендер сплатов на 400 fps.
Neurogen: добавили новую бесплатную модель и обновили сайт.
BiGS: релайтинг сплатов.
Apple-Log2Linear: опенсорсный инструмент для преобразования .MOV файлов, закодированных в Apple ProRes Log, в полностью откалиброванные линейные RGB-изображения.
SVRaster: растеризация 3D сцен через воксели, без использования нейронок и сплатов.
Thera: апскейлер с анти-алиасингом на борту. Демо
Glif: появился глиф для создания стабильных RPG персонажей с помощью редактирования промтом в Gemini.
Invoke: уменьшено потребление VRAM, добавлена поддержка Flux Tools (Fill в пре-релизе), работа с форматом WEBP, и не только.
Zluda: CUDA для видюх AMD. Теперь cuDNN работает в A1111 форке для AMD GPU.
Stepfun: выпустили видеогенератор на основе текста и картинки (TI2V) размером 30B (не влезет в 24 ГБ) и организовали для него Comfy.
Kling: добавили эффект DizzyDizzy как MicroWave в PixVerse.
Pika: тизерят технологию манипулирования объектами на видео.
Stability: выпустили фреймворк для виртуального управления камерой..., который работает нестабильно.
Roblox: дропнули в опенсорс 3D генератор Cube. Демо... особо не впечатляет // Гитхаб // Pinokio
Tencent: обновили Хуньянь 3D V2 и добавили версии: Mini для работы на 3 ГБ VRAM, и Multi-view для получения 3D объекта из нескольких точек обзора. Также выпустили фреймворк Turbo (FlashVDM) для ускорения генерации просто меша за 1~5 сек, и текстурированного меша за 30~100 сек. Хаггинг // Pinokio // Comfy
Nvidia: выпустили код 3DGRUT, метода получения 3D сцен из фотографий, который, в отличие от сплатов, сочетает в себе и растеризацию прямых лучей и рейтрейсинг для работы с отражениями, преломлениями, и тенями.
Также на GTC они анонсировали новые рабочие станции для AI задач. Ещё представили RTX 6000 PRO с 96 ГБ VRAM и серверные Blackwell Ultra. Полная преза.
Google: в свою очередь релизнули код EVER, метода получения 3D сцен с меньшим количеством артефактов, чем в оригинальных сплатах. Позволяет выдавать ~30 fps 720p на 4090, и, благодаря поддержке рейтрейсинга, работает с дефокусом, блюром, и дисторшеном.
PostShot: добавили Splat3 метод для обработки кадров, немного улучшающий детали.
PlayCanvas: обновили движок, ускорив его работу, и добавив обработчик теней.
Два метода повышения качества сплатов HTGS и PGSR.
Phygital+: обновили creative upscale, вариации и апскейл Midjourney, добавили ноду для замены фона.
SeeLe: ускорение сплатов на мобильных устройствах до 90 fps.
D2GV: быстрый и качественный рендер сплатов на 400 fps.
Neurogen: добавили новую бесплатную модель и обновили сайт.
BiGS: релайтинг сплатов.
Apple-Log2Linear: опенсорсный инструмент для преобразования .MOV файлов, закодированных в Apple ProRes Log, в полностью откалиброванные линейные RGB-изображения.
SVRaster: растеризация 3D сцен через воксели, без использования нейронок и сплатов.
Thera: апскейлер с анти-алиасингом на борту. Демо
4
🎸 ЗВУК 🎸
Suno: добавили каверы на iOS и ремастеры на Android.
Udio: выпустили модель Allegro, являющуюся дистиллированной ускоренной версией оригинальной 1.5 модели. По умолчанию теперь она стоит в бесплатных генерациях. Плюс подъехал видеогайд по функционалу от разработчиков.
Sesame: голосовой ассистент и опенсорсный генератор речи (TTS) с фокусом на эмоциональное и реалистичное звучание. На русском не пашет. Сайт // Демо
Orpheus: тоже эмоциональная TTS, но на основе ламы 3B.
OpenAI: выкатили TTS с GPT-4o mini под капотом, чтобы не отставать.
🤖 ЧАТЫ 🤖
Ollama: добавлена поддержка AMD Strix Halo, и Gemma 3 теперь работает с множеством картинок на вход.
Bolt.diy: в этот локальный редактор кода V 0.0.7 добавлена индикация рассуждений LLM, а также поддержка Gemini 2 и DeepSeek R1, улучшен UI.
Tencent: выпустил свою размышляющую модель T1 на разработанной архитектуре Hybrid-Mamba-Transformer MoE.
Reka: опенсорсная ллм Reka Flash 3 размером 21B, нативно заточенная на AI-агентные задания и работающая на уровне OpenAI o1-mini. Демо
Mistral: дропнули Mistral-Small-3.1-24B визуальную языковую модель (VLM) с контекстом 128к (можно скормить книжки). Влезет в 24 ГБ, уже есть кванты для LM Studio.
Anthropic: добавили в Claude Code "think" триггер для крупных задач, кастомные слэш коды, итд. Запустили блог для инженеров.
Cohere: выпустили ллм Command A размером 111B с фокусом на AI-агентных задачах и работе в корпоративном сегменте.
Hermes: релизнули DeepHermes, гибридную размышляющую модель в размерах от 3B до 24B.
Google: выкатили Gemini Canvas, аналог холста от OpenAI или Artifacts в OpenWebUI / Claude.
Suno: добавили каверы на iOS и ремастеры на Android.
Udio: выпустили модель Allegro, являющуюся дистиллированной ускоренной версией оригинальной 1.5 модели. По умолчанию теперь она стоит в бесплатных генерациях. Плюс подъехал видеогайд по функционалу от разработчиков.
Sesame: голосовой ассистент и опенсорсный генератор речи (TTS) с фокусом на эмоциональное и реалистичное звучание. На русском не пашет. Сайт // Демо
Orpheus: тоже эмоциональная TTS, но на основе ламы 3B.
OpenAI: выкатили TTS с GPT-4o mini под капотом, чтобы не отставать.
🤖 ЧАТЫ 🤖
Ollama: добавлена поддержка AMD Strix Halo, и Gemma 3 теперь работает с множеством картинок на вход.
Bolt.diy: в этот локальный редактор кода V 0.0.7 добавлена индикация рассуждений LLM, а также поддержка Gemini 2 и DeepSeek R1, улучшен UI.
Tencent: выпустил свою размышляющую модель T1 на разработанной архитектуре Hybrid-Mamba-Transformer MoE.
Reka: опенсорсная ллм Reka Flash 3 размером 21B, нативно заточенная на AI-агентные задания и работающая на уровне OpenAI o1-mini. Демо
Mistral: дропнули Mistral-Small-3.1-24B визуальную языковую модель (VLM) с контекстом 128к (можно скормить книжки). Влезет в 24 ГБ, уже есть кванты для LM Studio.
Anthropic: добавили в Claude Code "think" триггер для крупных задач, кастомные слэш коды, итд. Запустили блог для инженеров.
Cohere: выпустили ллм Command A размером 111B с фокусом на AI-агентных задачах и работе в корпоративном сегменте.
Hermes: релизнули DeepHermes, гибридную размышляющую модель в размерах от 3B до 24B.
Google: выкатили Gemini Canvas, аналог холста от OpenAI или Artifacts в OpenWebUI / Claude.
4
Bytedance: выпустили Infinite You (InfU), фреймворк для генерации картинок с целевой персоной.
Работает как PuLID, InstantID, PhotoMaker, и другие модели на эту тему, вписывая загруженное лицо в нужный сеттинг. Но в отличие от них здесь используется InfuseNet — компонент, который внедряет идентификационные характеристики в базовую модель DiT, позволяя придерживаться лица с рефа, при этом чётко следуя промту и выдавая высокое качество изображения.
Из коробки работает с контролнетами, лорами, и IP-адаптерами.
Демо
Сайт
Гитхаб
Работает как PuLID, InstantID, PhotoMaker, и другие модели на эту тему, вписывая загруженное лицо в нужный сеттинг. Но в отличие от них здесь используется InfuseNet — компонент, который внедряет идентификационные характеристики в базовую модель DiT, позволяя придерживаться лица с рефа, при этом чётко следуя промту и выдавая высокое качество изображения.
Из коробки работает с контролнетами, лорами, и IP-адаптерами.
Демо
Сайт
Гитхаб
Topaz: представили софт для апскейла изображений Gigapixel 8.3.
Что нового:
* Модель Redefine для креативного апскейла с указанием промтом что нужно изменить, или в какой стиль/сеттинг всё перенести. Может дать прокашляться Magnific.
* Модель Recover для восстановления старых фото. Лучше всего работает с картинками до 1000х. Также пишут, что сканы и фото принтов лучше даунскейлить перед апскейлом, чтобы модель могла понять родное разрешение у как картинку улучшить.
* Модель Face Recovery Gen 2 с фокусом на восстановлении лиц. Улучшена проработка глаз, зубов, а также креативное восстановление в местах с недостатком данных вроде лиц вдалеке. Также на их бенчах модель значительно быстрее SDXL и Fux, если её гонять на L40S.
Апкейлить можно как локально, так и с обработкой в облаке.
Сайт
Твит
Что нового:
* Модель Redefine для креативного апскейла с указанием промтом что нужно изменить, или в какой стиль/сеттинг всё перенести. Может дать прокашляться Magnific.
* Модель Recover для восстановления старых фото. Лучше всего работает с картинками до 1000х. Также пишут, что сканы и фото принтов лучше даунскейлить перед апскейлом, чтобы модель могла понять родное разрешение у как картинку улучшить.
* Модель Face Recovery Gen 2 с фокусом на восстановлении лиц. Улучшена проработка глаз, зубов, а также креативное восстановление в местах с недостатком данных вроде лиц вдалеке. Также на их бенчах модель значительно быстрее SDXL и Fux, если её гонять на L40S.
Апкейлить можно как локально, так и с обработкой в облаке.
Сайт
Твит