Media is too big
VIEW IN TELEGRAM
Апдейт VibeVoice от Микрософта.
Это опенсорсная генерилка аудио по тексту (TTS).
Теперь это практически реалтайм стриминг аудио с маленькой моделью:
• задержка всего 0.3s, но на A100
• 0.5B TTS model
• Поддержка длинных генераций
https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B
@cgevent
Это опенсорсная генерилка аудио по тексту (TTS).
Теперь это практически реалтайм стриминг аудио с маленькой моделью:
• задержка всего 0.3s, но на A100
• 0.5B TTS model
• Поддержка длинных генераций
https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B
@cgevent
1👍22👎7🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Gaussian Splat Splines
Может показаться, что это частицы в Maya или Houdini.
Но нет, это такое лихое управление гауссовым сплатами. Я, честно сказать, такого еще не встречал.
Это анимация сплатов вдоль кривых Безье.
И это как бы реалтайм. Там даже есть есть "per-particle" аттрибуты, ну то есть Per-splat speed variation + noise displacement - вариация скорости индивидуальных сплатов.
Не уверен про практические кейсы, возможно в эффектах или motion design пригодится...
Я когда-то писал плагин для конвертации Maya Paint Effects в частицы, это чем-то напомнило процесс.
@cgevent
Может показаться, что это частицы в Maya или Houdini.
Но нет, это такое лихое управление гауссовым сплатами. Я, честно сказать, такого еще не встречал.
Это анимация сплатов вдоль кривых Безье.
И это как бы реалтайм. Там даже есть есть "per-particle" аттрибуты, ну то есть Per-splat speed variation + noise displacement - вариация скорости индивидуальных сплатов.
Не уверен про практические кейсы, возможно в эффектах или motion design пригодится...
Я когда-то писал плагин для конвертации Maya Paint Effects в частицы, это чем-то напомнило процесс.
@cgevent
👍23❤6🔥3😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Ну наконец-то нормальное применение робатов в повседневной жизни.
Это вам не показательные съемки на камеру как ванильный робат разбирает посудомойку или складывает полотенца.
Это реальный повседневный рабский труд на благо продажи одежды для кожаных.
Манекены за 30 косых - вот о чем мечтают ритейлеры.
P.S. У меня правда есть вопросы: где страховочный трос? Ибо если рабы слетят скатушек дорожки и пойдут строевым шагом перемалывать мясных по всему моллу, то с камер наблюдения можно снимать документальный фильм ужасов.
@cgevent
Это вам не показательные съемки на камеру как ванильный робат разбирает посудомойку или складывает полотенца.
Это реальный повседневный рабский труд на благо продажи одежды для кожаных.
Манекены за 30 косых - вот о чем мечтают ритейлеры.
P.S. У меня правда есть вопросы: где страховочный трос? Ибо если рабы слетят с
@cgevent
1😁74❤10🔥7😱7👎6👍4
Никак не могу прийти в себя, после того что Warner Brothers сделали с Suno и Udio.
Очень странный прецедент.
Получается, что на картинках из интернета обучаться можно, что можно спарсить все видосы и натренировать видеогенераторы, про тексты я вообще молчу, а именно музыку(звук) нельзя использовать для обучения.
И что именно музыкальные генераторы надо тренировать на некоем сферически-вакуумном контенте.
Пример Адоба и провала такого подхода к картинкам и видео, говорит нам о том, что ничего хорошего не получается.
Но факт остается фактом - Suno и Udio удалят свои натренированные в 2025 году модели, и выкатят кастрированные версии в 2026 году.
Почему?
Потому что в музыкальной индустрии больше денег, злее юристы и больше крупных олигархов от музыки?
Почему видео можно, а музыку нельзя?
@cgevent
Очень странный прецедент.
Получается, что на картинках из интернета обучаться можно, что можно спарсить все видосы и натренировать видеогенераторы, про тексты я вообще молчу, а именно музыку(звук) нельзя использовать для обучения.
И что именно музыкальные генераторы надо тренировать на некоем сферически-вакуумном контенте.
Пример Адоба и провала такого подхода к картинкам и видео, говорит нам о том, что ничего хорошего не получается.
Но факт остается фактом - Suno и Udio удалят свои натренированные в 2025 году модели, и выкатят кастрированные версии в 2026 году.
Почему?
Потому что в музыкальной индустрии больше денег, злее юристы и больше крупных олигархов от музыки?
Почему видео можно, а музыку нельзя?
@cgevent
2😱106👍26❤16👎4🔥3😁1🙏1
Media is too big
VIEW IN TELEGRAM
Kling Element Library
Пятый день омниновостей от Клинга.
Element Library - инструмент для создания ультра-консистентных элементов(ассетов) с легким доступом для генерации видео.
Генерите свои элементы (Клинг зовет их elements) с изображениями с разных ракурсов, и Kling O1 запомнит ваших персонажей, предметы и фоны, чтобы обеспечить консистентные результаты независимо от того, как движется камера или как развивается сцена.
Генерить разные ракурсы можете как новым Kling IMAGE O1, так и Нанабананой.
Очень грубо говоря, это библиотека Лор, без всяких тренировок.
@cgevent
Пятый день омниновостей от Клинга.
Element Library - инструмент для создания ультра-консистентных элементов(ассетов) с легким доступом для генерации видео.
Генерите свои элементы (Клинг зовет их elements) с изображениями с разных ракурсов, и Kling O1 запомнит ваших персонажей, предметы и фоны, чтобы обеспечить консистентные результаты независимо от того, как движется камера или как развивается сцена.
Генерить разные ракурсы можете как новым Kling IMAGE O1, так и Нанабананой.
Очень грубо говоря, это библиотека Лор, без всяких тренировок.
@cgevent
👍43❤12🔥10👎1
LongCat Image - еще одна опенсорсная Нанабанана.
Вслед за Зимажем (Z-Image) мы имеем еще одну легкую (6В!) опенсорсную китайскую модель для генерации картинок.
Сначала смешное: я уже писал про LongCat Video - тут можете почитать о том, что крупный китайский доставщик еды тренирует свои базовые модели(?!!).
И теперь они бахнули модель для генерации и редактирования картинок - LongCat Image. И примечательна он тем, что она во-первых, легкая (6B), а, во-вторых, имеет версию -EDIT для редактирования. И в отличие от Зимажа, редактирующая модель уже готова.
Я немного пощупал обе модели и мой спойлер такой:
- в генерации картинок LongCat Image воще не силен, похвастаться ему просто нечем.
- а вот в редактировании он оказался неожиданно неплох. Я, правда, погонял его в режиме раздеватора, и он справился без базара и цензуры. Более сложное редактирование оставляю вам, пишите в коментарии, как он по сравнению с Бананой.
На итоге у нас следующее:
Пока BFL выпускает монстроподобные Флюкс-модели на 60 гиг, пока мы ждем новый Qwen Edit и Z-Image Edit, у нас есть опенсорсная легкая модель для редактирования картинок от доставщика еды в Китае.
В интересное время живем...
Нашел для вас два демо-спейса:
https://huggingface.co/spaces/anycoderapps/LongCat-Image-Edit
https://huggingface.co/spaces/AiSudo/LongCat-Image
Есть еще чат:
https://longcat.chat/
Код тут:
https://github.com/meituan-longcat/LongCat-Image
Модели:
https://huggingface.co/meituan-longcat/LongCat-Image
https://huggingface.co/meituan-longcat/LongCat-Image-Dev (модель для файнтюга)
https://huggingface.co/meituan-longcat/LongCat-Image-Edit
Комфи? Какой-такой Комфи?
@cgevent
Вслед за Зимажем (Z-Image) мы имеем еще одну легкую (6В!) опенсорсную китайскую модель для генерации картинок.
Сначала смешное: я уже писал про LongCat Video - тут можете почитать о том, что крупный китайский доставщик еды тренирует свои базовые модели(?!!).
И теперь они бахнули модель для генерации и редактирования картинок - LongCat Image. И примечательна он тем, что она во-первых, легкая (6B), а, во-вторых, имеет версию -EDIT для редактирования. И в отличие от Зимажа, редактирующая модель уже готова.
Я немного пощупал обе модели и мой спойлер такой:
- в генерации картинок LongCat Image воще не силен, похвастаться ему просто нечем.
- а вот в редактировании он оказался неожиданно неплох. Я, правда, погонял его в режиме раздеватора, и он справился без базара и цензуры. Более сложное редактирование оставляю вам, пишите в коментарии, как он по сравнению с Бананой.
На итоге у нас следующее:
Пока BFL выпускает монстроподобные Флюкс-модели на 60 гиг, пока мы ждем новый Qwen Edit и Z-Image Edit, у нас есть опенсорсная легкая модель для редактирования картинок от доставщика еды в Китае.
В интересное время живем...
Нашел для вас два демо-спейса:
https://huggingface.co/spaces/anycoderapps/LongCat-Image-Edit
https://huggingface.co/spaces/AiSudo/LongCat-Image
Есть еще чат:
https://longcat.chat/
Код тут:
https://github.com/meituan-longcat/LongCat-Image
Модели:
https://huggingface.co/meituan-longcat/LongCat-Image
https://huggingface.co/meituan-longcat/LongCat-Image-Dev (модель для файнтюга)
https://huggingface.co/meituan-longcat/LongCat-Image-Edit
Комфи? Какой-такой Комфи?
@cgevent
1❤51👍25🔥13😁13
Ну, за Marvelous Designer.
На первом видео я попросил Gemini 3 (Thinking) сделать мне симулятор одежды
Промпт:
Сделал одну правку - попросил сделать кисть для разрезания пошире (правая кнопка мыши).
И ну семь раз кромсать и один отмерять.
На втором видео примеры того, как справились сhatGPT 5.1(слева), Claude Opus 4.5(в середине), DeepSeek-V3.2(справа).
Пишем свои симуляторы одним промптом и работает это все в реальном времени в обычном браузере.
@cgevent
На первом видео я попросил Gemini 3 (Thinking) сделать мне симулятор одежды
Промпт:
Create a single HTML file containing a realistic cloth simulation using HTML5 Canvas and JavaScript. The cloth should be a grid of points connected by constraints using Verlet integration. Implement gravity and mouse interaction: the user should be able to click and drag particles to tear the cloth. The physics must remain stable without exploding.
Сделал одну правку - попросил сделать кисть для разрезания пошире (правая кнопка мыши).
И ну семь раз кромсать и один отмерять.
На втором видео примеры того, как справились сhatGPT 5.1(слева), Claude Opus 4.5(в середине), DeepSeek-V3.2(справа).
Пишем свои симуляторы одним промптом и работает это все в реальном времени в обычном браузере.
@cgevent
👍56❤24🔥22👎6😱3
This media is not supported in your browser
VIEW IN TELEGRAM
Когда ты просто пытаешь закрыть Блендор и не сохранить проект...
В конце становится ну очень смешно
https://x.com/kensyouen_Y/status/1996511510546510083
@cgevent
В конце становится ну очень смешно
https://x.com/kensyouen_Y/status/1996511510546510083
@cgevent
❤116👍39😁30🔥21😱6
NVIDIA Studio Driver 591.44
Nvidia обновила декабрьские драйверы, я пошел посмотреть, что там нового.
Забавно, раньше мы гонялись за версиями драйверов, чтобы Maya не падала (да было и такое), что-то там перепаивали, превращая GeForce в Quadro, пытались ускорить трехмерный вьюпорт и количество полигонов\фпс.
Теперь же ускорения идет по линии ИИ (в текущей версии драйверов):
оптимизация RTX в ComfyUI, оптимизация NVFP8\RTX во FLUX.2, поддержка NVIDIA LSS в Blender 5.0 и TensorRT-RTX в Topaz Video AI и Topaz Photo AI.
Качайте тут (вcего-то гигабайтик драйверов):
https://www.nvidia.com/en-us/drivers/details/258747/
@cgevent
Nvidia обновила декабрьские драйверы, я пошел посмотреть, что там нового.
Забавно, раньше мы гонялись за версиями драйверов, чтобы Maya не падала (да было и такое), что-то там перепаивали, превращая GeForce в Quadro, пытались ускорить трехмерный вьюпорт и количество полигонов\фпс.
Теперь же ускорения идет по линии ИИ (в текущей версии драйверов):
оптимизация RTX в ComfyUI, оптимизация NVFP8\RTX во FLUX.2, поддержка NVIDIA LSS в Blender 5.0 и TensorRT-RTX в Topaz Video AI и Topaz Photo AI.
Качайте тут (вcего-то гигабайтик драйверов):
https://www.nvidia.com/en-us/drivers/details/258747/
@cgevent
🔥37❤9👍7
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length
Я подождал пока Алибабищенко выкатит код, чтобы запостить новость, ибо однажды зарекся постить новости без кода от них.
Давненько не было ничего в опен сорсе на поляне Аватаров и говорящих голов.
Последние новости про Hallo 3 были аж в январе.
А в прошлом году я писал про:
EMO от Алибабы, демки огонь, кода нет.
VASA от Микрософтченко.
V-Express от Тиктокченко, качество сильно смазано, но есть код!
Огненный "Следи за лицом!", появился код!!.
И еще Loopy!
Но сейчас Алибабищще изменил сам себе и бахнул проект с кодом.
И судя по демкам - это интересно.
Качество по-прежнему мылит, как на всех опен-сорсных аватарогенерилках (основанных как правило на CogVideo))
Тут, однако, под капотом жирный 14B WanS2V, поэтому мыла сильно поменьше, но главные фишки в следующем.
Он может оживлять не только человеческия головы, но и всяких тварей и персонажей из мультиков. Один одноглазый Шрек, косящий глазом в камеру чего стоит.
И он быстрый: 20 FPS on 5 H800 GPUs with 4-step sampling. Это уже реалтайм.
А теперь бочка дегтя:
Пока нет версии для одной GPU. Они так и пишут, нужно несколько GPU с 80GB VRAM каждая
Но в планах: Inference code supporting single GPU (offline generation)
Также в планах:
поддержка мульти-персонажей
свой Text-To-Speech
Low VRAM version
3 steps
кванты
В общем Алибаба выкатили монстра, которые пока точно не заведется локально (только у баяр с 5хН100), но который демонстрирует хороший шаг вперед, по сравнению со всеми предыдущими опенсорсными решениями.
И да, их головы могут говорить бесконечно долго - пишут про 10 000 секунд!
Проект: https://liveavatar.github.io/
Код и веса тут: https://github.com/Alibaba-Quark/LiveAvatar
@cgevent
Я подождал пока Алибабищенко выкатит код, чтобы запостить новость, ибо однажды зарекся постить новости без кода от них.
Давненько не было ничего в опен сорсе на поляне Аватаров и говорящих голов.
Последние новости про Hallo 3 были аж в январе.
А в прошлом году я писал про:
EMO от Алибабы, демки огонь, кода нет.
VASA от Микрософтченко.
V-Express от Тиктокченко, качество сильно смазано, но есть код!
Огненный "Следи за лицом!", появился код!!.
И еще Loopy!
Но сейчас Алибабищще изменил сам себе и бахнул проект с кодом.
И судя по демкам - это интересно.
Качество по-прежнему мылит, как на всех опен-сорсных аватарогенерилках (основанных как правило на CogVideo))
Тут, однако, под капотом жирный 14B WanS2V, поэтому мыла сильно поменьше, но главные фишки в следующем.
Он может оживлять не только человеческия головы, но и всяких тварей и персонажей из мультиков. Один одноглазый Шрек, косящий глазом в камеру чего стоит.
И он быстрый: 20 FPS on 5 H800 GPUs with 4-step sampling. Это уже реалтайм.
А теперь бочка дегтя:
Пока нет версии для одной GPU. Они так и пишут, нужно несколько GPU с 80GB VRAM каждая
Но в планах: Inference code supporting single GPU (offline generation)
Также в планах:
поддержка мульти-персонажей
свой Text-To-Speech
Low VRAM version
3 steps
кванты
В общем Алибаба выкатили монстра, которые пока точно не заведется локально (только у баяр с 5хН100), но который демонстрирует хороший шаг вперед, по сравнению со всеми предыдущими опенсорсными решениями.
И да, их головы могут говорить бесконечно долго - пишут про 10 000 секунд!
Проект: https://liveavatar.github.io/
Код и веса тут: https://github.com/Alibaba-Quark/LiveAvatar
@cgevent
❤15👍11
This media is not supported in your browser
VIEW IN TELEGRAM
Нейропрожарка
Spec Ad для Montblanc.
Что же самое важное в истории человечества? Это не империи или правители и даже не огонь. Испокон веков развитию цивилизаций способствовало сохранение и передача письменной информации и знаний. Ролик подводит к тому, что власть и сила в руках каждого, кто пишет. А лучше всего писать ручками и перьями Montblanc!
Процесс создания был относительно примитивным, учитывая выход нанобананы про и простую концепцию самого ролика.
Все стиллы были сделаны с помощью одного реф-изображения-балванки, которое легло в основу композиции и необычного ракурса, затем по промпту приводилось к нужной эпохе. Отдельные доработки/правки уже сделаны в ФШ и той же банане.
Анимация была сделана в kling 2.1/minimax 2.3/seedance pro
Kling хорошо понимает трекинг шоты, в то время как минимакс более креативный и кмношный результат может выдавать. Seedance самый стабильный из всех, в нем сделаны более медленные шоты.
Голос - elevenlabs.
Остальное - много монтажа и композа, т.е. работа ручками
Пэкшот - также коллажная композиция из разных стиллов, проявленных по маске
Все было сделано на одной подписке highsfield за 90 долларов по акции.
Сделано Алексеем Лотковым и Демидом Гурьяновым
@cgevent
Spec Ad для Montblanc.
Что же самое важное в истории человечества? Это не империи или правители и даже не огонь. Испокон веков развитию цивилизаций способствовало сохранение и передача письменной информации и знаний. Ролик подводит к тому, что власть и сила в руках каждого, кто пишет. А лучше всего писать ручками и перьями Montblanc!
Процесс создания был относительно примитивным, учитывая выход нанобананы про и простую концепцию самого ролика.
Все стиллы были сделаны с помощью одного реф-изображения-балванки, которое легло в основу композиции и необычного ракурса, затем по промпту приводилось к нужной эпохе. Отдельные доработки/правки уже сделаны в ФШ и той же банане.
Анимация была сделана в kling 2.1/minimax 2.3/seedance pro
Kling хорошо понимает трекинг шоты, в то время как минимакс более креативный и кмношный результат может выдавать. Seedance самый стабильный из всех, в нем сделаны более медленные шоты.
Голос - elevenlabs.
Остальное - много монтажа и композа, т.е. работа ручками
Пэкшот - также коллажная композиция из разных стиллов, проявленных по маске
Все было сделано на одной подписке highsfield за 90 долларов по акции.
Сделано Алексеем Лотковым и Демидом Гурьяновым
@cgevent
👍118🔥73❤13👎10😁4
Nano Banana Pro Flash
Выйдет до конца года. При сопоставимом качестве более дешёвая при использовании через API.
@cgevent
Выйдет до конца года. При сопоставимом качестве более дешёвая при использовании через API.
@cgevent
🔥62😱12👍7🙏5❤2