Media is too big
VIEW IN TELEGRAM
Kling: обновили генератор видео до версии V 1.5.
Что нового:
* Видео в 1080p, которые оптимизированы генериться под широкоформат
* Улучшилось следование промту
* Повысились качество, динамичность, и эстетичность картинки
* High-Quality (Professional) режим по той же цене
Также появился инструмент Motion Brush для выделения до 6 объектов на видео и их анимации по указанной траектории. Или можно задать, что должно остаться статичным. Такая же фича есть у Runway (не Gen-3) и Kaiber. Максимальная длительность видео из Motion Brush — 5 сек.
Пока контроль камеры и Motion Brush есть только в V 1. В версию V 1.5 они подъедут позже.
В обычном image-2-video режиме выдаётся видео длиной до 10 сек. Одновременно в Kling может генериться до 4 видео.
Анонс
Что нового:
* Видео в 1080p, которые оптимизированы генериться под широкоформат
* Улучшилось следование промту
* Повысились качество, динамичность, и эстетичность картинки
* High-Quality (Professional) режим по той же цене
Также появился инструмент Motion Brush для выделения до 6 объектов на видео и их анимации по указанной траектории. Или можно задать, что должно остаться статичным. Такая же фича есть у Runway (не Gen-3) и Kaiber. Максимальная длительность видео из Motion Brush — 5 сек.
Пока контроль камеры и Motion Brush есть только в V 1. В версию V 1.5 они подъедут позже.
В обычном image-2-video режиме выдаётся видео длиной до 10 сек. Одновременно в Kling может генериться до 4 видео.
Анонс
Работа подписчика @curlysasha. Молодец, что залетел в конкурс Runway!
Если тоже уже насобирали видосы в Gen-3 дропайте в комменты.
Если тоже уже насобирали видосы в Gen-3 дропайте в комменты.
Forwarded from %NeuroTemp%
Media is too big
VIEW IN TELEGRAM
«The Weight of Silence»
Наша конкурсная работа для проекта Gen:48
Выполнено в команде Anna Shvets и Slava Saf
Суть конкурса сделать короткометражное видео от 1 до 4 минут за 48 часов в нескольких сюжетных рамках на выбор.
Всё кадры полностью с нуля сделаны в нейросетях. Никаких Ae, 3d, композинга — на это просто не было времени
Наша конкурсная работа для проекта Gen:48
Выполнено в команде Anna Shvets и Slava Saf
Суть конкурса сделать короткометражное видео от 1 до 4 минут за 48 часов в нескольких сюжетных рамках на выбор.
Всё кадры полностью с нуля сделаны в нейросетях. Никаких Ae, 3d, композинга — на это просто не было времени
This media is not supported in your browser
VIEW IN TELEGRAM
В бесплатном интерфейсе для чата с языковыми моделями Hugging.chat расширили инструмент Tools.
Раньше там были только 6 инструментов, которые могли использовать любые поддерживаемых ллм (писал о них тут). А сейчас выбор пополнился инструментами сообщества и их там уже 85, включая генераторы картинок, распознавание их содержимого, проверка кода, генераторы речи, итд.
Чтобы активировать инструмент, нажимаем Tools > Browse community tools, выбираем что нравится, и нажимаем Activate. После чего возвращаемся в нужный чат или открываем новый.
Лимита сколько можно выбрать похоже нет.
PS: а да, там вроде ещё обновлённую модель Command-R от Cohere подрубили. Погонять можно нажав шестерёнку в правом верхнем углу где лама по умолчанию, нажать на CohereForAI/c4ai-command-r-plus-08-2024 и затем Activate.
Раньше там были только 6 инструментов, которые могли использовать любые поддерживаемых ллм (писал о них тут). А сейчас выбор пополнился инструментами сообщества и их там уже 85, включая генераторы картинок, распознавание их содержимого, проверка кода, генераторы речи, итд.
Чтобы активировать инструмент, нажимаем Tools > Browse community tools, выбираем что нравится, и нажимаем Activate. После чего возвращаемся в нужный чат или открываем новый.
Лимита сколько можно выбрать похоже нет.
PS: а да, там вроде ещё обновлённую модель Command-R от Cohere подрубили. Погонять можно нажав шестерёнку в правом верхнем углу где лама по умолчанию, нажать на CohereForAI/c4ai-command-r-plus-08-2024 и затем Activate.
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
А в Суно тихо и незаметно появился отрицательный промпт.
Причем его можно комбинировать с режимом cover.
Берём концертную запись с женским вокалом и пишем.
Никаких:
Девчачих голосов
Живой музики
Концертного звука
И ну генерить брутальный маскулинный панк рок на ту же мелодию.
@cgevent
Причем его можно комбинировать с режимом cover.
Берём концертную запись с женским вокалом и пишем.
Никаких:
Девчачих голосов
Живой музики
Концертного звука
И ну генерить брутальный маскулинный панк рок на ту же мелодию.
@cgevent
FaceFusion: этот дипфейкер обновился до V 3.
Что нового:
* Редактирование ползунками мимики и положения головы, как в LivePortrait.
* Омоложение/состаривание персонажа.
* Улучшение изображения через Pixel Boost.
* Обработка распознавания лица с разных углов обзора, чтобы дипфейк не слетал на поворотах головы.
* Добавлен улучшатель изображения real_esrgan_x8.
* и много другого по-мелочи.
Гитхаб
Установка через Pinokio
Портативная сборка от Neurogen
Что нового:
* Редактирование ползунками мимики и положения головы, как в LivePortrait.
* Омоложение/состаривание персонажа.
* Улучшение изображения через Pixel Boost.
* Обработка распознавания лица с разных углов обзора, чтобы дипфейк не слетал на поворотах головы.
* Добавлен улучшатель изображения real_esrgan_x8.
* и много другого по-мелочи.
Гитхаб
Установка через Pinokio
Портативная сборка от Neurogen
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Потестил CogStudio.
Это опенсорсный фреймворк от создателя Pinokio для генерации видео в разных режимах:
* text-2-video
* video-2-video
* image-2-video
* extend video
Под капотом китайская CogVideoX 2B / 5B. Возможно будет расширяться и Flux Video на выходе сюда тоже заедет.
В img-2-vid кадр держит консистентно, не кипит. Какое-то понимание мира вокруг и взаимодействия объектов между собой есть. Качество и детализацию не сильно зажёвывает.
На выходе 6 сек видео и гифка разрешением 740x480 в 6 fps. Есть встроенный апскейлер до 2880х1920, но он сильно смазывает детали, так что лучше использовать на чём-то вроде дальних планов, пейзажей, итд, а не на лицах крупняком. Альтернативно юзаем Topaz для апскейла и Flowframes для интерполяции кадров.
Промта слушается когда-как. Хорошо работает там, где объект более-менее статичен в центре и нужно анимировать фон, или наоборот, а также лёгкой имитации ручной съёмки. Тяжело даётся динамика: чем её требуется больше, тем модели сложнее. Частично можно компенсировать детальностью промта.
Контроль через сид, количество шагов, итд на месте. Но нужно завозить рульки типа Kling Motion Brush или DragNuwa.
Для улучшения промта опционально подрубается API от OpenAI. Хотя можно спокойно использовать опенсорсные мелкие модели типа ламы 3.1, qwen, phi, или кого ещё.
Из интересных плюшек:
* Сгенерированное видео можно послать в vid-2-vid, например для смены стиля или как указания движения объектам на новом видео.
* Или отправить видос на extend и расширить его не с конца, а с выбранного кадра, создавая ответвление. Правда с каждым последующим расширением качество будет падать.
* Generate forever на репите генерит видео по промту пока не остановишь. Может пригодиться если ушёл пить кофе/уснул, а когда вернулся у тебя уже есть вагон вариантов видео.
В txt-2-vid режиме 2B модель потребляет в районе 4-5 ГБ VRAM с частичной выгрузкой в RAM, и на видео уходит ~4 мин. Если отключить CPU offload, то скорость станет ~2 мин, но уже понадобится 18-19 ГБ VRAM.
5B модель в 24 ГБ VRAM уже не поместится и будет генерить только с выгрузкой в RAM. На 1 видео уже уйдёт ~10 мин. Качество картинки станет получше, но всё-равно пока так себе.
А вот в img-2-vid уже более годные результаты. Чем качественнее изначальный кадр, тем лучше видео на выходе. Закидаем свои картинки из Midjourney, Flux, SDXL, итд, вбиваем промт подетальнее и вперёд. Так как в этом режиме работает 5B модель и нет отключения CPU offload, то потребляется 5-7 ГБ VRAM остальное идёт в RAM, и на 1 видео в 50 шагов уходит ~10 минут.
Это конечно быстрее, чем на бесплатных тарифах Runway, Kling, Luma, итд ибо на них сейчас вообще не погенерить — только на платных. Но хотелось бы скорости. Пофиксят это + нарастят контроль с качеством, и будет гуд.
Гитхаб
Pinokio
Это опенсорсный фреймворк от создателя Pinokio для генерации видео в разных режимах:
* text-2-video
* video-2-video
* image-2-video
* extend video
Под капотом китайская CogVideoX 2B / 5B. Возможно будет расширяться и Flux Video на выходе сюда тоже заедет.
В img-2-vid кадр держит консистентно, не кипит. Какое-то понимание мира вокруг и взаимодействия объектов между собой есть. Качество и детализацию не сильно зажёвывает.
На выходе 6 сек видео и гифка разрешением 740x480 в 6 fps. Есть встроенный апскейлер до 2880х1920, но он сильно смазывает детали, так что лучше использовать на чём-то вроде дальних планов, пейзажей, итд, а не на лицах крупняком. Альтернативно юзаем Topaz для апскейла и Flowframes для интерполяции кадров.
Промта слушается когда-как. Хорошо работает там, где объект более-менее статичен в центре и нужно анимировать фон, или наоборот, а также лёгкой имитации ручной съёмки. Тяжело даётся динамика: чем её требуется больше, тем модели сложнее. Частично можно компенсировать детальностью промта.
Контроль через сид, количество шагов, итд на месте. Но нужно завозить рульки типа Kling Motion Brush или DragNuwa.
Для улучшения промта опционально подрубается API от OpenAI. Хотя можно спокойно использовать опенсорсные мелкие модели типа ламы 3.1, qwen, phi, или кого ещё.
Из интересных плюшек:
* Сгенерированное видео можно послать в vid-2-vid, например для смены стиля или как указания движения объектам на новом видео.
* Или отправить видос на extend и расширить его не с конца, а с выбранного кадра, создавая ответвление. Правда с каждым последующим расширением качество будет падать.
* Generate forever на репите генерит видео по промту пока не остановишь. Может пригодиться если ушёл пить кофе/уснул, а когда вернулся у тебя уже есть вагон вариантов видео.
В txt-2-vid режиме 2B модель потребляет в районе 4-5 ГБ VRAM с частичной выгрузкой в RAM, и на видео уходит ~4 мин. Если отключить CPU offload, то скорость станет ~2 мин, но уже понадобится 18-19 ГБ VRAM.
5B модель в 24 ГБ VRAM уже не поместится и будет генерить только с выгрузкой в RAM. На 1 видео уже уйдёт ~10 мин. Качество картинки станет получше, но всё-равно пока так себе.
А вот в img-2-vid уже более годные результаты. Чем качественнее изначальный кадр, тем лучше видео на выходе. Закидаем свои картинки из Midjourney, Flux, SDXL, итд, вбиваем промт подетальнее и вперёд. Так как в этом режиме работает 5B модель и нет отключения CPU offload, то потребляется 5-7 ГБ VRAM остальное идёт в RAM, и на 1 видео в 50 шагов уходит ~10 минут.
Это конечно быстрее, чем на бесплатных тарифах Runway, Kling, Luma, итд ибо на них сейчас вообще не погенерить — только на платных. Но хотелось бы скорости. Пофиксят это + нарастят контроль с качеством, и будет гуд.
Гитхаб
Pinokio
This media is not supported in your browser
VIEW IN TELEGRAM
Запрещёнка на своём мероприятии Connect показала Hyperspace — приложение для просмотра цифровой копии реальности в VR.
Неизвестно под капотом сплаты или нерфы (похоже первое), но качество запечатлённых виртуальных сцен очень четкое.
Люди смогут также как в Luma, Polycam, или Scaniverse снимать сцены и делиться ими. На данный момент функция записи недоступна и есть лишь заготовленные демо.
Некоторое время назад компания хоронила Horizon метаверс, ибо не было интереса у людей. Заход через фотореализм со сплатами и своим VR-железом на перевес выглядит более разумно.
Также они анонсировали:
* Quest 3s, новый VR-шлем за $300.
* Обновлённые Ray-Ban смарт-очки с реалтайм AI-обработкой видео, переводчиком, нотификациями, и сканером QR-кодов.
* Голосовой режим в WhatsApp и других их мессенджерах как Advanced Voice Mode у OpenAI. Также завезли возможность отвечать на картинки с вопросами от пользователя.
* Лама версии V 3.2, которая теперь стала мультимодальной (о ней отдельным постом).
Пока Hyperspace доступно только в США на VR шлемы Quest 3.
Демо Hyperspace
Анонсы с Connect
Неизвестно под капотом сплаты или нерфы (похоже первое), но качество запечатлённых виртуальных сцен очень четкое.
Люди смогут также как в Luma, Polycam, или Scaniverse снимать сцены и делиться ими. На данный момент функция записи недоступна и есть лишь заготовленные демо.
Некоторое время назад компания хоронила Horizon метаверс, ибо не было интереса у людей. Заход через фотореализм со сплатами и своим VR-железом на перевес выглядит более разумно.
Также они анонсировали:
* Quest 3s, новый VR-шлем за $300.
* Обновлённые Ray-Ban смарт-очки с реалтайм AI-обработкой видео, переводчиком, нотификациями, и сканером QR-кодов.
* Голосовой режим в WhatsApp и других их мессенджерах как Advanced Voice Mode у OpenAI. Также завезли возможность отвечать на картинки с вопросами от пользователя.
* Лама версии V 3.2, которая теперь стала мультимодальной (о ней отдельным постом).
Пока Hyperspace доступно только в США на VR шлемы Quest 3.
Демо Hyperspace
Анонсы с Connect
Лама обновилась до V 3.2.
Что нового:
* Крупные модели (11B и 90B) теперь из коробки обладают мультимодальностью. То есть, им можно кормить скриншоты, графики, и прочее, чтобы вытаскивать текст, получать ответы на вопросы, итд.
* Легковесные модели (1B и 3B) заточены работать на мобильных устройствах, но только в текстовом режиме. Зато обладают контекстом 128К (можно кормить книжки).
Также выпустили инструментарий Llama Stack, для упрощения разработки решений на основе ламы.
Анонс
Демо (11B)
Хаггинг
Llama Stack
Что нового:
* Крупные модели (11B и 90B) теперь из коробки обладают мультимодальностью. То есть, им можно кормить скриншоты, графики, и прочее, чтобы вытаскивать текст, получать ответы на вопросы, итд.
* Легковесные модели (1B и 3B) заточены работать на мобильных устройствах, но только в текстовом режиме. Зато обладают контекстом 128К (можно кормить книжки).
Также выпустили инструментарий Llama Stack, для упрощения разработки решений на основе ламы.
Анонс
Демо (11B)
Хаггинг
Llama Stack
Flux Dev2Pro: базовая модель FLux из коробки хорошо умеет в детализацию и текст. Но некоторые недовольны лорами получаемыми на её основе, и тем, что тюнить её сложней, чем SD 1.5 или SDXL.
Технической документации на Flux нет, поэтому народ занимаются реверс инжинирингом, пытаясь из дистиллированной Dev версии воссоздать Pro, которой нет в опенсорсе.
Так недавно появилась Dev2Pro. Это модель натренированная на Dev, используя 3 млн высококачественных изображений при guidance = 1, чтобы приблизиться к Pro по настройкам и избавиться от модели учителя. Подробнее об этом подходе написано тут.
Полученная модель Dev2Pro пригодна только для тренировки лор на её основе, а не инференса — генерации надо делать используя Dev (также как лору полученную из SDXL можно гонять в SDXL-Turbo).
По первым отзывам, лоры из Dev2Pro показывают более качественные результаты. Я потестил, пока 50/50: где-то хорошо следует промту, а где-то выдаёт одинаковые результаты.
Тренировать на основе Dev2Pro можно в FluxGym или OneTrainer, например.
Пост
Хаггинг
Технической документации на Flux нет, поэтому народ занимаются реверс инжинирингом, пытаясь из дистиллированной Dev версии воссоздать Pro, которой нет в опенсорсе.
Так недавно появилась Dev2Pro. Это модель натренированная на Dev, используя 3 млн высококачественных изображений при guidance = 1, чтобы приблизиться к Pro по настройкам и избавиться от модели учителя. Подробнее об этом подходе написано тут.
Полученная модель Dev2Pro пригодна только для тренировки лор на её основе, а не инференса — генерации надо делать используя Dev (также как лору полученную из SDXL можно гонять в SDXL-Turbo).
По первым отзывам, лоры из Dev2Pro показывают более качественные результаты. Я потестил, пока 50/50: где-то хорошо следует промту, а где-то выдаёт одинаковые результаты.
Тренировать на основе Dev2Pro можно в FluxGym или OneTrainer, например.
Пост
Хаггинг
This media is not supported in your browser
VIEW IN TELEGRAM
Кстати FluxGym обновился и в нём теперь можно тренить не только Dev, но и Schnell с Dev2Pro.
Выбранные модели будут скачиваться автоматом.
Ещё там в Advanced просто море настроек появилось. Пока не решил это баг или фича.
Для обновления запустите FluxGym в Pinokio, нажмите Update в левой панели, и перезагрузите приложение.
Установка
Подробнее о FluxGym
Выбранные модели будут скачиваться автоматом.
Ещё там в Advanced просто море настроек появилось. Пока не решил это баг или фича.
Для обновления запустите FluxGym в Pinokio, нажмите Update в левой панели, и перезагрузите приложение.
Установка
Подробнее о FluxGym