Comfy обновился и произошел переход на новую версию нод — Nodes 2.0, в основе которой JavaScript фреймворк Vue.
Это должно помочь разработчикам комфи быстрее пилить апдейты, а авторам нод упростить и ускорить их создание.
Также это шаг в сторону единого упрощающегося фронтенда с Comfy Cloud, который вышел в публичную бету и обзавёлся пачкой RTX 6000 Pro с 96 ГБ VRAM для запуска воркфлоу пользователей.
Визуально разница в следующем:
* Очередь/история генераций теперь справа вверху
* Если её раскрыть, в сжатом виде показываются текущие задачи и можно через меню контента посмотреть его/добавить в воркфлоу/открыть ворк на его основе, итд.
* Прогрессбар показан не зеленой полосой на весь экран, а небольшой голубой под очередью
* Параметры меняются прямо в поле, а не попапе
* Выбор контента на вход отображается визуально плитками, а не списком
Вместе с этим видны и некоторые баги: параметры в ноде могут разъехаться далеко друг от друга; выпадающий список с моделями может быть перекрываться заблокированной (bypass) нодой; некоторые ноды не двигаются; ты промт поменял, а оно продолжает генерить по тому же промту или не генерит вообще.
Так что, возможно, если хотите стабильности, стоит или выключить Nodes 2 в меню комфи, или не обновляться пока.
Про Nodes 2
Гитхаб
Сайт
Это должно помочь разработчикам комфи быстрее пилить апдейты, а авторам нод упростить и ускорить их создание.
Также это шаг в сторону единого упрощающегося фронтенда с Comfy Cloud, который вышел в публичную бету и обзавёлся пачкой RTX 6000 Pro с 96 ГБ VRAM для запуска воркфлоу пользователей.
Визуально разница в следующем:
* Очередь/история генераций теперь справа вверху
* Если её раскрыть, в сжатом виде показываются текущие задачи и можно через меню контента посмотреть его/добавить в воркфлоу/открыть ворк на его основе, итд.
* Прогрессбар показан не зеленой полосой на весь экран, а небольшой голубой под очередью
* Параметры меняются прямо в поле, а не попапе
* Выбор контента на вход отображается визуально плитками, а не списком
Вместе с этим видны и некоторые баги: параметры в ноде могут разъехаться далеко друг от друга; выпадающий список с моделями может быть перекрываться заблокированной (bypass) нодой; некоторые ноды не двигаются; ты промт поменял, а оно продолжает генерить по тому же промту или не генерит вообще.
Так что, возможно, если хотите стабильности, стоит или выключить Nodes 2 в меню комфи, или не обновляться пока.
Про Nodes 2
Гитхаб
Сайт
TwelveLabs: выпустили Marengo 3, индексатор видео контента для поиска в нём персонажей/объектов/сказанных фраз, итд. Подойдёт для: нахождения слов и действий персонажа; моментов как спортсмен N забивает мяч в ворота; блогер появляется в кадре с продуктом бренда; итд. Я писал о них ранее.
Что нового:
* Индексация видео файлов длиной до 4 часов
* Мультимодальный поиск одновременно и по тексту и рефу с картинки
* Возможность создать сущность по 1-5 фото, которую можно тегать в поле поиска
* Работает на 36 языках, включая русский
* Понимает специфичные термины для спорта и кино (zooms, pan, tracking shot, итд)
Есть SDK для интеграции в сторонний пайплайн и API для оплаты за каждый запрос.
На бесплатном тарифе у вас 600 минут. Я закинул 40+ мин файл для теста и сделал сущность по 5 фото. Индексация идёт очень быстро за считанные минуты, а нужный момент с персонажем ищется моментально.
Сайт
Анонс
Что нового:
* Индексация видео файлов длиной до 4 часов
* Мультимодальный поиск одновременно и по тексту и рефу с картинки
* Возможность создать сущность по 1-5 фото, которую можно тегать в поле поиска
* Работает на 36 языках, включая русский
* Понимает специфичные термины для спорта и кино (zooms, pan, tracking shot, итд)
Есть SDK для интеграции в сторонний пайплайн и API для оплаты за каждый запрос.
На бесплатном тарифе у вас 600 минут. Я закинул 40+ мин файл для теста и сделал сущность по 5 фото. Индексация идёт очень быстро за считанные минуты, а нужный момент с персонажем ищется моментально.
Сайт
Анонс
1
Kling: выпустили видео модель Kling V 2.6.
Из нового: генерация 1080p сразу с аудио и липсинком на разных языках. Работает и с животными. Можно в промте написать какую фразу требуется сказать и она сгенерится. Поддерживает режимы text-2-video и image-2-video, но пока не с 2 кейфреймами.
Уже доступен у агрегаторов Freepik, Fal, Higgsfield, итд.
А вчера они презентовали свою альтернативу банане — генератор картинок O1 Image, хотя он был доступен с момента запуска O1 Video.
Давайте рисовые котаны! Теперь музыкальный генератор вместо Suno и Udio!
Сайт
Анонс
Из нового: генерация 1080p сразу с аудио и липсинком на разных языках. Работает и с животными. Можно в промте написать какую фразу требуется сказать и она сгенерится. Поддерживает режимы text-2-video и image-2-video, но пока не с 2 кейфреймами.
Уже доступен у агрегаторов Freepik, Fal, Higgsfield, итд.
А вчера они презентовали свою альтернативу банане — генератор картинок O1 Image, хотя он был доступен с момента запуска O1 Video.
Давайте рисовые котаны! Теперь музыкальный генератор вместо Suno и Udio!
Сайт
Анонс
Там YouTube запустил фичу Recap, которая суммаризует что ты смотрел за год, в каких количествах, и в какой прокрастинаторский котёл тебя сажать. Похоже на Wrapped у Spotify.
В начале рекапа пишется, что AI может ошибаться, а дальше идёт перечисление тематик просмотренных видосов, и уже сама аналитика. Довольно занятно увидеть стату по просмотренным каналам, и тут особо вопросов нет, кроме того факта, что в AI секции он подсветил какие-то малознакомые из них. Где Себастьян, Оливио, Nerdy Rodent, и другие?
И тоже самое сходу незнакомое про музыкальные каналы на самом YouTube. Хотя по YouTube Music всё 100% правильно, я его отдельной десктоп апой слушаю.
Больше вопросов по срезу тематик и выданной ачивке. Но тут YouTube ориентируется на описание видео или может даже его содержание, и чтобы выдать более правильный значок нужно знать почему/какими глазами я смотрю этот контент, что мной движет. Потому что, если мне дать описание ачивок и возможность выбора самому, я весьма вероятно выбрал бы другую. Кстати сия функция пригодилась бы ютубу в качестве RLHF.
Чтобы увидеть рекап нужен ip на США. В других локациях запустят на следующей неделе.
Посмотреть свой рекап
Анонс
В начале рекапа пишется, что AI может ошибаться, а дальше идёт перечисление тематик просмотренных видосов, и уже сама аналитика. Довольно занятно увидеть стату по просмотренным каналам, и тут особо вопросов нет, кроме того факта, что в AI секции он подсветил какие-то малознакомые из них. Где Себастьян, Оливио, Nerdy Rodent, и другие?
И тоже самое сходу незнакомое про музыкальные каналы на самом YouTube. Хотя по YouTube Music всё 100% правильно, я его отдельной десктоп апой слушаю.
Больше вопросов по срезу тематик и выданной ачивке. Но тут YouTube ориентируется на описание видео или может даже его содержание, и чтобы выдать более правильный значок нужно знать почему/какими глазами я смотрю этот контент, что мной движет. Потому что, если мне дать описание ачивок и возможность выбора самому, я весьма вероятно выбрал бы другую. Кстати сия функция пригодилась бы ютубу в качестве RLHF.
Чтобы увидеть рекап нужен ip на США. В других локациях запустят на следующей неделе.
Посмотреть свой рекап
Анонс
Сегодня вышла игра Routine. На её разработку ушло 13 лет, и я следил за ней с момента анонса в 2012 году.
Делали её 3 человека, в основном на собственные средства. За это время она пережила паркур движков UE 3 —> UE 4 —> UE 5, остановку в производстве из-за сложности в финансировании, а между коммуникационными письмами разработчиков на сайте были многолетние перерывы, в то время как в самих письмах читались только боль о проблемах с разработкой и неопределённость с датой выхода.
Но несмотря на это всё, игра добралась до релиза, сохранила атмосферу, стиль, геймплей, и саун-дизайн. Последний сильно выделил её тогда, ибо в те годы был бум инди игр с подачей сюжета через записки, в том числе и потому что денег на озвучку не было, а тут звук прям погружал. Чек момент на 2:57. То-то над саун-дизайном работал Мик Гордон, автор музыки к Doom 2016.
А сейчас у нас есть ттс'ки для генерации эмоционального голоса, текстуры ваяются по промту, а 3D генераторы с каждым днём ваяют всё более детальные меши и улучшают сегментацию. Не говоря уже про получение фотореалистичных объектов через сплаты и генерацию 3D миров а-ля Marble Labs или Odyssey.
Посмотрим какие истории расскажет новое поколение разработчиков с нынешними инструментами и как они их ускорят.
Steam
Трейлер 2012
Трейлер 2022
Делали её 3 человека, в основном на собственные средства. За это время она пережила паркур движков UE 3 —> UE 4 —> UE 5, остановку в производстве из-за сложности в финансировании, а между коммуникационными письмами разработчиков на сайте были многолетние перерывы, в то время как в самих письмах читались только боль о проблемах с разработкой и неопределённость с датой выхода.
Но несмотря на это всё, игра добралась до релиза, сохранила атмосферу, стиль, геймплей, и саун-дизайн. Последний сильно выделил её тогда, ибо в те годы был бум инди игр с подачей сюжета через записки, в том числе и потому что денег на озвучку не было, а тут звук прям погружал. Чек момент на 2:57. То-то над саун-дизайном работал Мик Гордон, автор музыки к Doom 2016.
А сейчас у нас есть ттс'ки для генерации эмоционального голоса, текстуры ваяются по промту, а 3D генераторы с каждым днём ваяют всё более детальные меши и улучшают сегментацию. Не говоря уже про получение фотореалистичных объектов через сплаты и генерацию 3D миров а-ля Marble Labs или Odyssey.
Посмотрим какие истории расскажет новое поколение разработчиков с нынешними инструментами и как они их ускорят.
Steam
Трейлер 2012
Трейлер 2022
1
Дэвид Финчер снимает фильм по сценарию Квентина Тарантино, и это не промт для нейронки.
Кстати Тарантино на днях выпустил в Fortnite (!) эпизод Yuki’s Revenge из Убить Билла, который не вошёл в финальную дилогию. Авось и до нейронок доберётся.
Кстати Тарантино на днях выпустил в Fortnite (!) эпизод Yuki’s Revenge из Убить Билла, который не вошёл в финальную дилогию. Авось и до нейронок доберётся.
Админам. Заметил любопытное: с каким-то из последних обновлений телеги в настройках ботов появилось новое разрешение — банить пользователей.
У многих ботов можно все разрешения выключить и они всё так же будут делать репосты, использоваться для передачи аналитики, и авторизации. У меня так и сделано, и когда я случайно наткнулся на новое разрешение у всех ботов в админке, я удивился.
Где-то это может пригодиться. Но в то же время, если какой-то злоумышленник завладеет доступом к этому боту, он может удалить всех пользователей канала. Вот вы использовали бота для верификации / авторизации / репостов на каком-нибудь ресурсе, забыли про него, а теперь он без вашего ведома решает кто вас может фолловить, а кто нет.
Про данную фичу нигде в обновлениях телеги инфы не нашел.
У многих ботов можно все разрешения выключить и они всё так же будут делать репосты, использоваться для передачи аналитики, и авторизации. У меня так и сделано, и когда я случайно наткнулся на новое разрешение у всех ботов в админке, я удивился.
Где-то это может пригодиться. Но в то же время, если какой-то злоумышленник завладеет доступом к этому боту, он может удалить всех пользователей канала. Вот вы использовали бота для верификации / авторизации / репостов на каком-нибудь ресурсе, забыли про него, а теперь он без вашего ведома решает кто вас может фолловить, а кто нет.
Про данную фичу нигде в обновлениях телеги инфы не нашел.
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Sync: выпустили модель React-1 для липсинка видео с контролем эмоциональности.
Фичи:
* Разные режимы редактирования: только рот, выражение лица, движение головы.
* React-1 экспрессивнее предыдущих моделей и позволяет области рта четче следовать озвучке.
* Менять эмоции можно круговым меню из 6 пресетов, или описывая нужное словами. Если не задать промт, то модель будет следовать эмоциональному контексту видео.
* Движения головы могут подстраиваться под тон и скорость диалога.
На вход можно подавать видео длиной до 15 секунд. В кадре должен быть 1 человек, которого хорошо видно. При этом по примерам видно, что слишком крупных планов стоит избегать ибо, чем большая часть головы задействуется, тем сильнее падает качество.
Пример с Лео конечно угарный. Я не знаю под чем они были, когда решили это включить в видео.
React-1 доступна только на платном тарифе. Есть API с оплатой за каждый запрос. На бесплатном тарифе в наличии lipsync-2 с халявными кредитами на $5.
Сайт
Анонс
Фичи:
* Разные режимы редактирования: только рот, выражение лица, движение головы.
* React-1 экспрессивнее предыдущих моделей и позволяет области рта четче следовать озвучке.
* Менять эмоции можно круговым меню из 6 пресетов, или описывая нужное словами. Если не задать промт, то модель будет следовать эмоциональному контексту видео.
* Движения головы могут подстраиваться под тон и скорость диалога.
На вход можно подавать видео длиной до 15 секунд. В кадре должен быть 1 человек, которого хорошо видно. При этом по примерам видно, что слишком крупных планов стоит избегать ибо, чем большая часть головы задействуется, тем сильнее падает качество.
Пример с Лео конечно угарный. Я не знаю под чем они были, когда решили это включить в видео.
React-1 доступна только на платном тарифе. Есть API с оплатой за каждый запрос. На бесплатном тарифе в наличии lipsync-2 с халявными кредитами на $5.
Сайт
Анонс