Там YouTube запустил фичу Recap, которая суммаризует что ты смотрел за год, в каких количествах, и в какой прокрастинаторский котёл тебя сажать. Похоже на Wrapped у Spotify.
В начале рекапа пишется, что AI может ошибаться, а дальше идёт перечисление тематик просмотренных видосов, и уже сама аналитика. Довольно занятно увидеть стату по просмотренным каналам, и тут особо вопросов нет, кроме того факта, что в AI секции он подсветил какие-то малознакомые из них. Где Себастьян, Оливио, Nerdy Rodent, и другие?
И тоже самое сходу незнакомое про музыкальные каналы на самом YouTube. Хотя по YouTube Music всё 100% правильно, я его отдельной десктоп апой слушаю.
Больше вопросов по срезу тематик и выданной ачивке. Но тут YouTube ориентируется на описание видео или может даже его содержание, и чтобы выдать более правильный значок нужно знать почему/какими глазами я смотрю этот контент, что мной движет. Потому что, если мне дать описание ачивок и возможность выбора самому, я весьма вероятно выбрал бы другую. Кстати сия функция пригодилась бы ютубу в качестве RLHF.
Чтобы увидеть рекап нужен ip на США. В других локациях запустят на следующей неделе.
Посмотреть свой рекап
Анонс
В начале рекапа пишется, что AI может ошибаться, а дальше идёт перечисление тематик просмотренных видосов, и уже сама аналитика. Довольно занятно увидеть стату по просмотренным каналам, и тут особо вопросов нет, кроме того факта, что в AI секции он подсветил какие-то малознакомые из них. Где Себастьян, Оливио, Nerdy Rodent, и другие?
И тоже самое сходу незнакомое про музыкальные каналы на самом YouTube. Хотя по YouTube Music всё 100% правильно, я его отдельной десктоп апой слушаю.
Больше вопросов по срезу тематик и выданной ачивке. Но тут YouTube ориентируется на описание видео или может даже его содержание, и чтобы выдать более правильный значок нужно знать почему/какими глазами я смотрю этот контент, что мной движет. Потому что, если мне дать описание ачивок и возможность выбора самому, я весьма вероятно выбрал бы другую. Кстати сия функция пригодилась бы ютубу в качестве RLHF.
Чтобы увидеть рекап нужен ip на США. В других локациях запустят на следующей неделе.
Посмотреть свой рекап
Анонс
Сегодня вышла игра Routine. На её разработку ушло 13 лет, и я следил за ней с момента анонса в 2012 году.
Делали её 3 человека, в основном на собственные средства. За это время она пережила паркур движков UE 3 —> UE 4 —> UE 5, остановку в производстве из-за сложности в финансировании, а между коммуникационными письмами разработчиков на сайте были многолетние перерывы, в то время как в самих письмах читались только боль о проблемах с разработкой и неопределённость с датой выхода.
Но несмотря на это всё, игра добралась до релиза, сохранила атмосферу, стиль, геймплей, и саун-дизайн. Последний сильно выделил её тогда, ибо в те годы был бум инди игр с подачей сюжета через записки, в том числе и потому что денег на озвучку не было, а тут звук прям погружал. Чек момент на 2:57. То-то над саун-дизайном работал Мик Гордон, автор музыки к Doom 2016.
А сейчас у нас есть ттс'ки для генерации эмоционального голоса, текстуры ваяются по промту, а 3D генераторы с каждым днём ваяют всё более детальные меши и улучшают сегментацию. Не говоря уже про получение фотореалистичных объектов через сплаты и генерацию 3D миров а-ля Marble Labs или Odyssey.
Посмотрим какие истории расскажет новое поколение разработчиков с нынешними инструментами и как они их ускорят.
Steam
Трейлер 2012
Трейлер 2022
Делали её 3 человека, в основном на собственные средства. За это время она пережила паркур движков UE 3 —> UE 4 —> UE 5, остановку в производстве из-за сложности в финансировании, а между коммуникационными письмами разработчиков на сайте были многолетние перерывы, в то время как в самих письмах читались только боль о проблемах с разработкой и неопределённость с датой выхода.
Но несмотря на это всё, игра добралась до релиза, сохранила атмосферу, стиль, геймплей, и саун-дизайн. Последний сильно выделил её тогда, ибо в те годы был бум инди игр с подачей сюжета через записки, в том числе и потому что денег на озвучку не было, а тут звук прям погружал. Чек момент на 2:57. То-то над саун-дизайном работал Мик Гордон, автор музыки к Doom 2016.
А сейчас у нас есть ттс'ки для генерации эмоционального голоса, текстуры ваяются по промту, а 3D генераторы с каждым днём ваяют всё более детальные меши и улучшают сегментацию. Не говоря уже про получение фотореалистичных объектов через сплаты и генерацию 3D миров а-ля Marble Labs или Odyssey.
Посмотрим какие истории расскажет новое поколение разработчиков с нынешними инструментами и как они их ускорят.
Steam
Трейлер 2012
Трейлер 2022
1
Дэвид Финчер снимает фильм по сценарию Квентина Тарантино, и это не промт для нейронки.
Кстати Тарантино на днях выпустил в Fortnite (!) эпизод Yuki’s Revenge из Убить Билла, который не вошёл в финальную дилогию. Авось и до нейронок доберётся.
Кстати Тарантино на днях выпустил в Fortnite (!) эпизод Yuki’s Revenge из Убить Билла, который не вошёл в финальную дилогию. Авось и до нейронок доберётся.
Админам. Заметил любопытное: с каким-то из последних обновлений телеги в настройках ботов появилось новое разрешение — банить пользователей.
У многих ботов можно все разрешения выключить и они всё так же будут делать репосты, использоваться для передачи аналитики, и авторизации. У меня так и сделано, и когда я случайно наткнулся на новое разрешение у всех ботов в админке, я удивился.
Где-то это может пригодиться. Но в то же время, если какой-то злоумышленник завладеет доступом к этому боту, он может удалить всех пользователей канала. Вот вы использовали бота для верификации / авторизации / репостов на каком-нибудь ресурсе, забыли про него, а теперь он без вашего ведома решает кто вас может фолловить, а кто нет.
Про данную фичу нигде в обновлениях телеги инфы не нашел.
У многих ботов можно все разрешения выключить и они всё так же будут делать репосты, использоваться для передачи аналитики, и авторизации. У меня так и сделано, и когда я случайно наткнулся на новое разрешение у всех ботов в админке, я удивился.
Где-то это может пригодиться. Но в то же время, если какой-то злоумышленник завладеет доступом к этому боту, он может удалить всех пользователей канала. Вот вы использовали бота для верификации / авторизации / репостов на каком-нибудь ресурсе, забыли про него, а теперь он без вашего ведома решает кто вас может фолловить, а кто нет.
Про данную фичу нигде в обновлениях телеги инфы не нашел.
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Sync: выпустили модель React-1 для липсинка видео с контролем эмоциональности.
Фичи:
* Разные режимы редактирования: только рот, выражение лица, движение головы.
* React-1 экспрессивнее предыдущих моделей и позволяет области рта четче следовать озвучке.
* Менять эмоции можно круговым меню из 6 пресетов, или описывая нужное словами. Если не задать промт, то модель будет следовать эмоциональному контексту видео.
* Движения головы могут подстраиваться под тон и скорость диалога.
На вход можно подавать видео длиной до 15 секунд. В кадре должен быть 1 человек, которого хорошо видно. При этом по примерам видно, что слишком крупных планов стоит избегать ибо, чем большая часть головы задействуется, тем сильнее падает качество.
Пример с Лео конечно угарный. Я не знаю под чем они были, когда решили это включить в видео.
React-1 доступна только на платном тарифе. Есть API с оплатой за каждый запрос. На бесплатном тарифе в наличии lipsync-2 с халявными кредитами на $5.
Сайт
Анонс
Фичи:
* Разные режимы редактирования: только рот, выражение лица, движение головы.
* React-1 экспрессивнее предыдущих моделей и позволяет области рта четче следовать озвучке.
* Менять эмоции можно круговым меню из 6 пресетов, или описывая нужное словами. Если не задать промт, то модель будет следовать эмоциональному контексту видео.
* Движения головы могут подстраиваться под тон и скорость диалога.
На вход можно подавать видео длиной до 15 секунд. В кадре должен быть 1 человек, которого хорошо видно. При этом по примерам видно, что слишком крупных планов стоит избегать ибо, чем большая часть головы задействуется, тем сильнее падает качество.
Пример с Лео конечно угарный. Я не знаю под чем они были, когда решили это включить в видео.
React-1 доступна только на платном тарифе. Есть API с оплатой за каждый запрос. На бесплатном тарифе в наличии lipsync-2 с халявными кредитами на $5.
Сайт
Анонс
This media is not supported in your browser
VIEW IN TELEGRAM
Krea: добавили инструмент Nano Banana Elements.
Закидываем несколько картинок с референсом стиля, объекта или персонажа, и задаём тег. Своего рода как на Twelve Labs.
Далее в промте пишем, что нужно сгенерить, попутно тегая нужный стиль/персонажа/итд. Теги можно комбинировать, например, получая объект в определённом стиле.
Сайт
Твит
Закидываем несколько картинок с референсом стиля, объекта или персонажа, и задаём тег. Своего рода как на Twelve Labs.
Далее в промте пишем, что нужно сгенерить, попутно тегая нужный стиль/персонажа/итд. Теги можно комбинировать, например, получая объект в определённом стиле.
Сайт
Твит
Runway: провели презентацию, на которой представили несколько анонсов.
1) Видеогенератор Gen-4.5 теперь доступен на всех платных тарифах. Также в модель через некоторое время добавят: генерацию звука и озвучки, редактирование аудио в существующем видео с сохранением липсинка (как в LTX Retake или React-1), а также возможность с помощью Aleph вносить правки в длинные видео состоящие из разных фрагментов с сохранением стабильности персонажей, освещения, итд.
2) Далее анонсировали GWM-1 (Generative World Model). Это модель на основе Gen-4.5 для 3D симуляции мира на основе картинки или текста. Генерация идёт в реальном времени с разрешением 720p и фремрейтом 24fps. Мир вокруг динамичен, живёт независимо от наблюдателя, и является стабильным — можно вернуться поп пройдённой тропе и увидеть то, что было ранее.
В эту сторону активно копают Genie от гугла, Odyssey, Marble Labs, Tencent с его Ху World, и не только.
Учитывая разговоры про роботизацию и агентов, меня не оставляет ощущение, что ты платишь Runway за путешествие по некоему виртуальному миру, а дальше они продают эти данные стартапам ваяющим роботов, или ты сам работаешь на них напрямую, выбирая из шаблона роль "агента" и выполняя задания для какого-то робота. А кэшбек кредитами будет?
Тут же следом можно упомянуть, что анонсировали GWM Robotics, где ты можешь посмотреть как будет выглядеть некое физически-корректное исполнение правила роботом, сгенерить промтом потенциальное движение робота или изменить существующее видео, чтобы посмотреть движение.
Ещё показали GWM аватаров, которые тоже работают в реалтайме с липсинком, 720p, но фреймрейт повыше. Общаться можно как с людьми, так и животными или фантастическими существами. Можно и создавать своих аватаров загрузив картинку, выбрав голос, и дав описание характера. Один из показанных кейсов: обучение другому языку.
В релизе пока только Gen-4.5 для всех платных подписок.
Презентация
Анонс
1) Видеогенератор Gen-4.5 теперь доступен на всех платных тарифах. Также в модель через некоторое время добавят: генерацию звука и озвучки, редактирование аудио в существующем видео с сохранением липсинка (как в LTX Retake или React-1), а также возможность с помощью Aleph вносить правки в длинные видео состоящие из разных фрагментов с сохранением стабильности персонажей, освещения, итд.
2) Далее анонсировали GWM-1 (Generative World Model). Это модель на основе Gen-4.5 для 3D симуляции мира на основе картинки или текста. Генерация идёт в реальном времени с разрешением 720p и фремрейтом 24fps. Мир вокруг динамичен, живёт независимо от наблюдателя, и является стабильным — можно вернуться поп пройдённой тропе и увидеть то, что было ранее.
В эту сторону активно копают Genie от гугла, Odyssey, Marble Labs, Tencent с его Ху World, и не только.
Учитывая разговоры про роботизацию и агентов, меня не оставляет ощущение, что ты платишь Runway за путешествие по некоему виртуальному миру, а дальше они продают эти данные стартапам ваяющим роботов, или ты сам работаешь на них напрямую, выбирая из шаблона роль "агента" и выполняя задания для какого-то робота. А кэшбек кредитами будет?
Тут же следом можно упомянуть, что анонсировали GWM Robotics, где ты можешь посмотреть как будет выглядеть некое физически-корректное исполнение правила роботом, сгенерить промтом потенциальное движение робота или изменить существующее видео, чтобы посмотреть движение.
Ещё показали GWM аватаров, которые тоже работают в реалтайме с липсинком, 720p, но фреймрейт повыше. Общаться можно как с людьми, так и животными или фантастическими существами. Можно и создавать своих аватаров загрузив картинку, выбрав голос, и дав описание характера. Один из показанных кейсов: обучение другому языку.
В релизе пока только Gen-4.5 для всех платных подписок.
Презентация
Анонс
Нода для динамического подстраивания положения кейфреймов в Wan VACE при изменении длительности видео. Пригодится, если вы представляете где у вас какой кадр должен быть в видосе и хотите поиграться с хронометражом.
Закидываем в воркфлоу кеймреймы сверху вниз (или меняем под себя), на первом фрейме задаём разрешение видео, в ноде Wan VACE Keyframe Builder ползунком задаём где какой кадр должен быть, и нажимаем сгенерить. Появятся маска и превью расположения кадров в видосе, после чего пойдёт сама генерация.
Ворк прожоливый. На 4090 + 128 ГБ RAM, чтобы сгенерить 1024x1024x 16 fps видео хроном 49 кадров и весами Wan 2.1 fp16 нужно использовать block swap, иначе вылетит с ошибкой. С ускоряющей 4-шаговой лайтнинг лорой 49 фреймов генерит за 2:26 мин (36,7 сек/ит), а без неё в 20 шагов 13:21 (40,08 сек/ит). Чтобы вместить в меньше VRAM и RAM используйте fp8 веса базовых моделей, текстового энкодера, блоксвапом, и поиграйтесь с разрешением и хронометражом.
С лайтнинг лорой видео может фликерить. Есть смысл ей черновой вариант нащупать, а базовой моделью с большим количеством шагов и аоднятым CFG уже генерить начисто. Динамическая расстановка кейфремов может шалить, перетыкайте вручную если что.
По итогу получаем видео без пауз на склейках. Ворк схож с другим прожорливым для бесшовных длинных видео, который я тестил ранее, но этот проще и есть контроль положения кадра и ускорялки. Хотя из того качество пока удалось вытянуть повыше.
Гитхаб
Воркфлоу
Закидываем в воркфлоу кеймреймы сверху вниз (или меняем под себя), на первом фрейме задаём разрешение видео, в ноде Wan VACE Keyframe Builder ползунком задаём где какой кадр должен быть, и нажимаем сгенерить. Появятся маска и превью расположения кадров в видосе, после чего пойдёт сама генерация.
Ворк прожоливый. На 4090 + 128 ГБ RAM, чтобы сгенерить 1024x1024x 16 fps видео хроном 49 кадров и весами Wan 2.1 fp16 нужно использовать block swap, иначе вылетит с ошибкой. С ускоряющей 4-шаговой лайтнинг лорой 49 фреймов генерит за 2:26 мин (36,7 сек/ит), а без неё в 20 шагов 13:21 (40,08 сек/ит). Чтобы вместить в меньше VRAM и RAM используйте fp8 веса базовых моделей, текстового энкодера, блоксвапом, и поиграйтесь с разрешением и хронометражом.
С лайтнинг лорой видео может фликерить. Есть смысл ей черновой вариант нащупать, а базовой моделью с большим количеством шагов и аоднятым CFG уже генерить начисто. Динамическая расстановка кейфремов может шалить, перетыкайте вручную если что.
По итогу получаем видео без пауз на склейках. Ворк схож с другим прожорливым для бесшовных длинных видео, который я тестил ранее, но этот проще и есть контроль положения кадра и ускорялки. Хотя из того качество пока удалось вытянуть повыше.
Гитхаб
Воркфлоу
Пример использования сплатов для создания динамичных визуальных эффектов.
Тренируем в PostShot, Brush, Polycam, KIRI, или другом софте статичную сцену из кадров взрыва. Полученный сплат закидываем в SuperSplat и клинапим. Оттуда швыряем в Octane 2026, где анимируем и рендерим это нужным образом.
Твит
Тренируем в PostShot, Brush, Polycam, KIRI, или другом софте статичную сцену из кадров взрыва. Полученный сплат закидываем в SuperSplat и клинапим. Оттуда швыряем в Octane 2026, где анимируем и рендерим это нужным образом.
Твит
Для котанов на маках. Если вы хотели погонять Z-image Turbo, но вам не по душе комфи-лапша и нужен более привычный UI, то Draw Things добавили её поддержку.
Используется 6-битный квантизированный вариант, который при генерации занимает 4 ГБ RAM. Отдельной лайтнинг лоры не требуется. Генерация 1024x1024 в 8 шагов на Mac Studio M2 Ultra занимает ~23 сек.
Причём на Hugging Face есть фича Use this model, задействуя которую можно запускать модели прямо с хаггинга, включая Z-image.
Другой вариант для генерации с UI это Invoke. Там же, если что и на лапшу можно переключиться.
Сайт
Анонс
Используется 6-битный квантизированный вариант, который при генерации занимает 4 ГБ RAM. Отдельной лайтнинг лоры не требуется. Генерация 1024x1024 в 8 шагов на Mac Studio M2 Ultra занимает ~23 сек.
Причём на Hugging Face есть фича Use this model, задействуя которую можно запускать модели прямо с хаггинга, включая Z-image.
Другой вариант для генерации с UI это Invoke. Там же, если что и на лапшу можно переключиться.
Сайт
Анонс