Psy Eyes

Кстати выяснилось, что Jasper выпустили три контролнета на Flux: вчера я писал про вариант для апскейла, а там ещё есть карты глубины и нормалей.

Забирайте на хаггинге.

1.8K views16:52

Psy Eyes

Если вы хотели научиться рисовать, или обучить детей. Две лоры на Flux:

1) Скетчи, которые и детям для раскраски пригодятся, и взрослым для стайлтрансфера. Модель на хаггинге и Civitai.

2) Пошаговое рисование, из разряда "Как нарисовать сову?". Используйте в промте слово How2Draw. Не со всеми концептами может сработать. Если что добавьте в промт step-by-step. Модель на хаггинге, онлайн демо раз и два.

Можно запускать прямо на страницах моделей, там где написано Inference API. Пишете промт и жмёте Compute. Работает кстати вроде лучше, чем две демки выше.

1.8K views18:04

Psy Eyes

1:15

This media is not supported in your browser

VIEW IN TELEGRAM

0:41

This media is not supported in your browser

VIEW IN TELEGRAM

В Udio завезли тонкую настройку генерирования и редактирования текста песни.

Можно создавать по промту или генерить на случайную тему.

Если нужно внести правки, даёте комментарий туда же куда писали промт и жмёте Edit — нейронка причешет текст.

Отдельные слова/строчки можно править как ручками, так и перегенерить выделив их и нажав Edit with AI.

Ещё добавили теги, которые открываются нажав "/" в тексте песни и можно выбрать структурные элементы композиции: [Chorus] куплет, [Verse] припев, итд.

Твит
Сайт
Про Udio

1.8K views19:53

Psy Eyes

0:49

This media is not supported in your browser

VIEW IN TELEGRAM

Irrealix выпустили плагин для Davinci Resolve, позволяющий работать со сплатами. До этого они выпустили плагин для After Effects.

Фичи:
* Импорт .ply файлов
* Обрезка объектов
* До 10 сплатов в одной сцене
* Цветокоррекция объектов
* Анимация появления сцены и динамические эффекты для объектов
* Рендер в реальном времени на GPU

Поддерживает .ply из Luma, Polycam, Postshot, Nerfstudio, и Scaniverse.

2.2K viewsedited 20:46

Psy Eyes

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

0:11

This media is not supported in your browser

VIEW IN TELEGRAM

Runway: режим Video-2-Video теперь есть и в Turbo версии Gen-3. До этого оно было только в базовой модели.

Также в Turbo завезли работу с вертикальными видео.

Твит
Сайт
Про Runway Turbo

13.4K views10:35

Psy Eyes

0:16

This media is not supported in your browser

VIEW IN TELEGRAM

Nvidia: представили Ctrl-X, фреймворк для генерации картинок по рефу.

Работает без промта (guidance-free) — через загрузку нужных примеров композиции и стиля. Но в отличии от похожих моделей на эту тему, в качестве рефа композиции могут выступать не только картинки, а объекты без текстур (например, 3D меши) и кондишены для контролнета (канни, нормали). Если что, промт тоже можно использовать: по нему будет сгенерирована картинка, которая пойдёт в пример структуры.

Фреймворк показывает себя лучше связки ControlNet + IP Adapter на задаче переноса стиля, там где много объектов. При этом чётче следуя заданной композиции.

Ctrl-X подключается к любым Text-2-Image моделям, не требует тренировки, и, по заверениям разрабов, шустр. Можно подрубить и к генераторам видео (в посте вариант на основе AnimateDiff), но об этом больше ничего не сказано.

Я пробовал установить, но некоторых паков нет на винду. Через WSL пока не получилось добить. У кого Linux, отпишитесь как потестите.

Сайт
Реддит
Гитхаб

2.2K views19:59

Psy Eyes

This media is not supported in your browser

VIEW IN TELEGRAM

Сегодняшние генераторы видео начинают понимать как взаимодействовать объектам между собой, но всё ещё есть проблемы с физикой.

PhysGen: это image-2-video модель заточенная просчитывать физику объектов по картинке. Правда физику двухмерную пока, судя по примерам.

Под капотом три компонента: один понимает геометрию, материалы и их параметры; второй симулирует физику твёрдого тела; третий это рендер и улучшайзер.

Перекрытым ребятам вроде Runway, обладающим world model, оно пожалуй без надобности, ибо Gen-3 уже что-то понимает о физике и обработке волос/меха. Как и Kling, у которого Motion Brush весьма неплохо просчитывает движение объектов по траекториям (особенно пример с лягушкой).

А вот опенсорсу любой коммит пригодится. Какой-то физический движок вроде игровых Havok или PhysX, но только для генерации видео напрашивался со времён Gen-1, где движения человека походили на 2D-шный кукольный театр.

Заодно пойдёт в генеративные игровые движки вроде GameGen-0 и иже с ними (кстати репо и страницу снесли (не удивлён)).

В прошлом году тоже маякали проекты на тему физики в видео, но там не было кода. Хотя в тираже есть варианты для нерфов, а также сплатов. А это уже интереснее, ибо это трёхмерное пространство, можно рендерить пролёты камеры с разных сторон, ставить на паузу и рассматривать со всех углов в шлеме/очках/голографическом дисплее, да и в высоком качестве.

Сайт
Гитхаб

1.8K viewsedited 13:56

Psy Eyes

Потестил Трейлеры, новую фичу Яндекс Музыки. Заходишь на страницу артиста или его альбома, жмёшь одноимённую кнопку, и нейронка даёт тебе 5 фрагментов в среднем по 15 секунд для ознакомления со стилем артиста.

Что такое 15 секунд? Ты не то, что вкурить, ты затянуться треком не успеешь как включится следующий. А так как там плавный переход между ними, то ещё минус по 1 секунде с каждой стороны, так что считай в наличии лишь 13 сек.

А когда фрагменты включаются, то очень часто это куски перед припевом. Ты такой: "вот-вот! щас будет мясо!".... ииии.... переход на следующий фрагмент.... В итоге ты слушаешь какую-то постную обезжиренную кашу. Которая когда кончается, ты не понимаешь что это было и не можешь себе ответить "А что я щас слушал?".

Тут ещё когда ты слушаешь фоново, например пока гуляешь, эти отрывки вообще кажутся по 4 секунды. Если сфокусироваться чтобы просто по трейлеру оценить стиль, то да тут может и пары секунд хватить.

Но:
* Как я уже сказал зачастую фрагменты пред-мясные постные
* Причём это касается и треков из закладок, которые попадаются в трейлерах
* А когда слушаешь постную кашу на странице знакомого артиста, то задаёшься вопросом "Что мне могло у него понравиться?"
* Иногда натыкаешься на повтор (какая-нибудь remastered или live версия)
* Или в трейлере большинство треков с одного альбома (что может и быть ок)

Я прошёлся по именитым артистам и малознакомым сохранёнкам с волны. Если судить по трейлерам, то из всей музыки на стримингах слушать особо нечего. И я никогда бы не познакомился с дискографией Massive Attack, Marilyn Manson, Limp Bizkit, KoЯn, MONO, Figure, и тд.

Хорошо работает там, где односложная музыка (техно, транс), либо более-менее ярко выраженная структура, где можно выцепить припев (Rasmus, Deftones). Или с популярными артистами вроде The Prodigy, Muse, Sting, у которых много хитов за плечами и в выборе тяжело ошибиться. Хотя почему в трейлерах:
* Madonna нет Frozen // Music?
* Massive Attack нет Teardrop // I Against I?
* Marilyn Manson нет Comma White // Rock is Dead?
* KoЯn нет Freak on a leash // Falling Away From Me // A.D.I.D.A.S.?

Я так понимаю что трейлеры частично основываются на первых пяти треках популярного... Так а зачем трейлер тогда, если музыка целиком прямо под ним? Куда мы спешим? Музыка это не работа - это кайф и исследование. Ты погружаешься в стиль артиста, хочешь найти больше того, что тебя зацепило. В процессе можешь ознакомиться с его историей и ещё что-то для себя отметить. А может и, как у меня бывало не раз, скачать всю дискографию с рутрекера, и понять что "тот трек" это единственное, что тебе у него нравится. Или в основной дискографии не нравится ничего, а в B-sides приглянулся какой-нибудь ремикс, или трек в котором артист решил поэкспериментировать, уйти в нехарактерный для него стиль, и получилось отлично!

Или это инструмент для AR-менеджеров и владельцев лейблов? Они в основном треки целиком не слушают, лишь тыкают. Но ведь даже эти ребята порой просят артиста выбрать самый сочный фрагмент самому, прежде чем прислать весь трек.

Или вы так готовите API для нейронок слушающих музыку, чтобы они находили нужные треки по стилю и генерили с выплатами артисту? Так опять же эти короткие фрагменты не репрезентативны: они не охватывают структуру треков, мало характерных черт звучания, и того как менялся стиль артиста со временем, итд.

Pro tip: по каверам проще всего выделить стиль артиста. Далее кавер — оригинал:
* Marilyn Mason
*** Personal Jesus — Depeche Mode
*** Sweet Dreams — Eurythmics
*** Tainted Love — Soft Cell
* Deftones
*** Do You Believe — Cardigans
*** Sinatra — Helmet

Кстати Tainted Love от Soft Cell (1981) это кавер на одноименный трек от Gloria Jones (1964).

Фича позиционируется как помощь артистам в продвижении. Но если тебе не понравился трейлер, то ты не станешь знакомиться со всем остальным. В итоге вместо того, чтобы послушать трек артиста целиком или дискографию, я не послушаю ничего, и он не получит никаких стримов. Кстати с прослушивания трейлера артист же тоже ничего не получает, да?

И вы ведь не собираетесь...

1.3K viewsedited 07:03

Psy Eyes

в волне вместо музыки трейлеры пихать?

В текущей реализации больше вреда, чем пользы. Что можно сделать чтобы это исправить:
* Дать артистам самим выбрать треки в запин, которые они считают своей визитной карточкой. Я такое видел на спотифай у Taylor Swift, и на Audius. И тут двояко: артисту нравятся одни свои треки - фанатам другие; он трепетно относится к определённым звукам/фрагментам, потому что связан с ними эмоционально, или для него это техническое достижение — а фаны не могут этого оценить; да и в целом артист может слишком близко находиться к картине. Тут правда есть ещё и техническая проблема: у большинства артистов и релизов тогда не будет трейлеров.
* Поэтому другой вариант: дать поклонникам вносить правки в лучший фрагмент сдвигая и расширяя тайминг. Консенсус из голосов определяет лучший фрагмент. Вот вам бесплатный RLHF для нейронки, повышение активности пользователей, и больше стримов треков для артистов. Битвы трейлеров устроить для хайпа, и другое промо. Можно и персональные настройки трейлера держать, чтобы друзей было легче с телефона знакомить с новой музыкой. Только сделайте так, чтобы их с выключенным экраном можно было слушать, а то не айс совсем.
* Ну и дайте по 1 минуте хоть. А то 15 секунд славы не звучит. У Clawfinger это вообще 15 Minutes of Fame.

А ещё лучше сделайте кнопку "Дискография", и дайте её слушать от ранних треков к новым, и наоборот. Пользы больше будет.

Отправил этот манускрипт почтовым голубем команде Яндекса.

1.5K views07:03

Psy Eyes

This media is not supported in your browser

VIEW IN TELEGRAM

В телеге чуть больше месяца назад появились реакции звёздами. Кто-то о них знает и уже ставит, а те кто первый раз слышит могут почитать тут.

Мне нравится формат: ты производишь контент, и люди поддерживают тебя за конкретные посты, ставя столько звёзд, сколько считают нужным.

Поставленные звёзды приходят ко мне 21 день спустя, и когда их накапливается 1000, то могу через Fragment сконвертировать их в TON. Сделаю вам видео как это выглядит, если этот пост наберёт 1000 звёзд.

Кстати на Fragment и в Android апе с сайта телеги их можно купить значительно дешевле, ибо нет комиссии Google Play/App Store.

Альтернативно, вы всегда можете добавить мой контакт себе и послать TON через @wallet, либо подарить звёзды напрямую.

Всех обнял!

1.6K views10:07

Psy Eyes

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

В Kling теперь доступны липсинк и API.

Не вау, но лучше, чем было, и нет "зажёванности" рта как у Wav2lip. Работает с Kling V 1 и V 1.5. На животных пока не пашет.

Через API теперь можно получить доступ к генерации видео, картинок, и виртуальной примерочной Virtual Try-on.

Также появилась секция Community, где можно шарить свои видео и есть шанс получить кредиты.

PS: теперь у ключевых генераторов видео (Runway, Luma, Kling) есть API.

Анонс
Подробнее о Kling

9.5K views14:37

About

Blog

Apps

Platform