Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
Bytedance: выпустили Infinite You (InfU), фреймворк для генерации картинок с целевой персоной.

Работает как PuLID, InstantID, PhotoMaker, и другие модели на эту тему, вписывая загруженное лицо в нужный сеттинг. Но в отличие от них здесь используется InfuseNet — компонент, который внедряет идентификационные характеристики в базовую модель DiT, позволяя придерживаться лица с рефа, при этом чётко следуя промту и выдавая высокое качество изображения.

Из коробки работает с контролнетами, лорами, и IP-адаптерами.

Демо
Сайт
Гитхаб
Topaz: представили софт для апскейла изображений Gigapixel 8.3.

Что нового:

* Модель Redefine для креативного апскейла с указанием промтом что нужно изменить, или в какой стиль/сеттинг всё перенести. Может дать прокашляться Magnific.

* Модель Recover для восстановления старых фото. Лучше всего работает с картинками до 1000х. Также пишут, что сканы и фото принтов лучше даунскейлить перед апскейлом, чтобы модель могла понять родное разрешение у как картинку улучшить.

* Модель Face Recovery Gen 2 с фокусом на восстановлении лиц. Улучшена проработка глаз, зубов, а также креативное восстановление в местах с недостатком данных вроде лиц вдалеке. Также на их бенчах модель значительно быстрее SDXL и Fux, если её гонять на L40S.

Апкейлить можно как локально, так и с обработкой в облаке.

Сайт

Твит
Synclabs: тизерят V2 своей липсинк модели.

Дубляж на разные языки идёт с сохранением голоса актёра. И работает даже, когда в кадре несколько говорящих.

Чтобы ввалиться в бету нужно написать им в личку в твиттере.

Твит
This media is not supported in your browser
VIEW IN TELEGRAM
Meshy: в превью режиме запустили V5 своего генератора 3D.

В этой версии улучшена проработка текстур и освещения. А также повысилось качество геометрии.

В честь запуска дают 50% скидку на подписку, промокод MESHY5.

Сайт
1
This media is not supported in your browser
VIEW IN TELEGRAM
Riffusion: развивается и быть может даже не даст заскучать Suno и Udio.

Что нового:
* Загрузка своего трека для работы по нему
* Swap Sound — меняем инструментальные партии, не трогая вокал.
* Swap Vocal — меняем вокал, оставляя инструменты.
* Get Stems — делим композицию на стемы и скачиваем архивом отдельные дорожки.
* Trim — обрезаем, оставляя нужный кусок, и от него танцуем
* Ghostwriter — AI пишет тексты песен

Есть расширенные настройки звука для экспериментов с weirdness, а также работа по нескольким промтам и ползунками их силы (20% дабстепа / 30% эмо-кора / 50% Надежды Кадышевой — смешать и отбежать).

Ещё из интересного у них обозначена персонализация — чем больше ты используешь платформу, тем лучше модель адаптируется генерить звучание под тебя. У Suno пока персонализация только относительно прослушивания заявлена. Так что у Riffusion есть карты в рукаве.

И, кстати, на скачанных стемах голос изолирует вполне себе. Если нужно будет отделить вокал от инструментала — можно быстренько закинуть и выцепить.

Плейлист с примером замененных элементов.

Сайт
Твит
Нравится как Kling крутит камеру. Сам понимает как достроить сцену, добавляет детали.

Да на фоне видны артефакты, вероятно там где он сшивает куски. Но все эти видосы получены с первого раза. Реф картинка в конце.

Кстати есть ощущение, что если его попросить перевести фокус на фон и сделать его детальнее, можно получить неплохую карту глубины.

Сайт
35
This media is not supported in your browser
VIEW IN TELEGRAM
У LTX Studio интересно сделан контроль камеры на сайте. Есть шаблоны, для быстрого получения целевого движения и превью.

Жаль, что формат кадра скачет и качество пока не айс.

Но это только пока.

Сайт
2
This media is not supported in your browser
VIEW IN TELEGRAM
Ну, и пока мы недалеко отошли от LTX.

Они выпустили LTX Video Trainer, фреймворк для трени лор на основе их моделей, или файнтюна на своём датасете.

В набор входит инструментарий для предобработки датасета, подписи видео, разделения сцен, итд.

Уже выпустили свои версии Pika эффектов Squish и Cakeify, чтобы Wan нескучно было.

Учитывая скорость генерации LTXV, не сильную требовательность к компьюту, а также лёгкое отношение людей к качеству изображения на мемах, как раз для мемогенераторов хорошо подойдёт.

Гитхаб
Хаггинг
Reve: новый генератор изображений, забравшийся в лидербор txt-2-img моделей. При этом проект в превью режиме.

Как у Midjourney фокус на эстетичности. Промту следует хорошо, и годно работает с надписями.

На черрипиках качество отличное, но на моих дефолтных промтах с фантастическим сюжетом сработало не айс. И это с улучшайзером промта, без него лучше вообще не запускать. Кроме варианта когда у вас самого есть детальный промт. Пока что от Flux у меня больше впечатлений.

На сайте только базовые элементы контроля в виде: выбора формата кадра, количества картинок, вкл/выкл улучшайзера, и сида.

Детективное расследование кто стоит за проектом здесь.

Дают 20 бесплатных генераций.

Сайт
This media is not supported in your browser
VIEW IN TELEGRAM
ElevenLabs: организовали автоматическое распознавание речи говорящего и переключение на нужный язык.

Показали как это работает с их AI-агентом, который быстро переключался между английским, немецким, китайским, и итальянским.

Самим можно попробовать на странице с их доками. На русском пашет, я потестил.

Демо
Сайт
Твит
This media is not supported in your browser
VIEW IN TELEGRAM
Крутые подписчики на линии!

Я недавно тестил Wan, пытаясь заставить ветром пошевелить мех котэ. Но прогиб был не столь силён, чтобы быть засчитанным.

Сейчас же всесильный @p0lygon таки поднял этот молот Тора, и дальше слово автору:

Регулировка силы ветра лорой (нано-Ван 1.3B)

В промпте нет слов о мехе, типа - "мех колышется на ветру", но при увеличение веса лоры, мех начинает отрабатывать ветер.
(Начало без лоры. в конце вес 4, с перебором)

Мораль: каких-то знаний физики вообще может не быть, но их можно принести лорой.
AI Илона Маска — Grok — теперь официально в Telegram. Я писал про него здесь.

Доступен бесплатно в боте @GrokAI владельцам премиумов.

Лимиты не указываются. Сам он говорит, что ограничен только 4096 символами в посте телеги.

Grok
Твит