Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
Нравится как Kling крутит камеру. Сам понимает как достроить сцену, добавляет детали.

Да на фоне видны артефакты, вероятно там где он сшивает куски. Но все эти видосы получены с первого раза. Реф картинка в конце.

Кстати есть ощущение, что если его попросить перевести фокус на фон и сделать его детальнее, можно получить неплохую карту глубины.

Сайт
35
This media is not supported in your browser
VIEW IN TELEGRAM
У LTX Studio интересно сделан контроль камеры на сайте. Есть шаблоны, для быстрого получения целевого движения и превью.

Жаль, что формат кадра скачет и качество пока не айс.

Но это только пока.

Сайт
2
This media is not supported in your browser
VIEW IN TELEGRAM
Ну, и пока мы недалеко отошли от LTX.

Они выпустили LTX Video Trainer, фреймворк для трени лор на основе их моделей, или файнтюна на своём датасете.

В набор входит инструментарий для предобработки датасета, подписи видео, разделения сцен, итд.

Уже выпустили свои версии Pika эффектов Squish и Cakeify, чтобы Wan нескучно было.

Учитывая скорость генерации LTXV, не сильную требовательность к компьюту, а также лёгкое отношение людей к качеству изображения на мемах, как раз для мемогенераторов хорошо подойдёт.

Гитхаб
Хаггинг
Reve: новый генератор изображений, забравшийся в лидербор txt-2-img моделей. При этом проект в превью режиме.

Как у Midjourney фокус на эстетичности. Промту следует хорошо, и годно работает с надписями.

На черрипиках качество отличное, но на моих дефолтных промтах с фантастическим сюжетом сработало не айс. И это с улучшайзером промта, без него лучше вообще не запускать. Кроме варианта когда у вас самого есть детальный промт. Пока что от Flux у меня больше впечатлений.

На сайте только базовые элементы контроля в виде: выбора формата кадра, количества картинок, вкл/выкл улучшайзера, и сида.

Детективное расследование кто стоит за проектом здесь.

Дают 20 бесплатных генераций.

Сайт
This media is not supported in your browser
VIEW IN TELEGRAM
ElevenLabs: организовали автоматическое распознавание речи говорящего и переключение на нужный язык.

Показали как это работает с их AI-агентом, который быстро переключался между английским, немецким, китайским, и итальянским.

Самим можно попробовать на странице с их доками. На русском пашет, я потестил.

Демо
Сайт
Твит
This media is not supported in your browser
VIEW IN TELEGRAM
Крутые подписчики на линии!

Я недавно тестил Wan, пытаясь заставить ветром пошевелить мех котэ. Но прогиб был не столь силён, чтобы быть засчитанным.

Сейчас же всесильный @p0lygon таки поднял этот молот Тора, и дальше слово автору:

Регулировка силы ветра лорой (нано-Ван 1.3B)

В промпте нет слов о мехе, типа - "мех колышется на ветру", но при увеличение веса лоры, мех начинает отрабатывать ветер.
(Начало без лоры. в конце вес 4, с перебором)

Мораль: каких-то знаний физики вообще может не быть, но их можно принести лорой.
AI Илона Маска — Grok — теперь официально в Telegram. Я писал про него здесь.

Доступен бесплатно в боте @GrokAI владельцам премиумов.

Лимиты не указываются. Сам он говорит, что ограничен только 4096 символами в посте телеги.

Grok
Твит
This media is not supported in your browser
VIEW IN TELEGRAM
Ideogram: выпустили генератор картинок Ideogram 3.

Модель хорошо показывает себя в генерации брендированного контента, дизайна, и креативных сцен. Картинки выходят детальные и эстетичные.

Потестил, и по сравнению с V1 и 2 чувствуется, что модель по умолчанию тянется к реализму, что хорошо сказывается на композиции.

Но дают только 2 генерации на бесплатном тарифе, и они закончились быстрее, чем я успел сложить более полное впечатление.

Тем не менее, с моего последнего посещения вижу, что сайт оброс множеством рулек для контроля, что хорошо. Тут тебе и работа по рефу, и код стиля как sref в Midjourney, и задание цветовой палитры. Даже холст (Canvas) свой есть.

Определённо камень в огород Recraft. Подписка $20/мес.

Сайт
Анонс
This media is not supported in your browser
VIEW IN TELEGRAM
Stepfun: дали доступ на сайте к своему видеогенератору Step-Video-TI2V. Переводите в браузере страницу на инглиш.

Модель может принимать на вход одновременно и картинку разных размеров и текст на английском или китайском. Выдаёт максимум 102 кадра за 3+ минуты. Text-2-video генерит 960х540 при 25fps. Лучше всего себя показывает в аниме стиле.

Есть рульки контроля камеры, только они не совсем интуитивные. И стандартные: шаблоны стиля + улучшение промта.

Эту же модель они недавно выложили в опенсорс, но она слишком жирная, чтобы её локально запекать.

По российском симке заходит. И что интересно код приходит в телеге через недавно запущенный Telegram Gateway. Значит тема работает, и китайские братья о ней знают.

Сайт
Хаггинг
This media is not supported in your browser
VIEW IN TELEGRAM
Kling: обновили Elements, создание видео по нескольким объектам на рефах.

Что нового:
* Ускорение генерации
* Улучшено следование промту
* Повысилось качество изображения

Также генерация через кейфреймы теперь работает с расширением видео.

Сайт
Твит
1
Редактирование/генерация картинок промтом через Gemini навела суеты, и конкуренты начали выкатывать такие же фичи.

OpenAI
: добавили в ChatGPT генерацию изображений нативно через 4o, а не DALEE 3.

Выдаёт отличное качество изображения, но может съедать детали или перегенерить сцену целиком вместо целевого объекта. Отлично слушается промта (в том числе на русском), вписывает надписи, и работает со стилизацией. На удивление лёгкое отношение к цензуре.

На данный момент раскатано для владельцев подписки Plus выше.

Grok: редактирование картинок промтом добавили несколько дней спустя после Gemini. В плане качества и удерживания стиля тоже хорошо делает, как и работает с надписями на русском, но всё же ChatGPT генерит лучше. К цензуре более свободное отношение, чем у Gemini.

Работает бесплатно с российским IP.

Анонс ChatGPT
ChatGPT
Grok
1
Занятное, lllyasviel предлагает добавлять к артам подписи, которые будут запрещать мультимодалке обрабатывать контент, чтобы он не пошёл под капот AI-Шоггота.

Мы тут были в 22-23 году, когда этот вопрос поднимался артистами с претензиями к Stability, Midjourney, OpenAI, итд. Тогда также были предложения вставлять подобные подписи к артам, на сайты, в метатеги.

Но толку это не дало: Stability выиграли все суды; недавно в Китае суд встал на сторону автора арта сгенерированного в MJ; а невидимые водяные знаки легко смываются. Единственно Adobe со своей мета маркировкой C2PA продвинулся, но это опять же обходится.

Тут либо контент/датасет изначально не должен попадать в сеть (быть за пейволом, как показывает практика, не поможет), либо наоборот изначально подразумевать, что контент в любом случае попадёт под капот нейронке и выстраивать монетизацию иначе. Или как-то его по кусочкам стримить и шифровать для мультимодалки, при этом так чтобы для пользователя это выглядело как обычный контент.

И не удивлюсь если корпораты в борьбе за власть будут использовать data poisoning схемы, чтобы вживлять в публикуемый пользователями контент мету, от которой обработавшая её нейронка начнёт глупеть. И конкуренты жгли деньги и отставали по релизам.

Здесь можно провести параллель со стимом и пиратскими играми: делаешь доступ удобным, а цену разумной, и люди к тебе тянутся. Корпоратам жечь компьют, чтобы дешифровать/отчистить/собрать контент или датасет из открытых источников должно быть менее выгодно, чем просто в белую обратиться по API артиста к нужному датасету. Чтобы оно работало глобально и автоматизированно можно оплату проводить по смарт контрактам.

Твит