Нравится как Kling крутит камеру. Сам понимает как достроить сцену, добавляет детали.
Да на фоне видны артефакты, вероятно там где он сшивает куски. Но все эти видосы получены с первого раза. Реф картинка в конце.
Кстати есть ощущение, что если его попросить перевести фокус на фон и сделать его детальнее, можно получить неплохую карту глубины.
Сайт
Да на фоне видны артефакты, вероятно там где он сшивает куски. Но все эти видосы получены с первого раза. Реф картинка в конце.
Кстати есть ощущение, что если его попросить перевести фокус на фон и сделать его детальнее, можно получить неплохую карту глубины.
Сайт
35
This media is not supported in your browser
VIEW IN TELEGRAM
У LTX Studio интересно сделан контроль камеры на сайте. Есть шаблоны, для быстрого получения целевого движения и превью.
Жаль, что формат кадра скачет и качество пока не айс.
Но это только пока.
Сайт
Жаль, что формат кадра скачет и качество пока не айс.
Но это только пока.
Сайт
2
This media is not supported in your browser
VIEW IN TELEGRAM
Ну, и пока мы недалеко отошли от LTX.
Они выпустили LTX Video Trainer, фреймворк для трени лор на основе их моделей, или файнтюна на своём датасете.
В набор входит инструментарий для предобработки датасета, подписи видео, разделения сцен, итд.
Уже выпустили свои версии Pika эффектов Squish и Cakeify, чтобы Wan нескучно было.
Учитывая скорость генерации LTXV, не сильную требовательность к компьюту, а также лёгкое отношение людей к качеству изображения на мемах, как раз для мемогенераторов хорошо подойдёт.
Гитхаб
Хаггинг
Они выпустили LTX Video Trainer, фреймворк для трени лор на основе их моделей, или файнтюна на своём датасете.
В набор входит инструментарий для предобработки датасета, подписи видео, разделения сцен, итд.
Уже выпустили свои версии Pika эффектов Squish и Cakeify, чтобы Wan нескучно было.
Учитывая скорость генерации LTXV, не сильную требовательность к компьюту, а также лёгкое отношение людей к качеству изображения на мемах, как раз для мемогенераторов хорошо подойдёт.
Гитхаб
Хаггинг
Reve: новый генератор изображений, забравшийся в лидербор txt-2-img моделей. При этом проект в превью режиме.
Как у Midjourney фокус на эстетичности. Промту следует хорошо, и годно работает с надписями.
На черрипиках качество отличное, но на моих дефолтных промтах с фантастическим сюжетом сработало не айс. И это с улучшайзером промта, без него лучше вообще не запускать. Кроме варианта когда у вас самого есть детальный промт. Пока что от Flux у меня больше впечатлений.
На сайте только базовые элементы контроля в виде: выбора формата кадра, количества картинок, вкл/выкл улучшайзера, и сида.
Детективное расследование кто стоит за проектом здесь.
Дают 20 бесплатных генераций.
Сайт
Как у Midjourney фокус на эстетичности. Промту следует хорошо, и годно работает с надписями.
На черрипиках качество отличное, но на моих дефолтных промтах с фантастическим сюжетом сработало не айс. И это с улучшайзером промта, без него лучше вообще не запускать. Кроме варианта когда у вас самого есть детальный промт. Пока что от Flux у меня больше впечатлений.
На сайте только базовые элементы контроля в виде: выбора формата кадра, количества картинок, вкл/выкл улучшайзера, и сида.
Детективное расследование кто стоит за проектом здесь.
Дают 20 бесплатных генераций.
Сайт
This media is not supported in your browser
VIEW IN TELEGRAM
ElevenLabs: организовали автоматическое распознавание речи говорящего и переключение на нужный язык.
Показали как это работает с их AI-агентом, который быстро переключался между английским, немецким, китайским, и итальянским.
Самим можно попробовать на странице с их доками. На русском пашет, я потестил.
Демо
Сайт
Твит
Показали как это работает с их AI-агентом, который быстро переключался между английским, немецким, китайским, и итальянским.
Самим можно попробовать на странице с их доками. На русском пашет, я потестил.
Демо
Сайт
Твит
This media is not supported in your browser
VIEW IN TELEGRAM
Крутые подписчики на линии!
Я недавно тестил Wan, пытаясь заставить ветром пошевелить мех котэ. Но прогиб был не столь силён, чтобы быть засчитанным.
Сейчас же всесильный @p0lygon таки поднял этот молот Тора, и дальше слово автору:
Я недавно тестил Wan, пытаясь заставить ветром пошевелить мех котэ. Но прогиб был не столь силён, чтобы быть засчитанным.
Сейчас же всесильный @p0lygon таки поднял этот молот Тора, и дальше слово автору:
Регулировка силы ветра лорой (нано-Ван 1.3B)
В промпте нет слов о мехе, типа - "мех колышется на ветру", но при увеличение веса лоры, мех начинает отрабатывать ветер.
(Начало без лоры. в конце вес 4, с перебором)
Мораль: каких-то знаний физики вообще может не быть, но их можно принести лорой.
This media is not supported in your browser
VIEW IN TELEGRAM
Ideogram: выпустили генератор картинок Ideogram 3.
Модель хорошо показывает себя в генерации брендированного контента, дизайна, и креативных сцен. Картинки выходят детальные и эстетичные.
Потестил, и по сравнению с V1 и 2 чувствуется, что модель по умолчанию тянется к реализму, что хорошо сказывается на композиции.
Но дают только 2 генерации на бесплатном тарифе, и они закончились быстрее, чем я успел сложить более полное впечатление.
Тем не менее, с моего последнего посещения вижу, что сайт оброс множеством рулек для контроля, что хорошо. Тут тебе и работа по рефу, и код стиля как sref в Midjourney, и задание цветовой палитры. Даже холст (Canvas) свой есть.
Определённо камень в огород Recraft. Подписка $20/мес.
Сайт
Анонс
Модель хорошо показывает себя в генерации брендированного контента, дизайна, и креативных сцен. Картинки выходят детальные и эстетичные.
Потестил, и по сравнению с V1 и 2 чувствуется, что модель по умолчанию тянется к реализму, что хорошо сказывается на композиции.
Но дают только 2 генерации на бесплатном тарифе, и они закончились быстрее, чем я успел сложить более полное впечатление.
Тем не менее, с моего последнего посещения вижу, что сайт оброс множеством рулек для контроля, что хорошо. Тут тебе и работа по рефу, и код стиля как sref в Midjourney, и задание цветовой палитры. Даже холст (Canvas) свой есть.
Определённо камень в огород Recraft. Подписка $20/мес.
Сайт
Анонс
This media is not supported in your browser
VIEW IN TELEGRAM
Stepfun: дали доступ на сайте к своему видеогенератору Step-Video-TI2V. Переводите в браузере страницу на инглиш.
Модель может принимать на вход одновременно и картинку разных размеров и текст на английском или китайском. Выдаёт максимум 102 кадра за 3+ минуты. Text-2-video генерит 960х540 при 25fps. Лучше всего себя показывает в аниме стиле.
Есть рульки контроля камеры, только они не совсем интуитивные. И стандартные: шаблоны стиля + улучшение промта.
Эту же модель они недавно выложили в опенсорс, но она слишком жирная, чтобы её локально запекать.
По российском симке заходит. И что интересно код приходит в телеге через недавно запущенный Telegram Gateway. Значит тема работает, и китайские братья о ней знают.
Сайт
Хаггинг
Модель может принимать на вход одновременно и картинку разных размеров и текст на английском или китайском. Выдаёт максимум 102 кадра за 3+ минуты. Text-2-video генерит 960х540 при 25fps. Лучше всего себя показывает в аниме стиле.
Есть рульки контроля камеры, только они не совсем интуитивные. И стандартные: шаблоны стиля + улучшение промта.
Эту же модель они недавно выложили в опенсорс, но она слишком жирная, чтобы её локально запекать.
По российском симке заходит. И что интересно код приходит в телеге через недавно запущенный Telegram Gateway. Значит тема работает, и китайские братья о ней знают.
Сайт
Хаггинг
This media is not supported in your browser
VIEW IN TELEGRAM
Kling: обновили Elements, создание видео по нескольким объектам на рефах.
Что нового:
* Ускорение генерации
* Улучшено следование промту
* Повысилось качество изображения
Также генерация через кейфреймы теперь работает с расширением видео.
Сайт
Твит
Что нового:
* Ускорение генерации
* Улучшено следование промту
* Повысилось качество изображения
Также генерация через кейфреймы теперь работает с расширением видео.
Сайт
Твит
1
Редактирование/генерация картинок промтом через Gemini навела суеты, и конкуренты начали выкатывать такие же фичи.
OpenAI: добавили в ChatGPT генерацию изображений нативно через 4o, а не DALEE 3.
Выдаёт отличное качество изображения, но может съедать детали или перегенерить сцену целиком вместо целевого объекта. Отлично слушается промта (в том числе на русском), вписывает надписи, и работает со стилизацией. На удивление лёгкое отношение к цензуре.
На данный момент раскатано для владельцев подписки Plus выше.
Grok: редактирование картинок промтом добавили несколько дней спустя после Gemini. В плане качества и удерживания стиля тоже хорошо делает, как и работает с надписями на русском, но всё же ChatGPT генерит лучше. К цензуре более свободное отношение, чем у Gemini.
Работает бесплатно с российским IP.
Анонс ChatGPT
ChatGPT
Grok
OpenAI: добавили в ChatGPT генерацию изображений нативно через 4o, а не DALEE 3.
Выдаёт отличное качество изображения, но может съедать детали или перегенерить сцену целиком вместо целевого объекта. Отлично слушается промта (в том числе на русском), вписывает надписи, и работает со стилизацией. На удивление лёгкое отношение к цензуре.
На данный момент раскатано для владельцев подписки Plus выше.
Grok: редактирование картинок промтом добавили несколько дней спустя после Gemini. В плане качества и удерживания стиля тоже хорошо делает, как и работает с надписями на русском, но всё же ChatGPT генерит лучше. К цензуре более свободное отношение, чем у Gemini.
Работает бесплатно с российским IP.
Анонс ChatGPT
ChatGPT
Grok
1
Занятное, lllyasviel предлагает добавлять к артам подписи, которые будут запрещать мультимодалке обрабатывать контент, чтобы он не пошёл под капот AI-Шоггота.
Мы тут были в 22-23 году, когда этот вопрос поднимался артистами с претензиями к Stability, Midjourney, OpenAI, итд. Тогда также были предложения вставлять подобные подписи к артам, на сайты, в метатеги.
Но толку это не дало: Stability выиграли все суды; недавно в Китае суд встал на сторону автора арта сгенерированного в MJ; а невидимые водяные знаки легко смываются. Единственно Adobe со своей мета маркировкой C2PA продвинулся, но это опять же обходится.
Тут либо контент/датасет изначально не должен попадать в сеть (быть за пейволом, как показывает практика, не поможет), либо наоборот изначально подразумевать, что контент в любом случае попадёт под капот нейронке и выстраивать монетизацию иначе. Или как-то его по кусочкам стримить и шифровать для мультимодалки, при этом так чтобы для пользователя это выглядело как обычный контент.
И не удивлюсь если корпораты в борьбе за власть будут использовать data poisoning схемы, чтобы вживлять в публикуемый пользователями контент мету, от которой обработавшая её нейронка начнёт глупеть. И конкуренты жгли деньги и отставали по релизам.
Здесь можно провести параллель со стимом и пиратскими играми: делаешь доступ удобным, а цену разумной, и люди к тебе тянутся. Корпоратам жечь компьют, чтобы дешифровать/отчистить/собрать контент или датасет из открытых источников должно быть менее выгодно, чем просто в белую обратиться по API артиста к нужному датасету. Чтобы оно работало глобально и автоматизированно можно оплату проводить по смарт контрактам.
Твит
Мы тут были в 22-23 году, когда этот вопрос поднимался артистами с претензиями к Stability, Midjourney, OpenAI, итд. Тогда также были предложения вставлять подобные подписи к артам, на сайты, в метатеги.
Но толку это не дало: Stability выиграли все суды; недавно в Китае суд встал на сторону автора арта сгенерированного в MJ; а невидимые водяные знаки легко смываются. Единственно Adobe со своей мета маркировкой C2PA продвинулся, но это опять же обходится.
Тут либо контент/датасет изначально не должен попадать в сеть (быть за пейволом, как показывает практика, не поможет), либо наоборот изначально подразумевать, что контент в любом случае попадёт под капот нейронке и выстраивать монетизацию иначе. Или как-то его по кусочкам стримить и шифровать для мультимодалки, при этом так чтобы для пользователя это выглядело как обычный контент.
И не удивлюсь если корпораты в борьбе за власть будут использовать data poisoning схемы, чтобы вживлять в публикуемый пользователями контент мету, от которой обработавшая её нейронка начнёт глупеть. И конкуренты жгли деньги и отставали по релизам.
Здесь можно провести параллель со стимом и пиратскими играми: делаешь доступ удобным, а цену разумной, и люди к тебе тянутся. Корпоратам жечь компьют, чтобы дешифровать/отчистить/собрать контент или датасет из открытых источников должно быть менее выгодно, чем просто в белую обратиться по API артиста к нужному датасету. Чтобы оно работало глобально и автоматизированно можно оплату проводить по смарт контрактам.
Твит