Psy Eyes
4.92K subscribers
1.03K photos
941 videos
5 files
1.15K links
Креатив + AI + Web3... и мемы

Личная страница @andrey_bezryadin
Download Telegram
Suno: выкатили V4 своего генератора музыки. Голоса стали чище, структура треков композиционно насыщеннее, а тексты стали лучше ложиться на инструменты.

Вместе с этим добавились новые фичи: ремастер треков до варианта от V4 (вероятно работает только с генерациями внутри Suno), улучшенное создание текстов с помощью ReMi, работа с обложками. Старые фичи Covers и Personas тоже получили апгрейд.

Примеры звучания V4 от авторов Suno.

Раздел Explore также обновился, и можно покрутить барабан обновлённых жанров. Есть только ощущение, что там не весь контент обновлён, но его в любом случае весело крутить.

Пока V4 доступна только платным подписчикам.

Сайт
Анонс
Примеры V4
Hotshot: этот генератор видео выкатил управление видео по рефу. Работает и с синтетическими направляющими: второе видео я сгенерил в Mochi, а третье это результат из Hotshot.

Промт:
A robot standing at a night cyberpunk city street. It is smiling, nodding, saying something, and appears to be looking at something. The robot is made of metal and plastic and is standing in front of a crosswalk. There is traffic in the background, including cars and a traffic light.


Похоже на Movie Gen, видеолоры в Kling, отчасти Act One от Runway, ну и опенсорсный LivePortrait. Но команда HotShot состоит из всего нескольких человек вроде.

На сайте видео по рефу генерятся за секунды. По крайне мере пока, залетайте. Там 3 бесплатные генерации в день.

Сайт
This media is not supported in your browser
VIEW IN TELEGRAM
Как-то пролетело мимо радаров. У HotShot ещё и можно персонализировать видео, закинув своё фото.

Это доступно, начиная со Standard за $29. Даётся 200 генераций в месяц, и безлимитное количество дневных круток (вероятно имеются ввиду ежедневные бесплатные генерации как в Kling).
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Так, а теперь завершаем 2D->3D марафон и складываем все в одну коробочку.

Вчера постил благую весть, о том, что CogVideo 1.5 завезли в Комфи, перебрав все косточки по дороге.
Приводил пример видео генерации с лорой на движение камеры от автора интеграции.
А сегодня смышленые парни уже берут такие генерации кормят их в postshot и получают метаверсик этого сгенеренного мира. Пример нечищеный, как есть.

И да, это 3dgs - гауссианы, полученные из postshot.

Кто не знает про postshot - глядите сюда https://www.jawset.com/ (надо немного знать 3Д).

А я проматываю на пару лет вперед и вижу то самое королевство кривых зеркал (может и прямых, кстати).

Вы силой мысли(или дрожащим голосом) генерите любую влажную картинку из ваших фантазий, а потом просто заныриваете в нее. Ибо мир уже готов, гауссианы ждут вас в свои объятия. Хотя через пару лет это уже будут наверное нано-латентные-пиксели, учитывающие вашу биохимию.

А если отставить нейродедовский юмор, то Midjourney как раз что-то лопотали про это на своих Open Hours. Писал об этом тут.

Ох, куда катится мир... в какие картинки.

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Студентка по скетчам от руки сделала 3D модели персонажей и их анимацию.

Использовались:
* Edit mode и --Sref из Midjourney
* Krea
* Tripo3D
* Minimax

Понятно, что есть огрехи, неконсистентность, и мало контроля. Но для черновых анимаций, дабы понимать что работает, а что нет, вполне вариант.

Твит
This media is not supported in your browser
VIEW IN TELEGRAM
RealityCapture: софт для фотограмметрии обновился до v 1.5.

Что нового:
* Экспорт Radiance Fields Transform и COLMAP для работы со сплатами и нерфами;
* Ускорение текстуризации;
* Вывод в USD и USDZ форматах;
* Дефрагментация текстур, для улучшения их качества и ускорения обработки;
* и другие улучшения.

А ёще недавно в RC стал бесплатен, если ваш доход меньше $1 млн/год.

Если у вас стоит v 1.4.2, то её нужно будет удалить, перезапустить лаунчер, и тогда появится возможность установить v 1.5.

Анонс
Полное видео на YouTube
Black Forest Labs: выпустили Tools, набор моделей для тонкой работы с генерацией изображений.

В него входит:
* FLUX.1 Fill: модель для инпейтинга и аутпейтинга, позволяющая вписывать/менять объекты на картинках или расширять кадр.
* FLUX.1 Depth: изменение картинки на основе карты глубины.
* FLUX.1 Canny: изменение картинки на основе карты очертаний.
* FLUX.1 Redux: адаптер для получения вариаций изображения.

Canny и Depth идут в двух вариантах: полных моделях с максимальным качеством, и лоры (Canny Lora плюс Depth Lora) на основе Dev для упрощенной разработки.

Всё это уже можно крутить в Comfy (обновляемся до последней версии).

Данные решения от BFL показывают себя лучше, чем контролнеты собранные сообществом, вроде варианта от Alibaba (хотя в анонсе ссыль ведёт на альфа версию контролнета, а уже есть обновлённая бета). Также пишут, что картинки на выходе лучше других моделей, но на их бенчах нет Recraft V3.

В целом, BFL молодцы, что работают и на комьюнити, продвигая опенсорс, и себя не забывают с платными фишками по API.

Анонс
Хаггинг
Гитхаб
Запуск в Comfy
Krea: смешивание картинок на основе Flux с указанием веса стиля мышкой стало доступно всем бесплатно.

Сайт
Твит
This media is not supported in your browser
VIEW IN TELEGRAM
JoyVASA: анимация картинок людей и животных по аудио с липсиком.

На первом этапе используется система раздельного представления лица, которая отделяет динамические выражения эмоций от статических лицевых 3D-представлений. Такое разделение позволяет системе генерировать более длинные видео, комбинируя любое статическое 3D-представление с динамическими последовательностями движений. Затем, на втором этапе, диффузионный трансформатор обучается генерировать последовательности движений непосредственно из аудиосигналов, независимо от идентичности персонажей. Наконец, генератор, обученный на первом этапе, использует 3D-представление лица и сгенерированные последовательности движений в качестве входных данных для создания высококачественной анимации.

Видео на выходе не шакалится, а рот не "жуётся" в пиксельную кашу. Но расти всё ещё есть куда, ибо пока результат кажется оторванным от реальности. Тем не менее, здесь есть код, а это не частая история для таких моделек.

Похожее из опенсорса: LivePortrait (который тут под капотом и испольуется), EchoMimic, V-express, DreamTalk, MuseTalk, и Hallo. Из закрытых HeyGen и Runway Act One, например.

Сайт
Гитхаб
Хаггинг
Дайджест:

📹 ВИДЕО + АРТ 🎨

Онлайн демки для Flux Tools на хаггинге: Fill, Redux, Canny, Depth. Альтернативно на Gliff.

Hailuo: добавили отмену генерации и её повтор (re-create). Плюс наваяли гайд по работе с видеогенератором.

Runway: релизнули outpainting для расширения кадра или смены его формата, а также генератор картинок Frames, по качеству, эстетичности, и кинематографичности бьющий в сторону Midjourney.

Luma: обновили Dream Machine. Появился генератор изображений/кадров Photon, редактирование изображения или видео через Modify, стабильные персонажи, и смешивание стилей.

Lightricks: выпустили новый видеогенератор LTXV. Выдаёт 24 FPS в 768x512 длиной в 5 сек, тратя на генерацию 4 сек. Есть text-2-video, image-2-video, video-2-video. 24 ГБ VRAM должно хватить, есть Comfy. По качеству отдалённо напоминает Mochi. Тесты Нейродеда.

Comfy: выпустили десктоп приложение.

Omegance: новый параметр ω (омега), отвечающий за детальность генерации. Добавляется в процесс денойзинга, работает с любой архитектурой без доп тренировки, и применимо как к картинкам, так и видео. Похоже на апскейлинг в "креативном" режиме.

Pinokio: в сайдпанели Comfy для некоторых AI-приложений теперь можно сразу скачать модель + воркфлоу через Download Mix. Пока поддерживаются LTX, Flux Tools, Mochi.

StabilityAI: выпустили контролнеты на SD 3.5 Large. Помимо стандартных Canny и Depth ещё есть нечто новое — Blur для апскейла до 8к или 16к. Кстати SD 3.5 Medium не снискала популярности тоже.

Inria: авторы сплатов обновили основной код в репо: ускорили тренировку примерно в 2 раза, добавили сглаживание (anti-aliasing), и не только.

Brush: новое приложение для тренировки сплатов. Есть как десктоп апа, так и веб-интерфейс, работающий через WebGPU.

Burn: новый фреймворк для DL на Rust, с фокусом на гибкости, эффективности и портативности. Есть поддежка WebGPU. Brush как раз использует Burn.

Snap: добавили в Lens Studio v 5.3 возможность тренировать сплаты. Сама тренировка происходит в облаке.

ClarityAI: их апскейлер появился на Pinokio.

RMBG-2: тоже пинокио апа для удалятора фона.

Qwen2.5 Coder подрубили к ffmpeg, чтобы можно было вкинуть картинки + музыку и собирать/редактировать видео промтом. Пока выглядит как переизобретение колеса лишь бы решать всё командой/промтом и не касаться GUI.

Моделька заточенная вписывать лого в заданный промтом контекст.

ConsisID: опенсорсная генерация персонализированных видео с сохранением стабильности лица.

EchoMimicV2: анимация картинок с липсинком и жестикуляцией. Пока шакально.

OminiControl: вписывание объекта с реф картинки в новое изображение по описанию.

InstantX: подогнали IP-адаптер для Flux.

Pika: запустили API и убрали Unlimited тариф ибо его эксплоитили и они жгли деньги. Вместо него будет Fancy c 6000 кредитов/месяц.

Samurai: новый сегментатор объектов на фото/видео, который показывает себя лучше SAM2.

Krea: добавили поддержку Kling 1.5. Ещё недавно они обновили тренировку Flux на сайте.

🎸 ЗВУК 🎸

Suno: записываемся в вейтлист прилы на Android.

ElevenLabs: выпустили для iOS генератор подкастов GenFM на основе доков пользователя.

PlayAI: запустил модель Dialog для эмоционального общения голосом с минимальной задержкой. Плюс сделали PlayNote для подкастинации pdf файлов. Лавры NotebookLM не дают покоя. Есть ещё на ламе NotebookLlama.

EzAudio: релизнули контролнет для генерации звуков и музыки по рефу (например, можно напеть нужную мелодию). Есть и text-2-audio версия, там же инпейтинг и редактирование.