Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
Hugging Face представили Gradio Lite для запуска AI-моделей прямо в вашем браузере.

Плюшки:
* Никаких серверов: всё работает локально на вашем компьютере. Это упрощает развёртывание AI-приложений, сокращает издержки на сервера, и упрощает возможность шарить свои приложения.

* Высокая скорость: данным не нужно ходить до серверов и обратно, что делает работу с приложениями быстрой и плавной.

* Приватность и безопасность: ваши данные не покидают компьютер и не шарятся с корпоратами для тренировки на них.

Кстати тут недавно вышел PyTorch 2.1 и там есть "distributed.checkpointing" для параллельного сохранения/загрузки моделей из множества ранков и решардинга если структура кластера поменялась (ноды выпали или прибавились). Посмотрим, может скрестят как.

Авось и WebGPU для генерации видюхой в браузере без установок чего-либо как-то смогут приспособить.

Анонс
Playground
Пример
This media is not supported in your browser
VIEW IN TELEGRAM
Meshy выпустили Meshy-1 для генерации текстурированного 3D по промту.

Есть поддержка 4к, экспорт в 3D форматы, и обещают в 30 раз более быструю генерацию.

Сайт
Riffusion vs Suno

В обоих вариантах описание звучания и тексты сгенерированы.

У Riffusion обложки по-краше и качество звучания из коробки повыше. Но из 12 секунд отданных на генерацию много пустого места. Можно через Remix вручную расставить тайминги слов и заполнить пробелы, но без таймлайна это дико не удобно, равно что в слепую + изменения меняют звучание всего трека. Но можно скачать стемы и править в аудиоредакторе — вот это годно.

Suno тем временем даёт более длинные результаты по ~40 секунд, и звучат они весьма гармонично. Причём, как мелодия так и вокал. В примере лирика короткая, а так то он когда генерит сам часто на весь хрон выдаёт результат. Качество здесь ниже, думаю потому что генерятся более длинные куски, но AudioSR может это исправить и сравнять разницу. Разбивки на стемы не хватает, но я думаю это дело времени.
This media is not supported in your browser
VIEW IN TELEGRAM
Я пару раз уже упоминал Hotshot в дайджестах, но оно стоит отдельного поста.

Примечателен Hotshot тем, что генерит гифки/видео на основе SDXL и его лорах, а также очень хорошо следует промту. В отличие от Runway, Pika и прочих здесь я с ходу начал получать практически то, что нужно и считай каждую генерацию сохранял себе. И это даже в простой версии на сайте без негативных промтов и других крутилок расширенной версии на хаггинге. Отличное понимание анатомии, без вплетения непрошенного, а также угадывание желаемых движений камеры. Есть поддержка ControlNet и надписей в кадре (мульти-контролнет в пути). А учитывая, что я видел в превью чужих генераций на сайте, цензура тут довольно лайтовая.

Внимательные подписчики нашли гитхаб проекта и возможность генерить с помощью этой модели видео. По умолчанию Hotshot выдаёт 1 секунду в 8 FPS на 672х384, но длительность, фреймрейт, и разрешение можно менять при работе локально, например поставив 24 FPS. Можно попробовать и через Flowframes повысить фреймрейт ради интереса. А разрешение через топаз и его опенсорсные аналоги.

Сайт
Расширенная версия (HF)
Гитхаб
LAMP — новая опенсорсная text-2-video модель. Первый фрейм генерится через SDXL и он служит основой для всех последующих. Работает как для генерации видео по тексту, так и для стайлтрансфера, хотя render-a-video в этом плане выглядит стабильнее.

Из интересного: можно скормить 8~16 видосов и натренировать генерить конкретное движение в кадре (для трени надо минимум 15+ ГБ видеопамяти). Своего-рода ControlNet.

Можно попробовать анимировать нетекстурированную 3D сцену в блендере и скормить полученные видосы LAMP . Например, стайлтрансфер в Runway GEN-1 в сочетании с голым 3D вполне норм работает, что видно на втором видео (взято с твиттера).

Сайт
Гитхаб
This media is not supported in your browser
VIEW IN TELEGRAM
Занятно, что Riffusion даже вздохи генерирует при выводе вокала.
This media is not supported in your browser
VIEW IN TELEGRAM
Новая модель для генерации музыки по тексту — JEN-1.

Из интересного:
* Выдаёт гармоничный звук хорошего качества
* Можно генерить вариации
* Inpaiting — вписываем нужный звук в трек
* Continuation — генерим продолжение звука или восполняем пробел
* Zero-shot — создаём аудио, не основываясь на тренировочных данных.

Есть ещё JEN-1 Composer, который генерит мульти-треково, то есть каждый стем в отдельную дорожку, чтобы было легче дальше редактировать. Причём ему можно подавать на вход свои музыкальные наработки для каждого инструмента, и он сведёт их. Каких инструментов нет, может сгенерировать.

Также на днях к ним присоединился Mike Caren, ранее занимавший руководящие должности в Warner Music Group, Elektra Records + Atlantic Records. У него свой лейбл Artist Partner Group, также он писал и продюссировал треки Beyoncé, Kanye West, Bruno Mars.

Есть доки с описанием как тренировали и на каких данных.

Пощупать пока нельзя, но есть демки на их сайте.
This media is not supported in your browser
VIEW IN TELEGRAM
Pika Labs тизерят свою обновлённую версию

Воссоздали реальную рекламу, на производство которой понадобилось 30 человек и месяц работы. Только со стороны Pika это сделал 1 человек за день.

Теперь скрестите это с генерацией музыки через JEN, или MusicGen, итд.

Придумывай название своему домашнему продакшену.
Дайджест:

📹 ВИДЕО + АРТ 🎨

Runway: улучшили генерацию на основе картинок, добавили раздел с историей генераций, внесли правки в контроль камеры и движения, а также добавили возможность расширить уже сгенерённую ранее картинку.

Колаб для latent consistency model (LCM), чтобы быстро генерить картинки и видео. Плюс генерация в реальном времени через SD, также через LCM.

На Snapdragon Summit тоже показали генерацию в реальном времени, только на телефоне без интернета и на 1 картинку уходит меньше секунды.

Orillusion: обновился до v 0.7 опенсорсный бесплатный игровой движок на основе WebGPU.

FreeNoise: метод для генерации длинных видео на основе VideoCrafter.

Cuebric: генерируем реалистичный 2,5D фон для видео.

Moonvalley: добавили к генерации видео сид и негативные промты для контроля.

CSM: можно бесплатно натренировать свою text-2-image лору через их дискорд бота.

PixArt-α: генератор картинок по качеству метящий в сторону SD и Midjourney.

SEINE: генерим видео из картинки с хорошей четкостью и стабильностью. Пока без кода.

ZeroNVS: генерация 3D и 360 сцен по картинке у нас уже были, а вот нерфы по одной картинке это что-то новое.

Игра Super Godot Galaxy прямо на Hugging Face. Тут коллекция AI-игр.

Twelve Labs: у которых годный сервис по поиску нужного футажа через его описание, выпустили модель Pegasus-1 для генерации детального описания видео и выжимки по нему.

🎸 ЗВУК 🎸

YouTube Music: теперь можно генерить обложку своим плейлистам.

AudioSet: модель для динамической разметки аудиоданных.

🤖 ЧАТЫ 🤖

QMoE: архитектура взаимодействия LLM-экспертов, позволяющая запустить LLM с более 1 триллиона параметров на 8x3090. Для сравнения по слухам у GPT-4 тоже гидра из экспертов каждый по 175B параметров, с общим числом параметров 1,5 триллионов или больше.

К Mistral пришили SeamlessM4T и теперь с ним можно общаться голосом на 100 языках. Есть и колаб.

HuggingFace: выпустили Alignment Handbook для наставления LLM моделей генерить нужным образом, и выкатили модель Zephyr-7B, которая на некоторых тестах показывает себя лучше ламы 70B.

Min-K% Prob: тестируем была ли модель натренирована на данных, защищённых авторским правом.

XAgent: новый AI-агент, который умеет планировать и выполнять задания, и работает изолированно через Docker.

TogetherComputer: выпустили датасет RedPajama V2 на основе 100B текстов из 84 снимков сети от CommonCrawl.

Microsoft: библиотека FP8-LM для эффективной и распределённой тренировки LLM.

Исследования:
* Рассматриваем оффлайн RLHF для LLM.
* Beyond U — ускоряем диффузионные модели и делаем их легче.
* Обучение на своих ошибках делает AI-модели рассудительнее.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
Двойной 3D удар:

Wonder3D — закидываете картинку и вам генерятся виды плюс карты нормалей с разных точек обзора. Чтобы выдавался протекстурированный 3D меш надо поставить модель локально. Демо + гитхаб

Также появилась Zero123++, улучшенная версия генератора разных углов камеры по одной картинке. Здесь сам меш не генерится. Демо раз, и два, плюс гитхаб.
Плагин Luma для UE обновился и теперь поддерживает гауссианы (Gaussian Splatting), позволяющие создавать сцены с высокой четкостью в реальном времени.

Можно со всех сторон снять на видео/фото объект или помещение, а дальше рулить пролётами камеры или вырезать фотореалистичные вещи и вставлять их в другие сцены, менять освещение, добавлять эффекты.

Плагин поддерживает рендеринг как полностью объемного формата (.luma) в нерф, так и интерактивных сцен, построенных на гауссианах (.ply) — не требуется никакой работы с форматами мешей, геометрией, материалами или потоками. Можно объединить в одной сцене нерфы и гауссианы.

На втором видео пример как это можно использовать в продакшене.

Плагин и инструкция
This media is not supported in your browser
VIEW IN TELEGRAM
Genmo обновили генератор видео Replay до v 0.2 и теперь он может:

* генерить на основе картинки
* показывать в превью рендеринг в реальном времени
* выдавать разрешение больше 2К
* и длительность видео до 10 секунд

А я говорил здесь в комментах, что у нас будет 2К до конца года, вот только не думал что от Genmo. Время ещё есть, Pika ультра-чёткую бету уже тизерит. Runway пока молчит, хотя генераторов видео становится с каждым днём всё больше.
This media is not supported in your browser
VIEW IN TELEGRAM
Абсолютное величие - Шэдоухарт отплясывает у кого-то в комнате.

Не знаю как это сделано, мое предположение - стащили модельку Шэдоухарт, анимировали через Mixamo, а потом закинули в FigminXR - приложение смешанной реальности на шлеме квест 3.

Я недавно кстати купила это приложение - там можно рисовать как в Tilt Brush (потому что они заколлабились), можно создавать воксельные модели, можно загружать готовые модели со sketchfab.
Как разберусь - выложу что-нибудь танцующего Леона из резидента

(ну вот, в комментариях подсказывают, что сделано в Virt-a-mate, а в нем чтоб разобраться - надо три высших образования получить 😞)
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
PERF: генерация нерф сцен, но на основе панорам. Результат по глубине и четкости выглядит неплохо, хотя Flythrough от Lumа будет качественней и удобнее. Саму панораму можно сгенерировать например тут. Модель пригодится для преобразования панорам в 3D, генерации из текста в 3D, стилизации 3D-сцен.

Сайт