Psy Eyes – Telegram

Psy Eyes

6.8K subscribers

1.43K photos

1.57K videos

5 files

1.55K links

Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.

Download Telegram

About

Blog

Apps

Platform

6.8K subscribers

Hugging Face представили Gradio Lite для запуска AI-моделей прямо в вашем браузере.

Плюшки:
* Никаких серверов: всё работает локально на вашем компьютере. Это упрощает развёртывание AI-приложений, сокращает издержки на сервера, и упрощает возможность шарить свои приложения.

* Высокая скорость: данным не нужно ходить до серверов и обратно, что делает работу с приложениями быстрой и плавной.

* Приватность и безопасность: ваши данные не покидают компьютер и не шарятся с корпоратами для тренировки на них.

Кстати тут недавно вышел PyTorch 2.1 и там есть "distributed.checkpointing" для параллельного сохранения/загрузки моделей из множества ранков и решардинга если структура кластера поменялась (ноды выпали или прибавились). Посмотрим, может скрестят как.

Авось и WebGPU для генерации видюхой в браузере без установок чего-либо как-то смогут приспособить.

Анонс
Playground
Пример

1.67K viewsAndrey Bezryadin, 18:03

This media is not supported in your browser

VIEW IN TELEGRAM

Meshy выпустили Meshy-1 для генерации текстурированного 3D по промту.

Есть поддержка 4к, экспорт в 3D форматы, и обещают в 30 раз более быструю генерацию.

Сайт

1.78K viewsAndrey Bezryadin, edited 11:31

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Riffusion vs Suno

В обоих вариантах описание звучания и тексты сгенерированы.

У Riffusion обложки по-краше и качество звучания из коробки повыше. Но из 12 секунд отданных на генерацию много пустого места. Можно через Remix вручную расставить тайминги слов и заполнить пробелы, но без таймлайна это дико не удобно, равно что в слепую + изменения меняют звучание всего трека. Но можно скачать стемы и править в аудиоредакторе — вот это годно.

Suno тем временем даёт более длинные результаты по ~40 секунд, и звучат они весьма гармонично. Причём, как мелодия так и вокал. В примере лирика короткая, а так то он когда генерит сам часто на весь хрон выдаёт результат. Качество здесь ниже, думаю потому что генерятся более длинные куски, но AudioSR может это исправить и сравнять разницу. Разбивки на стемы не хватает, но я думаю это дело времени.

1.64K viewsAndrey Bezryadin, 13:22

Mic check

Anonymous Poll

другое (комменты)

69 voters1.44K viewsAndrey Bezryadin, 13:24

This media is not supported in your browser

VIEW IN TELEGRAM

Я пару раз уже упоминал Hotshot в дайджестах, но оно стоит отдельного поста.

Примечателен Hotshot тем, что генерит гифки/видео на основе SDXL и его лорах, а также очень хорошо следует промту. В отличие от Runway, Pika и прочих здесь я с ходу начал получать практически то, что нужно и считай каждую генерацию сохранял себе. И это даже в простой версии на сайте без негативных промтов и других крутилок расширенной версии на хаггинге. Отличное понимание анатомии, без вплетения непрошенного, а также угадывание желаемых движений камеры. Есть поддержка ControlNet и надписей в кадре (мульти-контролнет в пути). А учитывая, что я видел в превью чужих генераций на сайте, цензура тут довольно лайтовая.

Внимательные подписчики нашли гитхаб проекта и возможность генерить с помощью этой модели видео. По умолчанию Hotshot выдаёт 1 секунду в 8 FPS на 672х384, но длительность, фреймрейт, и разрешение можно менять при работе локально, например поставив 24 FPS. Можно попробовать и через Flowframes повысить фреймрейт ради интереса. А разрешение через топаз и его опенсорсные аналоги.

Сайт
Расширенная версия (HF)
Гитхаб

2.05K viewsAndrey Bezryadin, edited 14:56

Media is too big

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

LAMP — новая опенсорсная text-2-video модель. Первый фрейм генерится через SDXL и он служит основой для всех последующих. Работает как для генерации видео по тексту, так и для стайлтрансфера, хотя render-a-video в этом плане выглядит стабильнее.

Из интересного: можно скормить 8~16 видосов и натренировать генерить конкретное движение в кадре (для трени надо минимум 15+ ГБ видеопамяти). Своего-рода ControlNet.

Можно попробовать анимировать нетекстурированную 3D сцену в блендере и скормить полученные видосы LAMP . Например, стайлтрансфер в Runway GEN-1 в сочетании с голым 3D вполне норм работает, что видно на втором видео (взято с твиттера).

Сайт
Гитхаб

2.28K viewsAndrey Bezryadin, 15:57

This media is not supported in your browser

VIEW IN TELEGRAM

Занятно, что Riffusion даже вздохи генерирует при выводе вокала.

1.93K viewsAndrey Bezryadin, 17:14

This media is not supported in your browser

VIEW IN TELEGRAM

Новая модель для генерации музыки по тексту — JEN-1.

Из интересного:
* Выдаёт гармоничный звук хорошего качества
* Можно генерить вариации
* Inpaiting — вписываем нужный звук в трек
* Continuation — генерим продолжение звука или восполняем пробел
* Zero-shot — создаём аудио, не основываясь на тренировочных данных.

Есть ещё JEN-1 Composer, который генерит мульти-треково, то есть каждый стем в отдельную дорожку, чтобы было легче дальше редактировать. Причём ему можно подавать на вход свои музыкальные наработки для каждого инструмента, и он сведёт их. Каких инструментов нет, может сгенерировать.

Также на днях к ним присоединился Mike Caren, ранее занимавший руководящие должности в Warner Music Group, Elektra Records + Atlantic Records. У него свой лейбл Artist Partner Group, также он писал и продюссировал треки Beyoncé, Kanye West, Bruno Mars.

Есть доки с описанием как тренировали и на каких данных.

Пощупать пока нельзя, но есть демки на их сайте.

1.61K viewsAndrey Bezryadin, 16:09

This media is not supported in your browser

VIEW IN TELEGRAM

Pika Labs тизерят свою обновлённую версию

Воссоздали реальную рекламу, на производство которой понадобилось 30 человек и месяц работы. Только со стороны Pika это сделал 1 человек за день.

Теперь скрестите это с генерацией музыки через JEN, или MusicGen, итд.

Придумывай название своему домашнему продакшену.

2.77K viewsAndrey Bezryadin, edited 17:03

1.31K viewsAndrey Bezryadin, 18:00

Дайджест:

📹 ВИДЕО + АРТ 🎨

Runway: улучшили генерацию на основе картинок, добавили раздел с историей генераций, внесли правки в контроль камеры и движения, а также добавили возможность расширить уже сгенерённую ранее картинку.

Колаб для latent consistency model (LCM), чтобы быстро генерить картинки и видео. Плюс генерация в реальном времени через SD, также через LCM.

На Snapdragon Summit тоже показали генерацию в реальном времени, только на телефоне без интернета и на 1 картинку уходит меньше секунды.

Orillusion: обновился до v 0.7 опенсорсный бесплатный игровой движок на основе WebGPU.

FreeNoise: метод для генерации длинных видео на основе VideoCrafter.

Cuebric: генерируем реалистичный 2,5D фон для видео.

Moonvalley: добавили к генерации видео сид и негативные промты для контроля.

CSM: можно бесплатно натренировать свою text-2-image лору через их дискорд бота.

PixArt-α: генератор картинок по качеству метящий в сторону SD и Midjourney.

SEINE: генерим видео из картинки с хорошей четкостью и стабильностью. Пока без кода.

ZeroNVS: генерация 3D и 360 сцен по картинке у нас уже были, а вот нерфы по одной картинке это что-то новое.

Игра Super Godot Galaxy прямо на Hugging Face. Тут коллекция AI-игр.

Twelve Labs: у которых годный сервис по поиску нужного футажа через его описание, выпустили модель Pegasus-1 для генерации детального описания видео и выжимки по нему.

🎸 ЗВУК 🎸

YouTube Music: теперь можно генерить обложку своим плейлистам.

AudioSet: модель для динамической разметки аудиоданных.

🤖 ЧАТЫ 🤖

QMoE: архитектура взаимодействия LLM-экспертов, позволяющая запустить LLM с более 1 триллиона параметров на 8x3090. Для сравнения по слухам у GPT-4 тоже гидра из экспертов каждый по 175B параметров, с общим числом параметров 1,5 триллионов или больше.

К Mistral пришили SeamlessM4T и теперь с ним можно общаться голосом на 100 языках. Есть и колаб.

HuggingFace: выпустили Alignment Handbook для наставления LLM моделей генерить нужным образом, и выкатили модель Zephyr-7B, которая на некоторых тестах показывает себя лучше ламы 70B.

Min-K% Prob: тестируем была ли модель натренирована на данных, защищённых авторским правом.

XAgent: новый AI-агент, который умеет планировать и выполнять задания, и работает изолированно через Docker.

TogetherComputer: выпустили датасет RedPajama V2 на основе 100B текстов из 84 снимков сети от CommonCrawl.

Microsoft: библиотека FP8-LM для эффективной и распределённой тренировки LLM.

Исследования:
* Рассматриваем оффлайн RLHF для LLM.
* Beyond U — ускоряем диффузионные модели и делаем их легче.
* Обучение на своих ошибках делает AI-модели рассудительнее.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Please open Telegram to view this post

VIEW IN TELEGRAM

1.67K viewsAndrey Bezryadin, 18:00

This media is not supported in your browser

VIEW IN TELEGRAM

Двойной 3D удар:

Wonder3D — закидываете картинку и вам генерятся виды плюс карты нормалей с разных точек обзора. Чтобы выдавался протекстурированный 3D меш надо поставить модель локально. Демо + гитхаб

Также появилась Zero123++, улучшенная версия генератора разных углов камеры по одной картинке. Здесь сам меш не генерится. Демо раз, и два, плюс гитхаб.

2K viewsAndrey Bezryadin, 10:44

Media is too big

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

Плагин Luma для UE обновился и теперь поддерживает гауссианы (Gaussian Splatting), позволяющие создавать сцены с высокой четкостью в реальном времени.

Можно со всех сторон снять на видео/фото объект или помещение, а дальше рулить пролётами камеры или вырезать фотореалистичные вещи и вставлять их в другие сцены, менять освещение, добавлять эффекты.

Плагин поддерживает рендеринг как полностью объемного формата (.luma) в нерф, так и интерактивных сцен, построенных на гауссианах (.ply) — не требуется никакой работы с форматами мешей, геометрией, материалами или потоками. Можно объединить в одной сцене нерфы и гауссианы.

На втором видео пример как это можно использовать в продакшене.

Плагин и инструкция

1.56K viewsAndrey Bezryadin, 11:52

This media is not supported in your browser

VIEW IN TELEGRAM

Genmo обновили генератор видео Replay до v 0.2 и теперь он может:

* генерить на основе картинки
* показывать в превью рендеринг в реальном времени
* выдавать разрешение больше 2К
* и длительность видео до 10 секунд

А я говорил здесь в комментах, что у нас будет 2К до конца года, вот только не думал что от Genmo. Время ещё есть, Pika ультра-чёткую бету уже тизерит. Runway пока молчит, хотя генераторов видео становится с каждым днём всё больше.

1.72K viewsAndrey Bezryadin, 12:51

Forwarded from Метаверсошная

This media is not supported in your browser

VIEW IN TELEGRAM

Абсолютное величие - Шэдоухарт отплясывает у кого-то в комнате.

Не знаю как это сделано, мое предположение - стащили модельку Шэдоухарт, анимировали через Mixamo, а потом закинули в FigminXR - приложение смешанной реальности на шлеме квест 3.

Я недавно кстати купила это приложение - там можно рисовать как в Tilt Brush (потому что они заколлабились), можно создавать воксельные модели, можно загружать готовые модели со sketchfab.
Как разберусь - выложу что-нибудь ~~танцующего Леона из резидента~~

(ну вот, в комментариях подсказывают, что сделано в Virt-a-mate, а в нем чтоб разобраться - надо три высших образования получить 😞)

Please open Telegram to view this post

VIEW IN TELEGRAM

1.49K viewsAndrey Bezryadin, 13:52

This media is not supported in your browser

VIEW IN TELEGRAM

PERF: генерация нерф сцен, но на основе панорам. Результат по глубине и четкости выглядит неплохо, хотя Flythrough от Lumа будет качественней и удобнее. Саму панораму можно сгенерировать например тут. Модель пригодится для преобразования панорам в 3D, генерации из текста в 3D, стилизации 3D-сцен.

Сайт

1.78K viewsAndrey Bezryadin, 14:51