Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
В телегу наконец-то завезли просмотр статистики каналов и чатов с десктопа. Боже как долго я этого ждал!
Дайджест:

📹 ВИДЕО + АРТ 🎨

FreeU: получил обновление, которое улучшает работу со структурой и появилась поддержка SDXL. Тут можно сравнить с и без FreeU.

StableFast: колаб для быстрой генерации в SD. Пожалуй, не такой быстрой как на TPU, но всё же.

Latent Consistency Model: ещё моделька для быстрой генерации.

NijiJourney: выпустили мобильную апу на Android и iOS.

Nvidia: выпустили драйвер + тулзу TensorRT ускоряющую в разы генерацию в SD 1.5 и 2.1 (SDXL подъедет позже). Расширение для A1111 в наличии.

Intel: тоже релизнули инструмент OpenVINO, ускоряющий генерации в A1111, если у вас видеокарта Intel Arc.

Show-1: демо опенсорсной text-2-video модели.

VideoCrafter1: тоже появилось демо.

SplatVFX: можно поиграться с гауссианами в Unity.

3D-GPT: процедурная генерация 3D окружения по тексту.

Phygital+: добавили поддержку ControlNet XL, автоматическую маску, и другие плюшки.

Music-2-image: генерим картинку на основе музыки.

SadTalker: расширенное демо модели для липсинка.

Adobe: на конференции Adobe Max сделали множество интересных анонсов касательно редактирования видео, генерации векторных изображений, дубляжа, итд.

🎸 ЗВУК 🎸

Universal подали в суд на Anthropic за то, что те в результатах генерации выдают тексты песен без разрешения авторов и лицензирования.

Лидерборд моделей по распознаванию речи. Мне кажется тут далеко не всё, хотя бы потому что тут нет XTTS. Но коль он открытый можно попросить добавить.

PlayHT: выпустили версию 2 Turbo очень быстрой генерации голоса по тексту (меньше 300 мс).

SALMONN: берем на вход музыку или другое аудио, чтобы чатиться по нему.

LAION: выпустили модель CLARA для генерирования речи с учётом эмоций и других звуковых особенностей.

В апдейте Gradio v4 будет обновлённый музыкальный плеер.

🤖 ЧАТЫ 🤖

AutoMix: фреймворк для коллаба между маленькими и большими языковыми моделями при решении задач.

OpenAgents: AI-агенты для решения задач в вебе, работе с данными, и плагинами. Нужен API от OpenAI.

PrivateGPT: чатимся с AI локально в своём браузере. Приватные данные данные не покидают ваш комп.

Голосовой чат с Mistral 7B.

Flappy: библиотека, помогающая ускорить разработку AI-приложений.

Microsoft: демо AI-агентов Autogen. Нужен API от OpenAI.

H2O: фреймворк для развертывания и тестирования опенсорсных LLM.

Zephyr 7B: чат зафайнтюненный на Mistral.

Ensemble-Instruct: создаём инструкции для генерации с помощью коллаба маленьких LM экспертов. Подход показывает себя лучше работы с крупной нефайнтюненой моделью.

Sotopia.world: AI-агенты, которые заточены на решение сложных социальных задач.

AgentVerse: эти AI-агенты обновились и для выдачи задания нужно лишь сделать текстовый конфиг файл. Также появилось демо.

Intel: выпустили фреймворк для ускорения работы llama.cpp на процессорах Intel Xeon Scalable.

SEED-LLama: демо чата по картинкам (VLM).

V3Det: датасет для визуального распознавания объектов.

Метод улучшения генерации 3D через по-пиксельный градиентный клиппинг.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Плагин Cutout для Figma, позволяющий быстро выделять объекты на фото и добавлять их в проект. Работает на связке SAM + Hugging Face Candle.

1) Запускаете плагин и выбираете картинку
2) Ждёте пока изображение просканируется
3) Кликаете на объекты, которые нужно выделить
4) Нажимаете на Cut out object чтобы добавить его в проект в фигме
This media is not supported in your browser
VIEW IN TELEGRAM
Не смотря на то, что AudioCraft + его расширенная версия AudioCraft Plus уже давно лежат в сети, на Hugging Face появилось демо маленькой модели для генерации музыки на основе MusicGen. На удивление структурно хороший звук выдаёт, да ещё и во FLAC. За 30 секунд ожидания генерирует 30 секунд аудио, что означает к этому вполне можно прикрутить Gradio интерфейс с поддержкой стриминга аудио, чтобы нажать и сразу слушать что получается пока остальное рендерится.

Не могу сказать, что результат сгенерированное бьётся с промтом, нужно поиграться. На той же странице есть ссылки среднюю, крупную, и мелодичную модели, которые по идее должны лучше следовать тексту и выдавать куски длиннее, но для работы с ними их нужно гонять локально или арендовать на хаггинге GPU. Для локалки пробуйте использовать CoffeeVampir3.

На видео почему-то шумы, хотя в самом аудио их нет — в комментах парочка сгенерированных оригиналов.

Попробовать
This media is not supported in your browser
VIEW IN TELEGRAM
Midjourney на днях выкатили четырёхкратное повышения разрешения картинки. Просто после генерации жмёшь Upscale x4 и получаешь более детализированный вариант без непрошенных артефактов.

Тем временем в SD народ уже ваяет гигапиксельные арты...

Заодно вот гайд для апскейла изображения до 8К без топового железа. Интересно было бы этот метод сравнить с топазом и данной вещью от Stability.
Hugging Face представили Gradio Lite для запуска AI-моделей прямо в вашем браузере.

Плюшки:
* Никаких серверов: всё работает локально на вашем компьютере. Это упрощает развёртывание AI-приложений, сокращает издержки на сервера, и упрощает возможность шарить свои приложения.

* Высокая скорость: данным не нужно ходить до серверов и обратно, что делает работу с приложениями быстрой и плавной.

* Приватность и безопасность: ваши данные не покидают компьютер и не шарятся с корпоратами для тренировки на них.

Кстати тут недавно вышел PyTorch 2.1 и там есть "distributed.checkpointing" для параллельного сохранения/загрузки моделей из множества ранков и решардинга если структура кластера поменялась (ноды выпали или прибавились). Посмотрим, может скрестят как.

Авось и WebGPU для генерации видюхой в браузере без установок чего-либо как-то смогут приспособить.

Анонс
Playground
Пример
This media is not supported in your browser
VIEW IN TELEGRAM
Meshy выпустили Meshy-1 для генерации текстурированного 3D по промту.

Есть поддержка 4к, экспорт в 3D форматы, и обещают в 30 раз более быструю генерацию.

Сайт
Riffusion vs Suno

В обоих вариантах описание звучания и тексты сгенерированы.

У Riffusion обложки по-краше и качество звучания из коробки повыше. Но из 12 секунд отданных на генерацию много пустого места. Можно через Remix вручную расставить тайминги слов и заполнить пробелы, но без таймлайна это дико не удобно, равно что в слепую + изменения меняют звучание всего трека. Но можно скачать стемы и править в аудиоредакторе — вот это годно.

Suno тем временем даёт более длинные результаты по ~40 секунд, и звучат они весьма гармонично. Причём, как мелодия так и вокал. В примере лирика короткая, а так то он когда генерит сам часто на весь хрон выдаёт результат. Качество здесь ниже, думаю потому что генерятся более длинные куски, но AudioSR может это исправить и сравнять разницу. Разбивки на стемы не хватает, но я думаю это дело времени.
This media is not supported in your browser
VIEW IN TELEGRAM
Я пару раз уже упоминал Hotshot в дайджестах, но оно стоит отдельного поста.

Примечателен Hotshot тем, что генерит гифки/видео на основе SDXL и его лорах, а также очень хорошо следует промту. В отличие от Runway, Pika и прочих здесь я с ходу начал получать практически то, что нужно и считай каждую генерацию сохранял себе. И это даже в простой версии на сайте без негативных промтов и других крутилок расширенной версии на хаггинге. Отличное понимание анатомии, без вплетения непрошенного, а также угадывание желаемых движений камеры. Есть поддержка ControlNet и надписей в кадре (мульти-контролнет в пути). А учитывая, что я видел в превью чужих генераций на сайте, цензура тут довольно лайтовая.

Внимательные подписчики нашли гитхаб проекта и возможность генерить с помощью этой модели видео. По умолчанию Hotshot выдаёт 1 секунду в 8 FPS на 672х384, но длительность, фреймрейт, и разрешение можно менять при работе локально, например поставив 24 FPS. Можно попробовать и через Flowframes повысить фреймрейт ради интереса. А разрешение через топаз и его опенсорсные аналоги.

Сайт
Расширенная версия (HF)
Гитхаб
LAMP — новая опенсорсная text-2-video модель. Первый фрейм генерится через SDXL и он служит основой для всех последующих. Работает как для генерации видео по тексту, так и для стайлтрансфера, хотя render-a-video в этом плане выглядит стабильнее.

Из интересного: можно скормить 8~16 видосов и натренировать генерить конкретное движение в кадре (для трени надо минимум 15+ ГБ видеопамяти). Своего-рода ControlNet.

Можно попробовать анимировать нетекстурированную 3D сцену в блендере и скормить полученные видосы LAMP . Например, стайлтрансфер в Runway GEN-1 в сочетании с голым 3D вполне норм работает, что видно на втором видео (взято с твиттера).

Сайт
Гитхаб
This media is not supported in your browser
VIEW IN TELEGRAM
Занятно, что Riffusion даже вздохи генерирует при выводе вокала.
This media is not supported in your browser
VIEW IN TELEGRAM
Новая модель для генерации музыки по тексту — JEN-1.

Из интересного:
* Выдаёт гармоничный звук хорошего качества
* Можно генерить вариации
* Inpaiting — вписываем нужный звук в трек
* Continuation — генерим продолжение звука или восполняем пробел
* Zero-shot — создаём аудио, не основываясь на тренировочных данных.

Есть ещё JEN-1 Composer, который генерит мульти-треково, то есть каждый стем в отдельную дорожку, чтобы было легче дальше редактировать. Причём ему можно подавать на вход свои музыкальные наработки для каждого инструмента, и он сведёт их. Каких инструментов нет, может сгенерировать.

Также на днях к ним присоединился Mike Caren, ранее занимавший руководящие должности в Warner Music Group, Elektra Records + Atlantic Records. У него свой лейбл Artist Partner Group, также он писал и продюссировал треки Beyoncé, Kanye West, Bruno Mars.

Есть доки с описанием как тренировали и на каких данных.

Пощупать пока нельзя, но есть демки на их сайте.
This media is not supported in your browser
VIEW IN TELEGRAM
Pika Labs тизерят свою обновлённую версию

Воссоздали реальную рекламу, на производство которой понадобилось 30 человек и месяц работы. Только со стороны Pika это сделал 1 человек за день.

Теперь скрестите это с генерацией музыки через JEN, или MusicGen, итд.

Придумывай название своему домашнему продакшену.
Дайджест:

📹 ВИДЕО + АРТ 🎨

Runway: улучшили генерацию на основе картинок, добавили раздел с историей генераций, внесли правки в контроль камеры и движения, а также добавили возможность расширить уже сгенерённую ранее картинку.

Колаб для latent consistency model (LCM), чтобы быстро генерить картинки и видео. Плюс генерация в реальном времени через SD, также через LCM.

На Snapdragon Summit тоже показали генерацию в реальном времени, только на телефоне без интернета и на 1 картинку уходит меньше секунды.

Orillusion: обновился до v 0.7 опенсорсный бесплатный игровой движок на основе WebGPU.

FreeNoise: метод для генерации длинных видео на основе VideoCrafter.

Cuebric: генерируем реалистичный 2,5D фон для видео.

Moonvalley: добавили к генерации видео сид и негативные промты для контроля.

CSM: можно бесплатно натренировать свою text-2-image лору через их дискорд бота.

PixArt-α: генератор картинок по качеству метящий в сторону SD и Midjourney.

SEINE: генерим видео из картинки с хорошей четкостью и стабильностью. Пока без кода.

ZeroNVS: генерация 3D и 360 сцен по картинке у нас уже были, а вот нерфы по одной картинке это что-то новое.

Игра Super Godot Galaxy прямо на Hugging Face. Тут коллекция AI-игр.

Twelve Labs: у которых годный сервис по поиску нужного футажа через его описание, выпустили модель Pegasus-1 для генерации детального описания видео и выжимки по нему.

🎸 ЗВУК 🎸

YouTube Music: теперь можно генерить обложку своим плейлистам.

AudioSet: модель для динамической разметки аудиоданных.

🤖 ЧАТЫ 🤖

QMoE: архитектура взаимодействия LLM-экспертов, позволяющая запустить LLM с более 1 триллиона параметров на 8x3090. Для сравнения по слухам у GPT-4 тоже гидра из экспертов каждый по 175B параметров, с общим числом параметров 1,5 триллионов или больше.

К Mistral пришили SeamlessM4T и теперь с ним можно общаться голосом на 100 языках. Есть и колаб.

HuggingFace: выпустили Alignment Handbook для наставления LLM моделей генерить нужным образом, и выкатили модель Zephyr-7B, которая на некоторых тестах показывает себя лучше ламы 70B.

Min-K% Prob: тестируем была ли модель натренирована на данных, защищённых авторским правом.

XAgent: новый AI-агент, который умеет планировать и выполнять задания, и работает изолированно через Docker.

TogetherComputer: выпустили датасет RedPajama V2 на основе 100B текстов из 84 снимков сети от CommonCrawl.

Microsoft: библиотека FP8-LM для эффективной и распределённой тренировки LLM.

Исследования:
* Рассматриваем оффлайн RLHF для LLM.
* Beyond U — ускоряем диффузионные модели и делаем их легче.
* Обучение на своих ошибках делает AI-модели рассудительнее.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
Двойной 3D удар:

Wonder3D — закидываете картинку и вам генерятся виды плюс карты нормалей с разных точек обзора. Чтобы выдавался протекстурированный 3D меш надо поставить модель локально. Демо + гитхаб

Также появилась Zero123++, улучшенная версия генератора разных углов камеры по одной картинке. Здесь сам меш не генерится. Демо раз, и два, плюс гитхаб.