Psy Eyes
6.79K subscribers
1.45K photos
1.57K videos
6 files
1.56K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
Moonvalley: новая модель для генерации видео.

Работает в дискорде. Пишем промт, указываем стиль, задаём длительность — забираем видос. Промт хорошо понимается, кипения не видно. Пока нет анимации на основе картинок и контроля кадра рульками влево/вправо или негативными промтами. Но судя по тому как резво все видео генераторы себе эти фичи добавляют тут особой магии нет. Причем в комментах найдёте видео, показывающее что у них планируется даже анимирование кадра стрелочками как в DragNUWA.

Доступные стили: комикс, фэнтези, аниме, реализм, 3D анимация. Длительность: 1 секунда (генерится 2-5 минут) до 5 секунд (генерится 8-12 минут).

Сайт
This media is not supported in your browser
VIEW IN TELEGRAM
Чёрная техно-магия от Simulon.

Фонарик затречен с помощью Geotracker от KeenTools.
Гайд по промтам для генерации музыки от Stable Audio:

* Указываем жанр
* Геолокацию
* Десятилетие
* Желаемые инструменты
* Семплер (см. первое видео видео)
* Контекст, например "mau5trap label"
* Описываем подробно атмосферу и настроение

Промты:

1) Minimal Techno, "insert SAMPLER", New York, 2000s, Roland TR-606, Waldorf Blofeld, Sleek art galleries, Subtle, repetitive, deep

2) Synthwave, Los Angeles, 1980s, Roland Juno-106, LinnDrum, Neon-lit night drives, Retro, dreamy, pulsating

3) Progressive House, Stockholm, 2000s, Roland TB-303, Sylenth1 synthesizer, Midnight dance festivals, Uplifting, melodic, expansive
Дайджест:

📹 ВИДЕО + АРТ 🎨

Hotshot-XL: расширенная версия генератора гифок — есть контроль размера, сида, лор, и негативный промт.

Dream Gaussian: генерим 3D с помощью гауссианов.

Adobe: выкатили Firefly 2, который лучше понимает окружение, работает с цветами и анатомией человека, ловчей работает с промтами, додумывая многое за пользователя.

Генерируем пиксель арт на основе SDXL.

Luma: теперь можно сконвертировать 5 ранее созданных нерфов в гауссианы.

Google: интегрировали генерацию картинок в поиск. Пока работает только у некоторых пользователей.

VideoCrafter1: новая text-2-video модель, генерящая по тексту или с картинки с максимальным разрешением 576x1024.

Show-1: заодно появился код ещё одной text-2-video модели.

Looking Glass: создатели голографических дисплеев дали возможность пользователям создавать кастомные аватары (Lifeforms) с 18 голосами на выбор.

🎸 ЗВУК 🎸

Eleven Labs: дублируем ролики на разные языки (включая русский) с сохранением интонации.

AudioSep: вырезаем из аудио нужный звук с помощью текста.

StabilityAI: выпустили инструменты для тренировки своих музыкальных моделей.

🤖 ЧАТЫ 🤖

Локально тренируем нейронку (файнтюним Mistral) на собственных текстах, чтобы иметь на руках модель общающуюся в своём стиле. Плюс ещё твит на эту тему. Поддерживается DeepSpeed для распределённой трени или PEFT если есть ограничения по GPU.

Replit: обновили одну из лучших моделей для генерации кода до v 1.5.

Octopus: визуальная языковая модель (VLM), которая может играть в GTA.

RAFA: новый AI-агент, который умеет планировать работу и давать пояснения.

Lemur: опенсорсная LLM (языковая модель) размером 70B, которая близка к ChatGPT на бенчах AI-агентов.

Модель для получения текста из видео на английском и его перевода на любой из 200 языков.

MiniGPT v2: обновлённая версия VLM для чата по картинкам.

Neural Magic: сделали модель MPT Sparse, которая шустро работает на CPU.

InternLM-XComposer: модель для генерации статей с иллюстрациями.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Писать музыку становится проще — в свободном доступе появился MIDI генератор для Ableton под названием MIDIjourney.

Качаете .amxd файл с гитхаба в Releases. Затем закидываете его в аблетон и у вас появляется две панельки: одна с настройками, другая для генерации. Для обработки промта нужен API ключ OpenAI. Его можно взять зарегавшись на их сайте. Они дают на халяву $5 кредитами, так что для тестов хватит. Чтобы зарегаться на сайте понадобится VPN, но генерация в MIDIjourney работает и без него.

Настройки:
* Temperature — хаотичность генерации
* GPT-3.5 / GPT-4 — какая из моделей OpenAI будет отвечать за промт. Разницы особо не заметил.
* History — история промтов, переключается точками сниз на панели для генерации.

Касательно промта, чем детальнее вы его опишите, тем лучше. Нейронка добавит от себя детали с техническим описанием звучания. Сгенерированные MIDI можно редактировать, добавлять эффекты, перекидывать между разными инструментами и смотреть как меняется звук. Генерацию можно продолжить выделив нужный MIDI и написав в промте Continue. Ручками всё равно придётся поработать — навыки никто не отменял.

Таким образом вы и работаете на практике, и изучаете азы написания музыки.

Спросил про использование локальных моделей вроде ламы, Mistral, StableLM вместо OpenAI — сказали, что мысль интересная и посмотрят что можно сделать. В другие DAW вроде FL или Logic можно будет добавить этот инструмент как VST плагин.

MIDIjourney это разработка Korus, которые являются частью Pixelynx. Они разрабатывают и другие интересные вещи связанные с нейронками: в частности возможность генерировать в пару кликов ремиксы на лицензированные треки артистов. Причём вы будете владеть своим ремиксом, и можете свободно его дистрибить и другими способами монетизировать.

Гитхаб
Это видео на YouTube
Коль в прошлом посте прозвучали в одном предложении слова дистрибуция и монетизация, а нейронки с каждым днём всё сильнее опускают порог для входа в музыку, новой волне артистов не будет лишним узнать как работает индустрия изнутри со всеми её препятствиями и болями, связанными с их преодолением. Даниель у меня давно в папке по музыке, нравится его честный взгляд и инсайды. Он продюсировал артистов, организовывал туры, снимал клипы,.. есть что человеку рассказать. Залетайте @harvestxpro
This media is not supported in your browser
VIEW IN TELEGRAM
Morph Studio добавили генерацию видео в 1080p и расширили длительность до 7 секунд.

Ждём контроль камеры и объектов в кадре?

Дискорд
В телегу наконец-то завезли просмотр статистики каналов и чатов с десктопа. Боже как долго я этого ждал!
Дайджест:

📹 ВИДЕО + АРТ 🎨

FreeU: получил обновление, которое улучшает работу со структурой и появилась поддержка SDXL. Тут можно сравнить с и без FreeU.

StableFast: колаб для быстрой генерации в SD. Пожалуй, не такой быстрой как на TPU, но всё же.

Latent Consistency Model: ещё моделька для быстрой генерации.

NijiJourney: выпустили мобильную апу на Android и iOS.

Nvidia: выпустили драйвер + тулзу TensorRT ускоряющую в разы генерацию в SD 1.5 и 2.1 (SDXL подъедет позже). Расширение для A1111 в наличии.

Intel: тоже релизнули инструмент OpenVINO, ускоряющий генерации в A1111, если у вас видеокарта Intel Arc.

Show-1: демо опенсорсной text-2-video модели.

VideoCrafter1: тоже появилось демо.

SplatVFX: можно поиграться с гауссианами в Unity.

3D-GPT: процедурная генерация 3D окружения по тексту.

Phygital+: добавили поддержку ControlNet XL, автоматическую маску, и другие плюшки.

Music-2-image: генерим картинку на основе музыки.

SadTalker: расширенное демо модели для липсинка.

Adobe: на конференции Adobe Max сделали множество интересных анонсов касательно редактирования видео, генерации векторных изображений, дубляжа, итд.

🎸 ЗВУК 🎸

Universal подали в суд на Anthropic за то, что те в результатах генерации выдают тексты песен без разрешения авторов и лицензирования.

Лидерборд моделей по распознаванию речи. Мне кажется тут далеко не всё, хотя бы потому что тут нет XTTS. Но коль он открытый можно попросить добавить.

PlayHT: выпустили версию 2 Turbo очень быстрой генерации голоса по тексту (меньше 300 мс).

SALMONN: берем на вход музыку или другое аудио, чтобы чатиться по нему.

LAION: выпустили модель CLARA для генерирования речи с учётом эмоций и других звуковых особенностей.

В апдейте Gradio v4 будет обновлённый музыкальный плеер.

🤖 ЧАТЫ 🤖

AutoMix: фреймворк для коллаба между маленькими и большими языковыми моделями при решении задач.

OpenAgents: AI-агенты для решения задач в вебе, работе с данными, и плагинами. Нужен API от OpenAI.

PrivateGPT: чатимся с AI локально в своём браузере. Приватные данные данные не покидают ваш комп.

Голосовой чат с Mistral 7B.

Flappy: библиотека, помогающая ускорить разработку AI-приложений.

Microsoft: демо AI-агентов Autogen. Нужен API от OpenAI.

H2O: фреймворк для развертывания и тестирования опенсорсных LLM.

Zephyr 7B: чат зафайнтюненный на Mistral.

Ensemble-Instruct: создаём инструкции для генерации с помощью коллаба маленьких LM экспертов. Подход показывает себя лучше работы с крупной нефайнтюненой моделью.

Sotopia.world: AI-агенты, которые заточены на решение сложных социальных задач.

AgentVerse: эти AI-агенты обновились и для выдачи задания нужно лишь сделать текстовый конфиг файл. Также появилось демо.

Intel: выпустили фреймворк для ускорения работы llama.cpp на процессорах Intel Xeon Scalable.

SEED-LLama: демо чата по картинкам (VLM).

V3Det: датасет для визуального распознавания объектов.

Метод улучшения генерации 3D через по-пиксельный градиентный клиппинг.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Плагин Cutout для Figma, позволяющий быстро выделять объекты на фото и добавлять их в проект. Работает на связке SAM + Hugging Face Candle.

1) Запускаете плагин и выбираете картинку
2) Ждёте пока изображение просканируется
3) Кликаете на объекты, которые нужно выделить
4) Нажимаете на Cut out object чтобы добавить его в проект в фигме
This media is not supported in your browser
VIEW IN TELEGRAM
Не смотря на то, что AudioCraft + его расширенная версия AudioCraft Plus уже давно лежат в сети, на Hugging Face появилось демо маленькой модели для генерации музыки на основе MusicGen. На удивление структурно хороший звук выдаёт, да ещё и во FLAC. За 30 секунд ожидания генерирует 30 секунд аудио, что означает к этому вполне можно прикрутить Gradio интерфейс с поддержкой стриминга аудио, чтобы нажать и сразу слушать что получается пока остальное рендерится.

Не могу сказать, что результат сгенерированное бьётся с промтом, нужно поиграться. На той же странице есть ссылки среднюю, крупную, и мелодичную модели, которые по идее должны лучше следовать тексту и выдавать куски длиннее, но для работы с ними их нужно гонять локально или арендовать на хаггинге GPU. Для локалки пробуйте использовать CoffeeVampir3.

На видео почему-то шумы, хотя в самом аудио их нет — в комментах парочка сгенерированных оригиналов.

Попробовать
This media is not supported in your browser
VIEW IN TELEGRAM
Midjourney на днях выкатили четырёхкратное повышения разрешения картинки. Просто после генерации жмёшь Upscale x4 и получаешь более детализированный вариант без непрошенных артефактов.

Тем временем в SD народ уже ваяет гигапиксельные арты...

Заодно вот гайд для апскейла изображения до 8К без топового железа. Интересно было бы этот метод сравнить с топазом и данной вещью от Stability.
Hugging Face представили Gradio Lite для запуска AI-моделей прямо в вашем браузере.

Плюшки:
* Никаких серверов: всё работает локально на вашем компьютере. Это упрощает развёртывание AI-приложений, сокращает издержки на сервера, и упрощает возможность шарить свои приложения.

* Высокая скорость: данным не нужно ходить до серверов и обратно, что делает работу с приложениями быстрой и плавной.

* Приватность и безопасность: ваши данные не покидают компьютер и не шарятся с корпоратами для тренировки на них.

Кстати тут недавно вышел PyTorch 2.1 и там есть "distributed.checkpointing" для параллельного сохранения/загрузки моделей из множества ранков и решардинга если структура кластера поменялась (ноды выпали или прибавились). Посмотрим, может скрестят как.

Авось и WebGPU для генерации видюхой в браузере без установок чего-либо как-то смогут приспособить.

Анонс
Playground
Пример
This media is not supported in your browser
VIEW IN TELEGRAM
Meshy выпустили Meshy-1 для генерации текстурированного 3D по промту.

Есть поддержка 4к, экспорт в 3D форматы, и обещают в 30 раз более быструю генерацию.

Сайт
Riffusion vs Suno

В обоих вариантах описание звучания и тексты сгенерированы.

У Riffusion обложки по-краше и качество звучания из коробки повыше. Но из 12 секунд отданных на генерацию много пустого места. Можно через Remix вручную расставить тайминги слов и заполнить пробелы, но без таймлайна это дико не удобно, равно что в слепую + изменения меняют звучание всего трека. Но можно скачать стемы и править в аудиоредакторе — вот это годно.

Suno тем временем даёт более длинные результаты по ~40 секунд, и звучат они весьма гармонично. Причём, как мелодия так и вокал. В примере лирика короткая, а так то он когда генерит сам часто на весь хрон выдаёт результат. Качество здесь ниже, думаю потому что генерятся более длинные куски, но AudioSR может это исправить и сравнять разницу. Разбивки на стемы не хватает, но я думаю это дело времени.