Psy Eyes
6.8K subscribers
1.43K photos
1.56K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Eleven Labs: выпустили Scribe 2 Realtime для генерации текста из речи.

Модель заточена работать в реальном времени на 90 языках, и подходит для агентов с голосовым режимом, получения субтитров, перевода, итд. Но фокус на агентах.

В отличие от предыдущей модели в линейке Scribe 2 Realtime лучше справляется с паузами, дыханиями, и шумами присущими человеческой речи.

Уже завезли в API.

Сайт
Анонс
Media is too big
VIEW IN TELEGRAM
Suno: генератор музыки обновил Studio до v 1.1.

Что нового:
* Появился эквалайзер, которым можно влиять на звучание дорожки, регулируя частоты и громкость.
* Стемы вытаскиваются из треков за ~10 сек вместо ~2 минут.
* Можно менять стиль (cover) определённой области стема, позволяя преобразовать свои завывания в целевой инструмент, или, скажем, пианино в гитарку.

Сайт
YouTube
Media is too big
VIEW IN TELEGRAM
Ещё любопытное от Suno.

Они на главной сделали вкладку Labs, куда запихнули свои экспериментальные проекты:

* Explore — музыкальное "поле чудес", где ты крутишь барабан и открываешь для себя новые жанры музыки, включая чисто сгенерированные. Обожают этот UI/UX.
* Sunoverse — галактических размеров карта, где звёздами отображаются треки сгенерированные в Suno, а в межзвёздном пространстве ютятся названия жанров.
* Live Radio — радиостанция, где народ голосует ноток какого жанра добавить в потоковое вещание, чтобы повлиять на общее звучание музыки. Так сказать какой шум подмешать в бесконечный латентный шумный эфир, лишённый шума кожаных новостей и трёпа.

По сути все три это исследование и поиск альтернативного UI/UX для потребления музыкального контента во времена переизбытка информации.

Из этих трёх я как-то только сейчас заметил Sunoverse. Кликанье на рандомные звёзды и резвый зум с воспроизведением неизведанного интересно не сильно долго, ибо зачастую треки в паблике ещё сгенерированы в древних версиях Suno и "качественно" режут слух. Просто брожение по карте не сильно затягивает тоже, в том числе и потому что границы условны и близлежащие треки могут быть сильно разными. Если ты знаешь чего хочешь, есть поиск и ты можешь вбить 90s nu-metal, чтобы метнуться и потыкать пару другую треков. Но прослушанные композиции с карты не заменяются новыми, а запоминать что ты слушал и где так себе идея. Скорость и доступность это ключевое.

Заодно вот вам ещё пару карт для исследования музыкального пространства (спс @JohnDoe171):

* Ishkur's Guide to Electronic Music
* Every Noise at Once

В любом случае Suno, в отличие от традиционный части музыкальной индустрии (пусть они к ней теперь ближе), пробуют и экспериментируют. Что уважаемо!

Сайт
Tencent: выпустили мультимодальный генератор картинок Хуньянь Image 3 Instruct.

В отличие от базовой версии выпущенной ранее, Instruct сфокусирован на редактировании картинки текстом и генерации изображений на основе нескольких рефов. Наличие CoT рассуждений перед генерацией помогает улучшить итоговые результаты.

Модель огромная — 80B MoE из которых 13B активных, так что это облачное решение. Но можно залогиниться у них на сайте переключившись на английский и погонять пока не упрёмся в лимиты.

Промту следует хорошо. Кота вписал в окружение с четким пересчётом освещения и с сохранением деталей одежды, аксессуаров и надписей. Может пригодиться когда банана не под рукой или кончились кредиты. В Comfy, Fal, Replicate и ко пока не видно.

Демо
Анонс
Invoke с октября как-то не выпускали обновлений и пропали с радаров. Оказалось их купил Adobe и команда Invoke перешла к ним, закрыв коммерческую часть проекта и твиттер аккаунт.

Однако опенсорсная часть выжила под названием Community Edition и на гитхабе мейнтейнеры те же. Это значит, что проект продолжит развиваться, но обновления будут выходить реже.

И вот впервые за долгое время появился апдейт. В нём добавили поддержку моделей Z-image, PBR карт, указания веса слова в промте, экспорт выделенного маской региона, и не только.

Если у вас аллергия на вермишель и вы искали привычный интерефейс для генерации картинок, то Invoke вам может подойти. А при желании с Comfy-лапшой можно поработать и в нём, перейдя в раздел workflow.

Сайт
Гитхаб
3D контроль камеры для Qwen Image Edit 2511. До этого в демо была 2509 версия.

Мультикам лору натренировали Fal, она на хаггинге.

Comfy воркфлоу у них на гитхабе для шаблонов.

Ноду можно поставить через менеджер когда импортируете воркфлоу или с гитхаба. Если будет ругаться на каналы ставьте не nightly версию ноды а какую-нибудь из номерных стабильных под ней.

Демо
Хаггинг
Воркфлоу
Гитхаб
Comfy: в своём облаке увеличили количество контента, которое можно сгенерить за ту же цену подписки.

Я правда не пойму как они считают ибо цифры из поста не бьются с указанными на их сайте. Там ещё и если нажать на детали, то выясниться что время для генерации прикинуто из расчёта, что мы будем генерить 640х640, 16 fps, 4-шаговой лорой... а будет не так.

Но учитывая, что в большинстве случаев новые модели стартуют с ворками для Comfy, API ноды быстро добавляются, есть импорт моделей с Hugging Face и CivitAI, а гоняется всё на RTX6000 с 96 ГБ VRAM, предложение может быть интересным для тех, кто ищет всё в одном месте. Тем более, что упрощённый Simple интерфейс есть пока только в облачной версии.

А если чувствуешь, что подписку за месяц не израсходуешь или мощная машина уже есть, то можно обойтись оплатой только за API вызовы в локальном Comfy.

Кто-то уже пробовал их подписку/оплату за API вызовы с компа?

Сайт
Твит
Про Comfy Cloud
по горячим следам
Forwarded from дAI потестить!
Пару слов о ComfyUI Cloud (http://cloud.comfy.org)

1. Нужных нод нет, поэтому запустить можно только то, что лежит в шаблонах ComfyUI. Кстати, библиотека шаблонов заметно меньше, чем у локального ComfyUI.
2. "Свои" LoRA и модели можно добавить только с тарифа Creator (35 $). Но зачем - неясно: нужных нод нет.
3. Консоль всегда девственно чиста. Почему ворк не запустился, можно понять только при наличии опыта победы в 11-м сезоне "Битвы экстрасенсов".
4. Ворк обновляется не последовательно, как при локальных вычислениях, а целиком. Делать предпросмотр картинки где нить посередине ворка бессмысленно.
5. Регулярные дисконнекты.

Для кого это нужно - мне пока не ясно.
Исследовать новое - нет нод.
Катать свои ворки - нет нод.
Собирать свои ворки и запускать в облаке - правильно. Нет нод.

Мой вывод: нет железа - арендуй сервер.

Где арендовать:
- clore.ai (дешево)
- simplepod.ai
- gpudc.ru (рубли, Windows)
- massedcompute.com

Пару ссылок, которые помогут развернуть ComfyUI:
https://github.com/Tavris1/ComfyUI-Easy-Install
https://github.com/ai-dock/comfyui

Готовые сборки ComfyUI:
t.me/prompt_by_art
https://huggingface.co/OreX/ComfyUI/tree/main

P.S. Могли бы хоть внешний Api прикрутить, чтобы использовать их как сервер. Этого тоже пока нет🙁
Luma: выпустили видеогенератор Ray3.14 (как Rape Me у Nirvana только "рэйпи").

Что нового:
* Нативное 1080p (я думал оно у них уже было)
* 720p генерит в 4 раза быстрее и в 3 раза дешевле
* Улучшения в стабильности, детализации видео, и следованию промту
* Работает с текстом, картинками и видосами на входе
* Изменение объектов на видео длиной до 18 сек

На бесплатном тарифе можно в режиме драфта погенерить. Правда неизвестно сколько времени это займёт.

По ценам: 20 кредитов/сек.

PS: сегодня Rape Me это песня, которую поёт кошелек.

Сайт
Анонс