This media is not supported in your browser
VIEW IN TELEGRAM
Eleven Labs: выпустили Scribe 2 Realtime для генерации текста из речи.
Модель заточена работать в реальном времени на 90 языках, и подходит для агентов с голосовым режимом, получения субтитров, перевода, итд. Но фокус на агентах.
В отличие от предыдущей модели в линейке Scribe 2 Realtime лучше справляется с паузами, дыханиями, и шумами присущими человеческой речи.
Уже завезли в API.
Сайт
Анонс
Модель заточена работать в реальном времени на 90 языках, и подходит для агентов с голосовым режимом, получения субтитров, перевода, итд. Но фокус на агентах.
В отличие от предыдущей модели в линейке Scribe 2 Realtime лучше справляется с паузами, дыханиями, и шумами присущими человеческой речи.
Уже завезли в API.
Сайт
Анонс
Media is too big
VIEW IN TELEGRAM
Suno: генератор музыки обновил Studio до v 1.1.
Что нового:
* Появился эквалайзер, которым можно влиять на звучание дорожки, регулируя частоты и громкость.
* Стемы вытаскиваются из треков за ~10 сек вместо ~2 минут.
* Можно менять стиль (cover) определённой области стема, позволяя преобразовать свои завывания в целевой инструмент, или, скажем, пианино в гитарку.
Сайт
YouTube
Что нового:
* Появился эквалайзер, которым можно влиять на звучание дорожки, регулируя частоты и громкость.
* Стемы вытаскиваются из треков за ~10 сек вместо ~2 минут.
* Можно менять стиль (cover) определённой области стема, позволяя преобразовать свои завывания в целевой инструмент, или, скажем, пианино в гитарку.
Сайт
YouTube
Media is too big
VIEW IN TELEGRAM
Ещё любопытное от Suno.
Они на главной сделали вкладку Labs, куда запихнули свои экспериментальные проекты:
* Explore — музыкальное "поле чудес", где ты крутишь барабан и открываешь для себя новые жанры музыки, включая чисто сгенерированные. Обожают этот UI/UX.
* Sunoverse — галактических размеров карта, где звёздами отображаются треки сгенерированные в Suno, а в межзвёздном пространстве ютятся названия жанров.
* Live Radio — радиостанция, где народ голосует ноток какого жанра добавить в потоковое вещание, чтобы повлиять на общее звучание музыки. Так сказать какой шум подмешать в бесконечный латентный шумный эфир, лишённый шума кожаных новостей и трёпа.
По сути все три это исследование и поиск альтернативного UI/UX для потребления музыкального контента во времена переизбытка информации.
Из этих трёх я как-то только сейчас заметил Sunoverse. Кликанье на рандомные звёзды и резвый зум с воспроизведением неизведанного интересно не сильно долго, ибо зачастую треки в паблике ещё сгенерированы в древних версиях Suno и "качественно" режут слух. Просто брожение по карте не сильно затягивает тоже, в том числе и потому что границы условны и близлежащие треки могут быть сильно разными. Если ты знаешь чего хочешь, есть поиск и ты можешь вбить 90s nu-metal, чтобы метнуться и потыкать пару другую треков. Но прослушанные композиции с карты не заменяются новыми, а запоминать что ты слушал и где так себе идея. Скорость и доступность это ключевое.
Заодно вот вам ещё пару карт для исследования музыкального пространства (спс @JohnDoe171):
* Ishkur's Guide to Electronic Music
* Every Noise at Once
В любом случае Suno, в отличие от традиционный части музыкальной индустрии (пусть они к ней теперь ближе), пробуют и экспериментируют. Что уважаемо!
Сайт
Они на главной сделали вкладку Labs, куда запихнули свои экспериментальные проекты:
* Explore — музыкальное "поле чудес", где ты крутишь барабан и открываешь для себя новые жанры музыки, включая чисто сгенерированные. Обожают этот UI/UX.
* Sunoverse — галактических размеров карта, где звёздами отображаются треки сгенерированные в Suno, а в межзвёздном пространстве ютятся названия жанров.
* Live Radio — радиостанция, где народ голосует ноток какого жанра добавить в потоковое вещание, чтобы повлиять на общее звучание музыки. Так сказать какой шум подмешать в бесконечный латентный шумный эфир, лишённый шума кожаных новостей и трёпа.
По сути все три это исследование и поиск альтернативного UI/UX для потребления музыкального контента во времена переизбытка информации.
Из этих трёх я как-то только сейчас заметил Sunoverse. Кликанье на рандомные звёзды и резвый зум с воспроизведением неизведанного интересно не сильно долго, ибо зачастую треки в паблике ещё сгенерированы в древних версиях Suno и "качественно" режут слух. Просто брожение по карте не сильно затягивает тоже, в том числе и потому что границы условны и близлежащие треки могут быть сильно разными. Если ты знаешь чего хочешь, есть поиск и ты можешь вбить 90s nu-metal, чтобы метнуться и потыкать пару другую треков. Но прослушанные композиции с карты не заменяются новыми, а запоминать что ты слушал и где так себе идея. Скорость и доступность это ключевое.
Заодно вот вам ещё пару карт для исследования музыкального пространства (спс @JohnDoe171):
* Ishkur's Guide to Electronic Music
* Every Noise at Once
В любом случае Suno, в отличие от традиционный части музыкальной индустрии (пусть они к ней теперь ближе), пробуют и экспериментируют. Что уважаемо!
Сайт
Tencent: выпустили мультимодальный генератор картинок Хуньянь Image 3 Instruct.
В отличие от базовой версии выпущенной ранее, Instruct сфокусирован на редактировании картинки текстом и генерации изображений на основе нескольких рефов. Наличие CoT рассуждений перед генерацией помогает улучшить итоговые результаты.
Модель огромная — 80B MoE из которых 13B активных, так что это облачное решение. Но можно залогиниться у них на сайте переключившись на английский и погонять пока не упрёмся в лимиты.
Промту следует хорошо. Кота вписал в окружение с четким пересчётом освещения и с сохранением деталей одежды, аксессуаров и надписей. Может пригодиться когда банана не под рукой или кончились кредиты. В Comfy, Fal, Replicate и ко пока не видно.
Демо
Анонс
В отличие от базовой версии выпущенной ранее, Instruct сфокусирован на редактировании картинки текстом и генерации изображений на основе нескольких рефов. Наличие CoT рассуждений перед генерацией помогает улучшить итоговые результаты.
Модель огромная — 80B MoE из которых 13B активных, так что это облачное решение. Но можно залогиниться у них на сайте переключившись на английский и погонять пока не упрёмся в лимиты.
Промту следует хорошо. Кота вписал в окружение с четким пересчётом освещения и с сохранением деталей одежды, аксессуаров и надписей. Может пригодиться когда банана не под рукой или кончились кредиты. В Comfy, Fal, Replicate и ко пока не видно.
Демо
Анонс
Invoke с октября как-то не выпускали обновлений и пропали с радаров. Оказалось их купил Adobe и команда Invoke перешла к ним, закрыв коммерческую часть проекта и твиттер аккаунт.
Однако опенсорсная часть выжила под названием Community Edition и на гитхабе мейнтейнеры те же. Это значит, что проект продолжит развиваться, но обновления будут выходить реже.
И вот впервые за долгое время появился апдейт. В нём добавили поддержку моделей Z-image, PBR карт, указания веса слова в промте, экспорт выделенного маской региона, и не только.
Если у вас аллергия на вермишель и вы искали привычный интерефейс для генерации картинок, то Invoke вам может подойти. А при желании с Comfy-лапшой можно поработать и в нём, перейдя в раздел workflow.
Сайт
Гитхаб
Однако опенсорсная часть выжила под названием Community Edition и на гитхабе мейнтейнеры те же. Это значит, что проект продолжит развиваться, но обновления будут выходить реже.
И вот впервые за долгое время появился апдейт. В нём добавили поддержку моделей Z-image, PBR карт, указания веса слова в промте, экспорт выделенного маской региона, и не только.
Если у вас аллергия на вермишель и вы искали привычный интерефейс для генерации картинок, то Invoke вам может подойти. А при желании с Comfy-лапшой можно поработать и в нём, перейдя в раздел workflow.
Сайт
Гитхаб
3D контроль камеры для Qwen Image Edit 2511. До этого в демо была 2509 версия.
Мультикам лору натренировали Fal, она на хаггинге.
Comfy воркфлоу у них на гитхабе для шаблонов.
Ноду можно поставить через менеджер когда импортируете воркфлоу или с гитхаба. Если будет ругаться на каналы ставьте не nightly версию ноды а какую-нибудь из номерных стабильных под ней.
Демо
Хаггинг
Воркфлоу
Гитхаб
Мультикам лору натренировали Fal, она на хаггинге.
Comfy воркфлоу у них на гитхабе для шаблонов.
Ноду можно поставить через менеджер когда импортируете воркфлоу или с гитхаба. Если будет ругаться на каналы ставьте не nightly версию ноды а какую-нибудь из номерных стабильных под ней.
Демо
Хаггинг
Воркфлоу
Гитхаб
Comfy: в своём облаке увеличили количество контента, которое можно сгенерить за ту же цену подписки.
Я правда не пойму как они считают ибо цифры из поста не бьются с указанными на их сайте. Там ещё и если нажать на детали, то выясниться что время для генерации прикинуто из расчёта, что мы будем генерить 640х640, 16 fps, 4-шаговой лорой... а будет не так.
Но учитывая, что в большинстве случаев новые модели стартуют с ворками для Comfy, API ноды быстро добавляются, есть импорт моделей с Hugging Face и CivitAI, а гоняется всё на RTX6000 с 96 ГБ VRAM, предложение может быть интересным для тех, кто ищет всё в одном месте. Тем более, что упрощённый Simple интерфейс есть пока только в облачной версии.
А если чувствуешь, что подписку за месяц не израсходуешь или мощная машина уже есть, то можно обойтись оплатой только за API вызовы в локальном Comfy.
Кто-то уже пробовал их подписку/оплату за API вызовы с компа?
Сайт
Твит
Про Comfy Cloud
Я правда не пойму как они считают ибо цифры из поста не бьются с указанными на их сайте. Там ещё и если нажать на детали, то выясниться что время для генерации прикинуто из расчёта, что мы будем генерить 640х640, 16 fps, 4-шаговой лорой... а будет не так.
Но учитывая, что в большинстве случаев новые модели стартуют с ворками для Comfy, API ноды быстро добавляются, есть импорт моделей с Hugging Face и CivitAI, а гоняется всё на RTX6000 с 96 ГБ VRAM, предложение может быть интересным для тех, кто ищет всё в одном месте. Тем более, что упрощённый Simple интерфейс есть пока только в облачной версии.
А если чувствуешь, что подписку за месяц не израсходуешь или мощная машина уже есть, то можно обойтись оплатой только за API вызовы в локальном Comfy.
Кто-то уже пробовал их подписку/оплату за API вызовы с компа?
Сайт
Твит
Про Comfy Cloud
Forwarded from дAI потестить!
Пару слов о ComfyUI Cloud (http://cloud.comfy.org)
1. Нужных нод нет, поэтому запустить можно только то, что лежит в шаблонах ComfyUI. Кстати, библиотека шаблонов заметно меньше, чем у локального ComfyUI.
2. "Свои" LoRA и модели можно добавить только с тарифа Creator (35 $). Но зачем - неясно: нужных нод нет.
3. Консоль всегда девственно чиста. Почему ворк не запустился, можно понять только при наличии опыта победы в 11-м сезоне "Битвы экстрасенсов".
4. Ворк обновляется не последовательно, как при локальных вычислениях, а целиком. Делать предпросмотр картинки где нить посередине ворка бессмысленно.
5. Регулярные дисконнекты.
Для кого это нужно - мне пока не ясно.
Исследовать новое - нет нод.
Катать свои ворки - нет нод.
Собирать свои ворки и запускать в облаке - правильно. Нет нод.
Мой вывод: нет железа - арендуй сервер.
Где арендовать:
- clore.ai (дешево)
- simplepod.ai
- gpudc.ru (рубли, Windows)
- massedcompute.com
Пару ссылок, которые помогут развернуть ComfyUI:
https://github.com/Tavris1/ComfyUI-Easy-Install
https://github.com/ai-dock/comfyui
Готовые сборки ComfyUI:
t.me/prompt_by_art
https://huggingface.co/OreX/ComfyUI/tree/main
P.S. Могли бы хоть внешний Api прикрутить, чтобы использовать их как сервер. Этого тоже пока нет🙁
1. Нужных нод нет, поэтому запустить можно только то, что лежит в шаблонах ComfyUI. Кстати, библиотека шаблонов заметно меньше, чем у локального ComfyUI.
2. "Свои" LoRA и модели можно добавить только с тарифа Creator (35 $). Но зачем - неясно: нужных нод нет.
3. Консоль всегда девственно чиста. Почему ворк не запустился, можно понять только при наличии опыта победы в 11-м сезоне "Битвы экстрасенсов".
4. Ворк обновляется не последовательно, как при локальных вычислениях, а целиком. Делать предпросмотр картинки где нить посередине ворка бессмысленно.
5. Регулярные дисконнекты.
Для кого это нужно - мне пока не ясно.
Исследовать новое - нет нод.
Катать свои ворки - нет нод.
Собирать свои ворки и запускать в облаке - правильно. Нет нод.
Мой вывод: нет железа - арендуй сервер.
Где арендовать:
- clore.ai (дешево)
- simplepod.ai
- gpudc.ru (рубли, Windows)
- massedcompute.com
Пару ссылок, которые помогут развернуть ComfyUI:
https://github.com/Tavris1/ComfyUI-Easy-Install
https://github.com/ai-dock/comfyui
Готовые сборки ComfyUI:
t.me/prompt_by_art
https://huggingface.co/OreX/ComfyUI/tree/main
P.S. Могли бы хоть внешний Api прикрутить, чтобы использовать их как сервер. Этого тоже пока нет🙁
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Luma: выпустили видеогенератор Ray3.14 (как Rape Me у Nirvana только "рэйпи").
Что нового:
* Нативное 1080p (я думал оно у них уже было)
* 720p генерит в 4 раза быстрее и в 3 раза дешевле
* Улучшения в стабильности, детализации видео, и следованию промту
* Работает с текстом, картинками и видосами на входе
* Изменение объектов на видео длиной до 18 сек
На бесплатном тарифе можно в режиме драфта погенерить. Правда неизвестно сколько времени это займёт.
По ценам: 20 кредитов/сек.
PS: сегодня Rape Me это песня, которую поёт кошелек.
Сайт
Анонс
Что нового:
* Нативное 1080p (я думал оно у них уже было)
* 720p генерит в 4 раза быстрее и в 3 раза дешевле
* Улучшения в стабильности, детализации видео, и следованию промту
* Работает с текстом, картинками и видосами на входе
* Изменение объектов на видео длиной до 18 сек
На бесплатном тарифе можно в режиме драфта погенерить. Правда неизвестно сколько времени это займёт.
По ценам: 20 кредитов/сек.
PS: сегодня Rape Me это песня, которую поёт кошелек.
Сайт
Анонс