Media is too big
VIEW IN TELEGRAM
Уже опробовали MusicGen?
Модель генерирует 12 секунд аудио на основе текстового промта. По желанию можно предоставить аудио реф, из которого будет извлечена общая мелодия. Модель попытается следовать промту и мелодии.
К волне AI-каверов готовится присоединиться волна AI-мэшапов и ремиксов.
Демо
Модели
Код
Модель генерирует 12 секунд аудио на основе текстового промта. По желанию можно предоставить аудио реф, из которого будет извлечена общая мелодия. Модель попытается следовать промту и мелодии.
К волне AI-каверов готовится присоединиться волна AI-мэшапов и ремиксов.
Демо
Модели
Код
Deforum выпустили нодный редактор aiNodes Engine для генерации изображений и анимации.
Вдохновлён ComfyUI, написан на питоне, и имеет инсталлятор, который одним кликом поставит всё нужное, включая виртуальные среды.
Фичи:
* Полная модульность с динамической загрузкой пакетов узлов во время выполнения
* Поддержка RIFE (оценка промежуточного потока в реальном времени)
* Поддержка FILM для плавной интерполяции кадров при анимации
* Цветной фон для улучшения визуального восприятия
* Аннотации IDE для простого создания узлов
Гитхаб
Вдохновлён ComfyUI, написан на питоне, и имеет инсталлятор, который одним кликом поставит всё нужное, включая виртуальные среды.
Фичи:
* Полная модульность с динамической загрузкой пакетов узлов во время выполнения
* Поддержка RIFE (оценка промежуточного потока в реальном времени)
* Поддержка FILM для плавной интерполяции кадров при анимации
* Цветной фон для улучшения визуального восприятия
* Аннотации IDE для простого создания узлов
Гитхаб
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Вот еще один проект-прокладка между Stable Diffusion (+ControlNet) и пользователем.
Value здесь в том, что они:
1. Сделали мини-сток различных элементов, часто используемых в рекламе. Это маски (точнее canny) для Control Net, представляющие руки, лица, подставки, растения - в общем небольшая база элементов, по аналогии с многими софтами, в которых есть библиотеки. Только здесь это маски, на основе которых будут генериться элементы.
2. Сделали UI в духе PowerPoint и прочих для коллажирования.
3. Немного удаления фона и элементов.
Подписка, как обычно, 10 долларов в месяц. Можно попробовать бесплатно.
Время таких продуктов ограниченно. В принципе это все уже есть в Microsoft Designer или Canva, просто не так ловко и не так прицельно в рекламные картинки.
Думаю, все это появится во "взрослых" софтах. Прежде всего в Адобченко и Микрософте.
Но проблема в том, что Адобченко будет юзать свой FireFly, а Микрософт Dalle-2.
Никто из корпоратов не хочет связываться с серым полем авторских прав для Stable Diffusion.
Поэтому такие сервисы будут жить некоторое время.
https://app.flair.ai/
Ну и понятно, что все это можно делать в Automatic1111. Но надо искать и делать маски, плясать с коллажированием, продираться сквозь настройки контролнета. А тут все под рукой.
Value здесь в том, что они:
1. Сделали мини-сток различных элементов, часто используемых в рекламе. Это маски (точнее canny) для Control Net, представляющие руки, лица, подставки, растения - в общем небольшая база элементов, по аналогии с многими софтами, в которых есть библиотеки. Только здесь это маски, на основе которых будут генериться элементы.
2. Сделали UI в духе PowerPoint и прочих для коллажирования.
3. Немного удаления фона и элементов.
Подписка, как обычно, 10 долларов в месяц. Можно попробовать бесплатно.
Время таких продуктов ограниченно. В принципе это все уже есть в Microsoft Designer или Canva, просто не так ловко и не так прицельно в рекламные картинки.
Думаю, все это появится во "взрослых" софтах. Прежде всего в Адобченко и Микрософте.
Но проблема в том, что Адобченко будет юзать свой FireFly, а Микрософт Dalle-2.
Никто из корпоратов не хочет связываться с серым полем авторских прав для Stable Diffusion.
Поэтому такие сервисы будут жить некоторое время.
https://app.flair.ai/
Ну и понятно, что все это можно делать в Automatic1111. Но надо искать и делать маски, плясать с коллажированием, продираться сквозь настройки контролнета. А тут все под рукой.
Дайджест:
📹 ВИДЕО + АРТ 🎨
GANeRF: улучшение качества рендеринга NeRF сцен с помощью GAN сетей. Над подобным работает NeRFLiX, только без GAN.
Phygital+: больше настроек для Stable Diffusion Inpainting, Control Net и обучения своих моделей, 6 новых стилей, и персональный онбардинг.
Nvidia: представила text-2-3D модель ATT3D. В отличие от методов, требующих длительной оптимизации для каждого запроса, модель использует амортизированную оптимизацию, обучая модель на множестве промтов одновременно. Это позволяет распределить вычислительные мощности между набором запросов и сэкономить время и деньги. Кода пока нет.
BOOT: быстрый метод обучения генеративных моделей, который позволяет достичь высокого качества генерации изображений без использования реальных данных. Метод основан на предсказании траектории диффузии и бутстрэппинге. Кода пока нет.
Рабочая моделька поиграться с img-2-3D через Shap-E.
🤖 ЧАТЫ 🤖
LLM as Chat: сервис для чата с разными языковыми моделями обновился. Теперь показываются требования к VRAM и можно выбрать только те, на которые памяти хватит.
Cerebras: выпустили SlimPajama с 627B параметров — крупнейший набор данных для обучения моделей естественного языка. Он был создан путем очистки + удаления дубликатов из датасета RedPajama 1.21T, и с высоким качеством данных показывает хорошую эффективность вычислений для обучения моделей до 627 миллиардов токенов.
Hugging Face: обновили свой контейнер для инференса LLM.
Сравнение генерации текста на маленьком датасете с крупными моделями (GPT-4 175B).
GPTWorld: игра, в которой надо красной точкой забрать ключ и выбраться из лабиринта. Нужны навыки программирования, так что....
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
📹 ВИДЕО + АРТ 🎨
GANeRF: улучшение качества рендеринга NeRF сцен с помощью GAN сетей. Над подобным работает NeRFLiX, только без GAN.
Phygital+: больше настроек для Stable Diffusion Inpainting, Control Net и обучения своих моделей, 6 новых стилей, и персональный онбардинг.
Nvidia: представила text-2-3D модель ATT3D. В отличие от методов, требующих длительной оптимизации для каждого запроса, модель использует амортизированную оптимизацию, обучая модель на множестве промтов одновременно. Это позволяет распределить вычислительные мощности между набором запросов и сэкономить время и деньги. Кода пока нет.
BOOT: быстрый метод обучения генеративных моделей, который позволяет достичь высокого качества генерации изображений без использования реальных данных. Метод основан на предсказании траектории диффузии и бутстрэппинге. Кода пока нет.
Рабочая моделька поиграться с img-2-3D через Shap-E.
🤖 ЧАТЫ 🤖
LLM as Chat: сервис для чата с разными языковыми моделями обновился. Теперь показываются требования к VRAM и можно выбрать только те, на которые памяти хватит.
Cerebras: выпустили SlimPajama с 627B параметров — крупнейший набор данных для обучения моделей естественного языка. Он был создан путем очистки + удаления дубликатов из датасета RedPajama 1.21T, и с высоким качеством данных показывает хорошую эффективность вычислений для обучения моделей до 627 миллиардов токенов.
Hugging Face: обновили свой контейнер для инференса LLM.
Сравнение генерации текста на маленьком датасете с крупными моделями (GPT-4 175B).
GPTWorld: игра, в которой надо красной точкой забрать ключ и выбраться из лабиринта. Нужны навыки программирования, так что....
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Похоже Modelscope стал лучше выдавать картинку.
Автор с помощью базовой модели сгенерировал 320x256 —> затем через vid2vid на 640x512 удалил водяной знак.
Реддит
Автор с помощью базовой модели сгенерировал 320x256 —> затем через vid2vid на 640x512 удалил водяной знак.
Реддит
This media is not supported in your browser
VIEW IN TELEGRAM
Mind2Web — инструмент для автоматизации задач в интернете и поручения их выполнения AI-агентам.
В датасете Mind2Web представлены задачи, такие как поиск авиабилетов, бронирование, поиск информации, взаимодействие с элементами веб-страниц и многое другое. В общей сложности 2 350 задач с 137 веб-сайтов, охватывающих 31 сферу деятельности. Для каждой задачи предоставляется описание задачи, последовательность действий для ее выполнения, снимки веб-страниц (включая HTML-код, DOM-снимки, изображения, файлы HAR и трассировки взаимодействия) и другая соответствующая информация.
Можно посмотреть как запись на видео процесса выполнения задачи, так и додетально каждый шаг (raw trace).
P.S. Не нашел как применить к твиттеру, телеге, да и чётких инструкций как натренить для своих нужд, но в целом интересно.
Сайт
В датасете Mind2Web представлены задачи, такие как поиск авиабилетов, бронирование, поиск информации, взаимодействие с элементами веб-страниц и многое другое. В общей сложности 2 350 задач с 137 веб-сайтов, охватывающих 31 сферу деятельности. Для каждой задачи предоставляется описание задачи, последовательность действий для ее выполнения, снимки веб-страниц (включая HTML-код, DOM-снимки, изображения, файлы HAR и трассировки взаимодействия) и другая соответствующая информация.
Можно посмотреть как запись на видео процесса выполнения задачи, так и додетально каждый шаг (raw trace).
P.S. Не нашел как применить к твиттеру, телеге, да и чётких инструкций как натренить для своих нужд, но в целом интересно.
Сайт
This media is not supported in your browser
VIEW IN TELEGRAM
Whisper Web: распознавание и транскрипция речи с помощью Whisper на 100+ языках. Аудио можно предоставить как по ссылке, так и загрузить напрямую.
К MusicGen приделали возможность генерить музыку не по тексту, а с помощью картинки на вход. Подойдёт для создания звуковых эффектов или саундтрека по скриншоту, например.
Демо
Демо
huggingface.co
Image to MusicGen - a Hugging Face Space by fffiloni
Discover amazing ML apps made by the community
Forwarded from PHYGITAL+ART (🪡)
Подборка ИИ для 3D проектов.
Делитесь и сохраняйте – список обновляется здесь.
Anything World – риг и анимация 3D персонажей
Kaedim – из фото в 3D + текстуры для Unity, Unreal, Blender. Бонус: из картинок в воксели!
Kinetix – анимация 3D персонажей + новый инструмент “Motion Portal” для брендов и инфлюенсеров
Luma AI – 3D гейм-ассеты из моб. видео. Плюс Text-to-3D «Imagine 3D» в альфа-версии!
Move – motion capture с помощью моб. камер. Захват движений для 1-3 человек, экспорт в любой игровой движок.
Poly – текстуры в 8k с коммерческой лицензией
Promethean AI – 3D интерфейс для художников от беларусских создателей. Бонус: Environmental Art Internship – научитесь создавать виртуальные пространства с ИИ.
RealityScan – 3D-модели с помощью смартфона / планшета. Доступно для iOS, скоро появится на Android.
Wonder Dynamics – авто-анимация, освещение и композиция с 3D персонажами.
(можно размещать своих персонажей на платформе Wonder Studio!)
Больше полезных ИИ-инструментов в бесплатной AI Library
Делитесь и сохраняйте – список обновляется здесь.
Anything World – риг и анимация 3D персонажей
Kaedim – из фото в 3D + текстуры для Unity, Unreal, Blender. Бонус: из картинок в воксели!
Kinetix – анимация 3D персонажей + новый инструмент “Motion Portal” для брендов и инфлюенсеров
Luma AI – 3D гейм-ассеты из моб. видео. Плюс Text-to-3D «Imagine 3D» в альфа-версии!
Move – motion capture с помощью моб. камер. Захват движений для 1-3 человек, экспорт в любой игровой движок.
Poly – текстуры в 8k с коммерческой лицензией
Promethean AI – 3D интерфейс для художников от беларусских создателей. Бонус: Environmental Art Internship – научитесь создавать виртуальные пространства с ИИ.
RealityScan – 3D-модели с помощью смартфона / планшета. Доступно для iOS, скоро появится на Android.
Wonder Dynamics – авто-анимация, освещение и композиция с 3D персонажами.
(можно размещать своих персонажей на платформе Wonder Studio!)
Больше полезных ИИ-инструментов в бесплатной AI Library
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Держите корейский релайтер SwitchLight.
В отличие от ClipDrop здесь сложное освещение меняется с помощью подгрузки своих HDRI-панорам и или других футажей.
(По дороге найден сток HDRI-ев https://polyhaven.com/)
Тренировали в основном на лицах и фигурах, так что лучшие результаты на актерах.
Загружать можно вплоть до 2048х2048 в любых(!) аспектах.
Видео не поддерживается (покадрово, думаю, будет кипеть).
https://www.beeble.ai/
В отличие от ClipDrop здесь сложное освещение меняется с помощью подгрузки своих HDRI-панорам и или других футажей.
(По дороге найден сток HDRI-ев https://polyhaven.com/)
Тренировали в основном на лицах и фигурах, так что лучшие результаты на актерах.
Загружать можно вплоть до 2048х2048 в любых(!) аспектах.
Видео не поддерживается (покадрово, думаю, будет кипеть).
https://www.beeble.ai/
Дайджест:
📹 ВИДЕО + АРТ 🎨
FasterViT: новая семья гибридных CNN-ViT нейронных сетей, разработанных для высокой скорости обработки изображений. Модель использует подход Hierarchical Attention (HAT), который снижает вычислительные затраты, разбивая глобальное внимание на многоуровневое. FasterViT показывает высокую эффективность на различных задачах компьютерного зрения, включая классификацию, обнаружение объектов и сегментацию.
🎸 ЗВУК 🎸
Исследование как сжать в 90 раз 44,1 KHz аудио без потерь с помощью улучшенного RVQGAN. Плюс, ещё почитать на эту тему.
Grimes запартнёрилась с TuneCore и CreateSafe для дистрибуции AI-музыки. Создатели генеративных треков, которые одобрит певица, получат 50% от дохода со стриминговых площадок.
🤖 ЧАТЫ 🤖
Hugging Face: библиотека Transformers обновилась до v 4.3. Добавилась поддержка локальных агентов, распознавание с 1000+ языков через MMS 4-битного QLoRA квантования чтобы вместить 30В модели на 24 ГБ GPU.
Также Hugging Face запускают бесплатный 6-недельный самообучающий курс по аудиотрансформерам. В честь этого дела проводят ивент 14 июня в 19:00 по Мск.
Magic.dev: анонсировали модель LTM-1 с размером контекста в 5 млн токенов. Для сравнения у самой крутой версии GPT-4 всего-лишь 32к токенов, а у Claude 100k. Впрочем мы знаем как скормить нейронке контекст неограниченного размера.
LLM as Chat: добавлены модели WizardLM 13B + 30B.
PR (Pull Request) добавляющий поддержку CUDA в репозиторий основной ламы для ускорения обработки на GPU без участия CPU.
Исследования:
* Могут ли фундаментальные модели маркировать данные, как люди?
* Замена конкретных знаний в модели без файнтюна.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
📹 ВИДЕО + АРТ 🎨
FasterViT: новая семья гибридных CNN-ViT нейронных сетей, разработанных для высокой скорости обработки изображений. Модель использует подход Hierarchical Attention (HAT), который снижает вычислительные затраты, разбивая глобальное внимание на многоуровневое. FasterViT показывает высокую эффективность на различных задачах компьютерного зрения, включая классификацию, обнаружение объектов и сегментацию.
🎸 ЗВУК 🎸
Исследование как сжать в 90 раз 44,1 KHz аудио без потерь с помощью улучшенного RVQGAN. Плюс, ещё почитать на эту тему.
Grimes запартнёрилась с TuneCore и CreateSafe для дистрибуции AI-музыки. Создатели генеративных треков, которые одобрит певица, получат 50% от дохода со стриминговых площадок.
🤖 ЧАТЫ 🤖
Hugging Face: библиотека Transformers обновилась до v 4.3. Добавилась поддержка локальных агентов, распознавание с 1000+ языков через MMS 4-битного QLoRA квантования чтобы вместить 30В модели на 24 ГБ GPU.
Также Hugging Face запускают бесплатный 6-недельный самообучающий курс по аудиотрансформерам. В честь этого дела проводят ивент 14 июня в 19:00 по Мск.
Magic.dev: анонсировали модель LTM-1 с размером контекста в 5 млн токенов. Для сравнения у самой крутой версии GPT-4 всего-лишь 32к токенов, а у Claude 100k. Впрочем мы знаем как скормить нейронке контекст неограниченного размера.
LLM as Chat: добавлены модели WizardLM 13B + 30B.
PR (Pull Request) добавляющий поддержку CUDA в репозиторий основной ламы для ускорения обработки на GPU без участия CPU.
Исследования:
* Могут ли фундаментальные модели маркировать данные, как люди?
* Замена конкретных знаний в модели без файнтюна.
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Музыкант RL Grime выпустил NeRF клип на трек Pour Your Heart Out.
Режиссёром выступил Jake Oleson, автор другого крутого NeRF видео Given Again, которое он сделал в Luma.
Клип
Твиттер Джейка
Режиссёром выступил Jake Oleson, автор другого крутого NeRF видео Given Again, которое он сделал в Luma.
Клип
Твиттер Джейка
Грядёт новая волна селфи.
На первом видео Martin Haerlin на втором Matt Wolfe. У Мэтта кстати норм ютуб канал, где он подборки новостей и гайды простым языком делает. Сам отсматриваю.
Под прошлым видео от Мартина один из подписчиков оставил коммент, что помимо GEN-1 использовался Tune-a-Video.
На первом видео Martin Haerlin на втором Matt Wolfe. У Мэтта кстати норм ютуб канал, где он подборки новостей и гайды простым языком делает. Сам отсматриваю.
Под прошлым видео от Мартина один из подписчиков оставил коммент, что помимо GEN-1 использовался Tune-a-Video.