Дайджест:
📹 ВИДЕО + АРТ 🎨
Улучшаем качество генерации видео с помощью метода FreeInit. Можно применить к любой диффузионной модели без дополнительной тренировки. От авторов FreeU.
Google: анонсировал Imagen 2, доступный только через их облачный API Vertex.
GlitchBench: модель для распознавания гличей в играх.
KreaAI: инструмент для генерации в реальном времени перешел в открытую бету.
HOSNeRF: таки появился код FVV-модели (Free View Video), для создания видео, где можно свободно вертеть камерой.
MotionDirector: демо фреймворка для генерации видео с желаемыми движениями камеры и персонажей.
ECLIPSE: улучшаем эффективность приоров T2I моделей из семейства UnCLIP.
PatchFusion: появилось демо апскейлера по картам глубины.
Nuvo: текстурирование 3D объектов, полученных из нерфов или гаусианов.
SyncDiffusion: релизнулся код этого генератора панорам.
HeyGen: добавили перевод в один клик, пруфридинг на основе приложенных сабов, перевод нескольких спикеров, ссылки на ютуб/гугл облако. Последние 3 фичи для корпоративных клиентов.
Desco: распознавание и аннотирование объектов на изображения.
EdgeSAM: тоже распознавание, но по клику.
SAD: сегментация 3D объектов.
🎸 ЗВУК 🎸
CreateOS: открыли запись в бету на Trinity, их инструмента для генерации музыки, клонирования голоса, и воспроизведения вокала целевого артиста нужным образом.
🤖 ЧАТЫ 🤖
В библиотеку Transformers, добавлена Mixtral, Bakllava, SeamlessM4T, поддержка GPU от AMD, и не только.
EAGLE: ускорение декодирования LLM за счёт компрессии.
Deci: зарелизили DeciLM-7B, модельку показывающую себя лучше, чем Mistral 7B.
Google: выкатили API для Gemini, хотя их модель попала в просак ибо люди в интернете пришли к выводу, что видео с демонстрацией было фейковым.
Microsoft: выпустили модельку Phi-2 c 2.7B параметрами, обходящая на бенчах 13B модели.
Также они релизнули Promtbase — сборник ресурсов и скриптов по промтингу.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
📹 ВИДЕО + АРТ 🎨
Улучшаем качество генерации видео с помощью метода FreeInit. Можно применить к любой диффузионной модели без дополнительной тренировки. От авторов FreeU.
Google: анонсировал Imagen 2, доступный только через их облачный API Vertex.
GlitchBench: модель для распознавания гличей в играх.
KreaAI: инструмент для генерации в реальном времени перешел в открытую бету.
HOSNeRF: таки появился код FVV-модели (Free View Video), для создания видео, где можно свободно вертеть камерой.
MotionDirector: демо фреймворка для генерации видео с желаемыми движениями камеры и персонажей.
ECLIPSE: улучшаем эффективность приоров T2I моделей из семейства UnCLIP.
PatchFusion: появилось демо апскейлера по картам глубины.
Nuvo: текстурирование 3D объектов, полученных из нерфов или гаусианов.
SyncDiffusion: релизнулся код этого генератора панорам.
HeyGen: добавили перевод в один клик, пруфридинг на основе приложенных сабов, перевод нескольких спикеров, ссылки на ютуб/гугл облако. Последние 3 фичи для корпоративных клиентов.
Desco: распознавание и аннотирование объектов на изображения.
EdgeSAM: тоже распознавание, но по клику.
SAD: сегментация 3D объектов.
🎸 ЗВУК 🎸
CreateOS: открыли запись в бету на Trinity, их инструмента для генерации музыки, клонирования голоса, и воспроизведения вокала целевого артиста нужным образом.
🤖 ЧАТЫ 🤖
В библиотеку Transformers, добавлена Mixtral, Bakllava, SeamlessM4T, поддержка GPU от AMD, и не только.
EAGLE: ускорение декодирования LLM за счёт компрессии.
Deci: зарелизили DeciLM-7B, модельку показывающую себя лучше, чем Mistral 7B.
Google: выкатили API для Gemini, хотя их модель попала в просак ибо люди в интернете пришли к выводу, что видео с демонстрацией было фейковым.
Microsoft: выпустили модельку Phi-2 c 2.7B параметрами, обходящая на бенчах 13B модели.
Также они релизнули Promtbase — сборник ресурсов и скриптов по промтингу.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Занятно, чем ближе смотришь, тем реальнее оно кажется. Вероятно, когда видишь общий кадр, мозг выкупает на фоне остальных вещей, что есть нереальный элемент. А когда он виден лишь частично, особенно без левитации над столом, вопросов нет.
Чёрная техно-магия от Simulon.
Чёрная техно-магия от Simulon.
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Чутка красот с дискорда Banodoco. Народ умеет и практикует.
This media is not supported in your browser
VIEW IN TELEGRAM
Простой инструмент для вписывания лица в нужный контекст, который работает на основе SDXL.
This media is not supported in your browser
VIEW IN TELEGRAM
Amphion: меняем голос артиста на целевой. Из коробки доступно 15 вариантов, а натренировано всё на более, чем 6 ч аудиозаписей (что не много). Есть Adele, Beyonce, Bruno Mars, Michael Jackson, Taylor Swift, и другие, в основном китайские певцы.
Также можно генерить музыку, звуки, и озвучку с визуализацией полученного.
Лучше давать на вход чистый голос без музыки, потому что иначе будет очень много шумов. С песнями на русском пока не работает, но код открыт и народ научит.
Лицензия MIT (свободное коммерческое и некоммерческое использование), что удивительно.
Демо (смена вокалиста)
Демо (генерация текста нужным голосом)
Гитхаб
Также можно генерить музыку, звуки, и озвучку с визуализацией полученного.
Лучше давать на вход чистый голос без музыки, потому что иначе будет очень много шумов. С песнями на русском пока не работает, но код открыт и народ научит.
Лицензия MIT (свободное коммерческое и некоммерческое использование), что удивительно.
Демо (смена вокалиста)
Демо (генерация текста нужным голосом)
Гитхаб
Дайджест:
📹 ВИДЕО + АРТ 🎨
A1111 обновился до v 1.7. Появилась поддержка SD Turbo, ускорение на 40% через HyperTile и не только.
AnimateDiff обновился до V3.
Gradio: подтянули поддержку LCM. Правда пока версии SD 1.5.
AMD и HuggingFace: адаптировали разные библиотеки для ускорения работы на новом серверном железе на базе Instinct.
Новая улучшалка для SDXL — Direct Preference Optimization (DPO). Делает генерации ближе к промту. Помимо версии для SDXL, есть версия для SD 1.5
Также появилась демка другой улучшалки - FreeInit. Можно попробовать скидывать Pika или Runway для генерации в качестве на основе прототипов.
VolumeDiffusion: генерим 3D объекты по тексту.
GeoDream: тоже генератор 3D, но с поддержкой Stable Zero123.
Marigold: получение карты глубины поженили с 3D принтингом.
3DLFM: получаем 3D каркас объектов из 2D картинки.
Shap-Editor: переносим стиль одного 3D объекта на другой как целиком, так и частично.
DreamDrone: генерим пролёты дрона.
UDiffText: ставим надписи на картинках.
TextDiffuser-2: тоже генератор подписей.
SlimSAM: получаем сегментацию на уровне оригинального SAM, используя всего 0,1% данных.
GLEE: сегментируем много объектов на картинках и видео.
SlimNeRF: оптимизация нерфов для работы на мобилках и маломощном железе.
Apple: представили исследование FastSR-NeRF по улучшению работы нерфов на потребительских устройствах.
HAAR: генерация причёски по тексту. Кода нет.
Google: показали TIP, инструмент для восстановления зашакаленных картинок через текстовое описание того, что в кадре должно быть. Кода нет.
Также они показали VideoPoet, языковую модель для генерации видео без обучения. Учитывая, что Google год назад тоже показывали text-2-video модель, но так ничего и не выпустили, а сейчас у них гора конкурентов особенно в опенсорс, веры в эту модель мало. Кода нет.
🎸 ЗВУК 🎸
Microsoft: добавили генератор песен Suno в свой Copilot в виде плагина на боковой панели.
SeamlessM4T: демо переводчика голосовых записей на разные языки, включая русский.
🤖 ЧАТЫ 🤖
Mixtral только вышла, а народ уже вовсю пилит на её основе новые модели: Dolphin: версия без цензуры, в которой также улучшена работа с кодом. Вот видос на эту тему и GPTQ от Bloke. Плюс блог пост от автора.
OpenAI: выпустили гайд по составлению промтов для GPT-4. Для тех, кто пользуется давно в целом ничего нового. А новичкам будет полезно. В двух словах - модель не умеет читать ваши мысли, максимально точно описывайте что вы хотите получить и в каком формате. Если есть опорные доки/тексты/код/скриншоты - скармливайте ей. Народ уже обучил GPT на эту тему.
Microsoft: выпустили инструмент LLMLingua для сжатия промтов до нужного количества токенов и ускорения инференса.
Apple: представили LLM in a flash для оптимизации запуска языковых моделей на мобильных устройствах.
Используем DeciLM-7B-instruct в связке с LangChain для создания своего бота, чтобы чатиться по PDF'кам.
CALM2-7B: полку маленьких, но способных моделей прибыло.
CogAgent: это AI-агент на основе CogVLM для чата по визуалу.
FLAIR: датасет из 20 млрд снимков земли со спутников.
Инструмент для миграции датасета с Github на Hugging Face
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
📹 ВИДЕО + АРТ 🎨
A1111 обновился до v 1.7. Появилась поддержка SD Turbo, ускорение на 40% через HyperTile и не только.
AnimateDiff обновился до V3.
Gradio: подтянули поддержку LCM. Правда пока версии SD 1.5.
AMD и HuggingFace: адаптировали разные библиотеки для ускорения работы на новом серверном железе на базе Instinct.
Новая улучшалка для SDXL — Direct Preference Optimization (DPO). Делает генерации ближе к промту. Помимо версии для SDXL, есть версия для SD 1.5
Также появилась демка другой улучшалки - FreeInit. Можно попробовать скидывать Pika или Runway для генерации в качестве на основе прототипов.
VolumeDiffusion: генерим 3D объекты по тексту.
GeoDream: тоже генератор 3D, но с поддержкой Stable Zero123.
Marigold: получение карты глубины поженили с 3D принтингом.
3DLFM: получаем 3D каркас объектов из 2D картинки.
Shap-Editor: переносим стиль одного 3D объекта на другой как целиком, так и частично.
DreamDrone: генерим пролёты дрона.
UDiffText: ставим надписи на картинках.
TextDiffuser-2: тоже генератор подписей.
SlimSAM: получаем сегментацию на уровне оригинального SAM, используя всего 0,1% данных.
GLEE: сегментируем много объектов на картинках и видео.
SlimNeRF: оптимизация нерфов для работы на мобилках и маломощном железе.
Apple: представили исследование FastSR-NeRF по улучшению работы нерфов на потребительских устройствах.
HAAR: генерация причёски по тексту. Кода нет.
Google: показали TIP, инструмент для восстановления зашакаленных картинок через текстовое описание того, что в кадре должно быть. Кода нет.
Также они показали VideoPoet, языковую модель для генерации видео без обучения. Учитывая, что Google год назад тоже показывали text-2-video модель, но так ничего и не выпустили, а сейчас у них гора конкурентов особенно в опенсорс, веры в эту модель мало. Кода нет.
🎸 ЗВУК 🎸
Microsoft: добавили генератор песен Suno в свой Copilot в виде плагина на боковой панели.
SeamlessM4T: демо переводчика голосовых записей на разные языки, включая русский.
🤖 ЧАТЫ 🤖
Mixtral только вышла, а народ уже вовсю пилит на её основе новые модели: Dolphin: версия без цензуры, в которой также улучшена работа с кодом. Вот видос на эту тему и GPTQ от Bloke. Плюс блог пост от автора.
OpenAI: выпустили гайд по составлению промтов для GPT-4. Для тех, кто пользуется давно в целом ничего нового. А новичкам будет полезно. В двух словах - модель не умеет читать ваши мысли, максимально точно описывайте что вы хотите получить и в каком формате. Если есть опорные доки/тексты/код/скриншоты - скармливайте ей. Народ уже обучил GPT на эту тему.
Microsoft: выпустили инструмент LLMLingua для сжатия промтов до нужного количества токенов и ускорения инференса.
Apple: представили LLM in a flash для оптимизации запуска языковых моделей на мобильных устройствах.
Используем DeciLM-7B-instruct в связке с LangChain для создания своего бота, чтобы чатиться по PDF'кам.
CALM2-7B: полку маленьких, но способных моделей прибыло.
CogAgent: это AI-агент на основе CogVLM для чата по визуалу.
FLAIR: датасет из 20 млрд снимков земли со спутников.
Инструмент для миграции датасета с Github на Hugging Face
Please open Telegram to view this post
VIEW IN TELEGRAM
15
This media is not supported in your browser
VIEW IN TELEGRAM
ByteDance: показали модель StemGen, которая может понимать контекст музыки и генерить стемы, подходящие по гармонии. Их можно микшировать с предыдущими инструментами и так собирать трек по слоям.
Токенайзер используется от AudioCraft. Несколько напоминает VampNet, а также SoundStorm.
На втором видео пример музыкального устройства с 4 каналами. По клику на робота нейронке подаётся текущий смикшированный луп, который она использует в качестве контекста для генерации стема в интересующем жанре или виде.
Сайт
Токенайзер используется от AudioCraft. Несколько напоминает VampNet, а также SoundStorm.
На втором видео пример музыкального устройства с 4 каналами. По клику на робота нейронке подаётся текущий смикшированный луп, который она использует в качестве контекста для генерации стема в интересующем жанре или виде.
Сайт
This media is not supported in your browser
VIEW IN TELEGRAM
Resemble Enhance — инструмент на базе AI для улучшения звучания речи. Он состоит из двух модулей: денойзера, который отделяет голос от зашумленного аудио, и усилителя, который повышает качество восприятия звука, восстанавливая искажения и расширяя звуковую полосу. Обе модели обучены на высококачественных речевых данных 44,1 кГц.
Четкость видео поднято чем-то другим.
Демо
Гитхаб
Четкость видео поднято чем-то другим.
Демо
Гитхаб
OutfitAnyone: вкидываем фото человека и примеряем наряды. Работает разделение по верхней и нижней одежде.
AnyDoor: тут более широкое применение — можно тоже использовать как примерочную, менять объекты местами, или вписывать множество разных объектов в кадр.
AnyDoor: тут более широкое применение — можно тоже использовать как примерочную, менять объекты местами, или вписывать множество разных объектов в кадр.
Media is too big
VIEW IN TELEGRAM
Holodeck: ваяем целые помещения в 3D c мебелью и другими вещами. Нейронка может менять стиль интерьера и работать с комплексными промтами вроде
Если нужно без GPT-4, то можно попробовать заюзать Genie как народ тут делал.
PS: так и тянет прочитать как холодец... до НГ больше недели, а он уже посылает ментальные сигналы из будущего.
Сайт
Гитхаб
apartment for a researcher with a cat или office of a professor who is a fan of Star Wars. GPT-4 использует здравый смысл (ага), представляя как сцена может выглядеть, и использует 3D модели из Objaverse, чтобы собрать её.Если нужно без GPT-4, то можно попробовать заюзать Genie как народ тут делал.
PS: так и тянет прочитать как холодец... до НГ больше недели, а он уже посылает ментальные сигналы из будущего.
Сайт
Гитхаб
grid-2x3.gif
15.9 MB
RAVE: это легкий и быстрый фреймворк для редактирования видео и смены его стиля.
* Работает без обучения (zero-shot)
* Шустрый
* Нет ограничений на длину видео
* Редактирования видео текстом
* Совместимость с готовыми предобученными моделями, например, с CivitAI.
Рекомендуется работать в разрешениях 512x512 или 512x320.
Результат смены стиля где-то выглядит даже получше GEN-1. Ещё из опенсорса на эту тему ловим LAMP, а также Render-a-video.
Сайт
Гитхаб
* Работает без обучения (zero-shot)
* Шустрый
* Нет ограничений на длину видео
* Редактирования видео текстом
* Совместимость с готовыми предобученными моделями, например, с CivitAI.
Рекомендуется работать в разрешениях 512x512 или 512x320.
Результат смены стиля где-то выглядит даже получше GEN-1. Ещё из опенсорса на эту тему ловим LAMP, а также Render-a-video.
Сайт
Гитхаб