Vchitect — фреймворк состоящий из двух моделей для генерации видео.
LaVie — генерим видео по тексту с максимальным разрешением 1280х2048 и длиной в 61 кадр. Есть команда для интерполяции (повышения кадров в секунду) и команда для апскейлинга (повышения разрешения).
Код
Демо
SEINE — генерим видео на основе картинки
Демо
Код
Под капотом SD 1.4 так что примеры на видео сильно отобранные. Посмотрим как будет развиваться.
LaVie — генерим видео по тексту с максимальным разрешением 1280х2048 и длиной в 61 кадр. Есть команда для интерполяции (повышения кадров в секунду) и команда для апскейлинга (повышения разрешения).
Код
Демо
SEINE — генерим видео на основе картинки
Демо
Код
Под капотом SD 1.4 так что примеры на видео сильно отобранные. Посмотрим как будет развиваться.
Media is too big
VIEW IN TELEGRAM
Gaussian Head Avatar — создаём аватары с помощью гауссианов.
Для тренировки нейронке были скормлены видео с 16 точек обзора. Модель может генерить детали на коже, правдоподобную мимику, перекладывать её между разными персонажами, и всё это в 2К.
Сайт
Кода пока нет
Для тренировки нейронке были скормлены видео с 16 точек обзора. Модель может генерить детали на коже, правдоподобную мимику, перекладывать её между разными персонажами, и всё это в 2К.
Сайт
Кода пока нет
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Изменения и обновления в Tldraw (предыдущие ништяки описаны здесь):
* lens.tldraw.com — рисуй вместе с друзьями во фрейме поверх холста, который движется вверх... Было бы интересно увидеть разгон до 24 кс/с.
* народ пользует код tldraw и ваяет на нём свои интерфейсы
* простая мультиплеерная версия доски
* генерим в DALLE 3 разные версии картинки и смешиваем их стрелочками
* Интеграция с StackBlitz и CodeSandbox для удобной работы с кодом
* обновление в логике работы срелочек
* lens.tldraw.com — рисуй вместе с друзьями во фрейме поверх холста, который движется вверх... Было бы интересно увидеть разгон до 24 кс/с.
* народ пользует код tldraw и ваяет на нём свои интерфейсы
* простая мультиплеерная версия доски
* генерим в DALLE 3 разные версии картинки и смешиваем их стрелочками
* Интеграция с StackBlitz и CodeSandbox для удобной работы с кодом
* обновление в логике работы срелочек
Кто бы мог подумать, что в стекле можно хранить данные, которые можно будет считать и через тысячи лет.
Так, а если засолить флешку в трёхлитровой банке?
https://www.youtube.com/watch?v=-rfEYd4NGQg
Так, а если засолить флешку в трёхлитровой банке?
https://www.youtube.com/watch?v=-rfEYd4NGQg
YouTube
Storing data for thousands of years | Microsoft Project Silica
Can we preserve data sustainably?
Microsoft's Project Silica can store and retrieve data in quartz glass using laser optics and Microsoft Azure, enabling more sustainable storage that can last thousands of years.
Audio described version: https://www.…
Microsoft's Project Silica can store and retrieve data in quartz glass using laser optics and Microsoft Azure, enabling more sustainable storage that can last thousands of years.
Audio described version: https://www.…
This media is not supported in your browser
VIEW IN TELEGRAM
На почту начали прилетать доступы в Pika 1.0
Параметры для генерации перекочевали в крутилки на сайте, что сделало работу с видео ловчей и приблизило по ощущениям к Runway.
Что есть из настроек:
* Upscale: повышение разрешения с 1280х720 до 1920х1080. Причём, можно выйти за рамки - я вкинул картинку 1152х896 и после генерации заапскейлил до 2160х1728.
* Add 4s: продлеваем видео на 4 сек. Можно использовать не один раз.
* Retry: повторная генерация по тому же промту. Видосы при этом группируются в карусель, чтобы они были в одном месте.
* Repromt: использовать промт из уже имеющегося видео, не важно своего или чужого.
* Edit: выделение объектов и их замена в кадре.
* Expand canvas: меняем формат кадра (16:9, 1:1, итд) и расширяем границы.
* Image or video: генерация на основе картинки или видео.
* Video options: указываем количество кадров в секунду (fps), что может пригодиться для анимации.
* Camera control: задаём движения камеры и уровень подвижности в картинке.
* Parameters: контролируем кадр через негативные промты, сид, и ползунок консистентности.
На тестах редактирование объектов в кадре ожидаемо не такое ловкое как в промо видео, но посмотрим как будет развиваться.
Возможность зашифровывать текст или картинку в видео пока не завезли, она осталась в дискорде. Кстати в него обновлённая Pika тоже должна прийти, поэтому держим при себе:
Основные параметры в Pika Labs
Параметры для управления камерой
Параметры для зашифровывания текста или изображения
Пока что генерации бесплатные. Не щелкаем!
Параметры для генерации перекочевали в крутилки на сайте, что сделало работу с видео ловчей и приблизило по ощущениям к Runway.
Что есть из настроек:
* Upscale: повышение разрешения с 1280х720 до 1920х1080. Причём, можно выйти за рамки - я вкинул картинку 1152х896 и после генерации заапскейлил до 2160х1728.
* Add 4s: продлеваем видео на 4 сек. Можно использовать не один раз.
* Retry: повторная генерация по тому же промту. Видосы при этом группируются в карусель, чтобы они были в одном месте.
* Repromt: использовать промт из уже имеющегося видео, не важно своего или чужого.
* Edit: выделение объектов и их замена в кадре.
* Expand canvas: меняем формат кадра (16:9, 1:1, итд) и расширяем границы.
* Image or video: генерация на основе картинки или видео.
* Video options: указываем количество кадров в секунду (fps), что может пригодиться для анимации.
* Camera control: задаём движения камеры и уровень подвижности в картинке.
* Parameters: контролируем кадр через негативные промты, сид, и ползунок консистентности.
На тестах редактирование объектов в кадре ожидаемо не такое ловкое как в промо видео, но посмотрим как будет развиваться.
Возможность зашифровывать текст или картинку в видео пока не завезли, она осталась в дискорде. Кстати в него обновлённая Pika тоже должна прийти, поэтому держим при себе:
Основные параметры в Pika Labs
Параметры для управления камерой
Параметры для зашифровывания текста или изображения
Пока что генерации бесплатные. Не щелкаем!
This media is not supported in your browser
VIEW IN TELEGRAM
Midjourney выпустили альфа-версию своего сайта. Доступно для тех, кто нагенерил 10 тыс картинок и более. Вместо параметров и ссылок теперь удобные крутилки и кнопки, которые ускоряют работу.
http://alpha.midjourney.com
http://alpha.midjourney.com
This media is not supported in your browser
VIEW IN TELEGRAM
Mistral выпустили модель Mixtral 8x7B.
Их предыдущая опенсорсная 7B модель нашла массу применения в сообществе, и теперь они пошли дальше и представили нейронку на архитектуре MoE (Mixture of experts). Здесь используется 8 моделей с 7B параметрами, каждая из которых является экспертом в своей области, и они взаимодействуют друг с другом для решения задачи пользователя.
По неподтверждённым данным схожая архитектура стоит за GPT-4, только каждая модель у их гидры имеет сотни миллиардов параметров.
Mixtral 8x7B может работать локально, выдаёт результаты на уровне GPT-3.5, в шесть раз быстрее ламы 2, имеет контекст 32к, и дружелюбную лицензию. А силами сообщества проект раскачают и на ещё больший контекст + эффективность.
Анонс
Как работает архитектура MoE
Скачать модель для локалки
Демо (ChatArena) - сравниваем бок о бок с другими моделями
Демо (Perplexity)
Демо (TogetherComputer)
Демо (HuggingChat)
Демо (HuggingFace)
Модель в формате MLX для компов Apple.
Герганов уже впилил в llama.cpp
Торрент:
К слову за год вышла не одна работа по MoE:
* ModuleFormer от IBM
* QMoE: запускаем LLM с более 1 трлн параметров на 8x3090.
* MoWE: архитектура с упором на малое требование к ресурсам.
* Mobile V-MoEs от Apple.
* SMoE как решение проблем MoE архитектуры.
* SMEAR градиентное обучение через слияние экспертов.
* Быть может не относится к MoE, но пусть тут будет: Ensemble-Instruct плюс Automix.
Их предыдущая опенсорсная 7B модель нашла массу применения в сообществе, и теперь они пошли дальше и представили нейронку на архитектуре MoE (Mixture of experts). Здесь используется 8 моделей с 7B параметрами, каждая из которых является экспертом в своей области, и они взаимодействуют друг с другом для решения задачи пользователя.
По неподтверждённым данным схожая архитектура стоит за GPT-4, только каждая модель у их гидры имеет сотни миллиардов параметров.
Mixtral 8x7B может работать локально, выдаёт результаты на уровне GPT-3.5, в шесть раз быстрее ламы 2, имеет контекст 32к, и дружелюбную лицензию. А силами сообщества проект раскачают и на ещё больший контекст + эффективность.
Анонс
Как работает архитектура MoE
Скачать модель для локалки
Демо (ChatArena) - сравниваем бок о бок с другими моделями
Демо (Perplexity)
Демо (TogetherComputer)
Демо (HuggingChat)
Демо (HuggingFace)
Модель в формате MLX для компов Apple.
Герганов уже впилил в llama.cpp
Торрент:
magnet:?xt=urn:btih:5546272da9065eddeb6fcd7ffddeef5b75be79a7&dn=mixtral-8x7b-32kseqlen&tr=udp%3A%2F%http://2Fopentracker.i2p.rocks%3A6969%2Fannounce&tr=http%3A%2F%http://2Ftracker.openbittorrent.com%3A80%2Fannounce
К слову за год вышла не одна работа по MoE:
* ModuleFormer от IBM
* QMoE: запускаем LLM с более 1 трлн параметров на 8x3090.
* MoWE: архитектура с упором на малое требование к ресурсам.
* Mobile V-MoEs от Apple.
* SMoE как решение проблем MoE архитектуры.
* SMEAR градиентное обучение через слияние экспертов.
* Быть может не относится к MoE, но пусть тут будет: Ensemble-Instruct плюс Automix.
This media is not supported in your browser
VIEW IN TELEGRAM
Vercel выпустили V0 — инструмент для генерации фронтэнда по текстовому описанию. Можно и вкинуть скриншот и на его основе получить схожий фронт, а правки можно вносить как промтом, а-ля "перемести меню слева направо", так и переключившись на код.
Потестил, работает не так ловко, как на видео, но ускорить разработку может помочь. Тем более, что не требует API ключа OpenAI, и на бесплатном тарифе есть как минимум 200 кредитов в месяц.
Так что, у screenshot-2-code появилась компания.
Потестил, работает не так ловко, как на видео, но ускорить разработку может помочь. Тем более, что не требует API ключа OpenAI, и на бесплатном тарифе есть как минимум 200 кредитов в месяц.
Так что, у screenshot-2-code появилась компания.
This media is not supported in your browser
VIEW IN TELEGRAM
PowerPaint: мощная моделька для редактирования изображения через инпейтинг, аутпейтинг, и ControlNet. Где-то показывает себя лучше FireFly.
This media is not supported in your browser
VIEW IN TELEGRAM
StabilityAI: выпустили Stable Zero123 для генерации 3D. Под капотом SD 1.5, генерящая каждый новый вид камеры, чтобы модель смотрелась консистентно со всех углов обзора.
Интересно оно как-то связано с Stable 3D анонсированным в начале ноября?
В любом случае, нужно минимум 24 Гб видеопамяти...
Сайт
HuggingFace
Интересно оно как-то связано с Stable 3D анонсированным в начале ноября?
В любом случае, нужно минимум 24 Гб видеопамяти...
Сайт
HuggingFace
Дайджест:
📹 ВИДЕО + АРТ 🎨
Улучшаем качество генерации видео с помощью метода FreeInit. Можно применить к любой диффузионной модели без дополнительной тренировки. От авторов FreeU.
Google: анонсировал Imagen 2, доступный только через их облачный API Vertex.
GlitchBench: модель для распознавания гличей в играх.
KreaAI: инструмент для генерации в реальном времени перешел в открытую бету.
HOSNeRF: таки появился код FVV-модели (Free View Video), для создания видео, где можно свободно вертеть камерой.
MotionDirector: демо фреймворка для генерации видео с желаемыми движениями камеры и персонажей.
ECLIPSE: улучшаем эффективность приоров T2I моделей из семейства UnCLIP.
PatchFusion: появилось демо апскейлера по картам глубины.
Nuvo: текстурирование 3D объектов, полученных из нерфов или гаусианов.
SyncDiffusion: релизнулся код этого генератора панорам.
HeyGen: добавили перевод в один клик, пруфридинг на основе приложенных сабов, перевод нескольких спикеров, ссылки на ютуб/гугл облако. Последние 3 фичи для корпоративных клиентов.
Desco: распознавание и аннотирование объектов на изображения.
EdgeSAM: тоже распознавание, но по клику.
SAD: сегментация 3D объектов.
🎸 ЗВУК 🎸
CreateOS: открыли запись в бету на Trinity, их инструмента для генерации музыки, клонирования голоса, и воспроизведения вокала целевого артиста нужным образом.
🤖 ЧАТЫ 🤖
В библиотеку Transformers, добавлена Mixtral, Bakllava, SeamlessM4T, поддержка GPU от AMD, и не только.
EAGLE: ускорение декодирования LLM за счёт компрессии.
Deci: зарелизили DeciLM-7B, модельку показывающую себя лучше, чем Mistral 7B.
Google: выкатили API для Gemini, хотя их модель попала в просак ибо люди в интернете пришли к выводу, что видео с демонстрацией было фейковым.
Microsoft: выпустили модельку Phi-2 c 2.7B параметрами, обходящая на бенчах 13B модели.
Также они релизнули Promtbase — сборник ресурсов и скриптов по промтингу.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
📹 ВИДЕО + АРТ 🎨
Улучшаем качество генерации видео с помощью метода FreeInit. Можно применить к любой диффузионной модели без дополнительной тренировки. От авторов FreeU.
Google: анонсировал Imagen 2, доступный только через их облачный API Vertex.
GlitchBench: модель для распознавания гличей в играх.
KreaAI: инструмент для генерации в реальном времени перешел в открытую бету.
HOSNeRF: таки появился код FVV-модели (Free View Video), для создания видео, где можно свободно вертеть камерой.
MotionDirector: демо фреймворка для генерации видео с желаемыми движениями камеры и персонажей.
ECLIPSE: улучшаем эффективность приоров T2I моделей из семейства UnCLIP.
PatchFusion: появилось демо апскейлера по картам глубины.
Nuvo: текстурирование 3D объектов, полученных из нерфов или гаусианов.
SyncDiffusion: релизнулся код этого генератора панорам.
HeyGen: добавили перевод в один клик, пруфридинг на основе приложенных сабов, перевод нескольких спикеров, ссылки на ютуб/гугл облако. Последние 3 фичи для корпоративных клиентов.
Desco: распознавание и аннотирование объектов на изображения.
EdgeSAM: тоже распознавание, но по клику.
SAD: сегментация 3D объектов.
🎸 ЗВУК 🎸
CreateOS: открыли запись в бету на Trinity, их инструмента для генерации музыки, клонирования голоса, и воспроизведения вокала целевого артиста нужным образом.
🤖 ЧАТЫ 🤖
В библиотеку Transformers, добавлена Mixtral, Bakllava, SeamlessM4T, поддержка GPU от AMD, и не только.
EAGLE: ускорение декодирования LLM за счёт компрессии.
Deci: зарелизили DeciLM-7B, модельку показывающую себя лучше, чем Mistral 7B.
Google: выкатили API для Gemini, хотя их модель попала в просак ибо люди в интернете пришли к выводу, что видео с демонстрацией было фейковым.
Microsoft: выпустили модельку Phi-2 c 2.7B параметрами, обходящая на бенчах 13B модели.
Также они релизнули Promtbase — сборник ресурсов и скриптов по промтингу.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Занятно, чем ближе смотришь, тем реальнее оно кажется. Вероятно, когда видишь общий кадр, мозг выкупает на фоне остальных вещей, что есть нереальный элемент. А когда он виден лишь частично, особенно без левитации над столом, вопросов нет.
Чёрная техно-магия от Simulon.
Чёрная техно-магия от Simulon.
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Чутка красот с дискорда Banodoco. Народ умеет и практикует.