Вышла Midjourney V6. Пока это ранняя альфа-версия, которую 9 месяцев тренировали с нуля, а значит будут огрехи и пока не выйдут в полный релиз делать серьёзные выводы не стоит.
Новшества:
* Более точное следование промтам, в том числе длинным
* Улучшен багаж знаний модели и понимание контекста
* Улучшена генерация на основе изображений
* Надписи теперь лучше отображаются. Выделение их "кавычками" с добавкой
* апскейлеры
Важное:
* Работа с промтами в V6 значительно отличается от V5, придется переучиваться.
* V6 гораздо более чувствителен к промту. Избегайте "мусора" вроде "award winning, photorealistic, 4k, 8k".
* Четко сформулируйте, что вы хотите получить. Возможно, это будет менее атмосферно, однако если четко сформулировать свои пожелания, MJ будет гораздо лучше вас понимать.
* Если вы хотите получить что-то фотореалистичное / буквальное / без примесей MJ, лучше по умолчанию использовать
* Низкие значения параметра
На с кринах V6 против V5.2. Промт:
Ну что ж, плёнка у нас есть — теперь нужна камера (SVD, Pika, Runway, итд)
Новшества:
* Более точное следование промтам, в том числе длинным
* Улучшен багаж знаний модели и понимание контекста
* Улучшена генерация на основе изображений
* Надписи теперь лучше отображаются. Выделение их "кавычками" с добавкой
--style raw или --stylize на низких значениях может улучшить результат. Пример: /imagine a photo of the text "Hello World!" written with a marker on a sticky note --ar 16:9 --v 6 * апскейлеры
'subtle' and 'creative' выдают разрешение в 2 раза выше (кнопки для этого появляются после нажатия на U1/U2/U3/U4)Важное:
* Работа с промтами в V6 значительно отличается от V5, придется переучиваться.
* V6 гораздо более чувствителен к промту. Избегайте "мусора" вроде "award winning, photorealistic, 4k, 8k".
* Четко сформулируйте, что вы хотите получить. Возможно, это будет менее атмосферно, однако если четко сформулировать свои пожелания, MJ будет гораздо лучше вас понимать.
* Если вы хотите получить что-то фотореалистичное / буквальное / без примесей MJ, лучше по умолчанию использовать
--style raw.* Низкие значения параметра
--stylize (по умолчанию 100) могут улучшить понимание промтов, в то время как высокие значения (до 1000) могут улучшить эстетику.На с кринах V6 против V5.2. Промт:
35mm film still, two-shot of a 50 year old black man with a grey beard wearing a brown jacket and red scarf standing next to a 20 year old white woman wearing a navy blue and cream houndstooth coat and black knit beanie. They are walking down the middle of the street at midnight, illuminated by the soft orange glow of the street lights --ar 7:5 --style raw --v 6.0
Ну что ж, плёнка у нас есть — теперь нужна камера (SVD, Pika, Runway, итд)
Media is too big
VIEW IN TELEGRAM
Как раз Runway добавили в Motion Brush режим Ambient Motion для анимации окружения (волны, снегопад, огонь, итд). Выделяешь нужное в кадре, задаешь интенсивность, и вуаля.
Ещё они недавно озвучку текста прицепили.
Ещё они недавно озвучку текста прицепили.
Aphex Twin был королём дипфейков ещё 25+ лет назад. Windowlicker и Come to Daddy выглядят впечатляюще даже сейчас. Раньше такое можно было увидеть по MTV. Причём я помню семплы из Windowlicker играли в официальных рекламных перебивках канала НТВ.
Если вы потеряли HP глядя предыдущие клипы (зато заработали XP для левелапа), держите аптечку от того же клипмейкера, Криса Каннингема:
Madonna — Frozen
Bjork — All Is Full Of Love
Кстати, коллаб Апекса с Крисом выдался очень продуктивным и продолжительным. Они часто тусили вместе вне проектов, и даже в интервью после съёмок клипа для Bjork надели на роботов лица Апекса.
Если вы потеряли HP глядя предыдущие клипы (зато заработали XP для левелапа), держите аптечку от того же клипмейкера, Криса Каннингема:
Madonna — Frozen
Bjork — All Is Full Of Love
Кстати, коллаб Апекса с Крисом выдался очень продуктивным и продолжительным. Они часто тусили вместе вне проектов, и даже в интервью после съёмок клипа для Bjork надели на роботов лица Апекса.
Media is too big
VIEW IN TELEGRAM
Alibaba выпустили RichDreamer, для генерации 3D из текста. Модель натренирована на датасете LIAON-2B и работает в связке с картами нормалей и глубины. Может быть внедрена в существующие пайплайны, где используются NeRF или DMTet, чтобы улучшить получаемую геометрию.
Сайт
Демо
Гитхаб
Сайт
Демо
Гитхаб
This media is not supported in your browser
VIEW IN TELEGRAM
Новое в tldraw:
* можно открыть код сгенерированного проекта в Replit, у которых есть и своя нейронка натренированная на коде
* интеграция с p5.js для визуализации на основе JS
* внедрили matplotlib для построения графиков
* улучшения по мелочи
* можно открыть код сгенерированного проекта в Replit, у которых есть и своя нейронка натренированная на коде
* интеграция с p5.js для визуализации на основе JS
* внедрили matplotlib для построения графиков
* улучшения по мелочи
This media is not supported in your browser
VIEW IN TELEGRAM
Tencent выкатила AppAgent, нейронку которая может выполнять задания в любых приложениях на смартфоне (пока только Android). Человек задаёт AI таски простым языком и она их делает имитируя тапы и свайпы. Работает на базе GPT-4V и можно научить новым вещам просто продемонстрировав, что нужно делать. Либо она сама разберётся (кто знает больше фич телеги ты или AI?).
Теперь нейронка может за тебя смотреть ютуб и тикток. Добби свободен!
Теперь нейронка может за тебя смотреть ютуб и тикток. Добби свободен!
This media is not supported in your browser
VIEW IN TELEGRAM
Самая быстрая генерация на диком западе — StreamDiffusion.
Стримим диффузию на скорости до 100+ FPS. Под капотом на выбор SD-turbo (быстрее) или LCM-LoRA (медленнее). Можно работать как в режиме text-2-image, так и image-2-image.
Стримим диффузию на скорости до 100+ FPS. Под капотом на выбор SD-turbo (быстрее) или LCM-LoRA (медленнее). Можно работать как в режиме text-2-image, так и image-2-image.
Media is too big
VIEW IN TELEGRAM
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Интересная статья и калькулятор расхода видеопамяти при использовании разных LLM.
Cколько VRAM требуется GPU для обучения и файнтюна языковых моделей? Какие факторы влияют на потребление VRAM? Как оно меняется при различных настройках модели?
НЕ рассматриваются вопросы использования кванитизированных моделей и лор.
Статья: https://asmirnov.xyz/vram
Калькулятор: выбираете LLM и параметры, инференс или обучение и жмете кнопку посчитать.
https://vram.asmirnov.xyz/
Cколько VRAM требуется GPU для обучения и файнтюна языковых моделей? Какие факторы влияют на потребление VRAM? Как оно меняется при различных настройках модели?
НЕ рассматриваются вопросы использования кванитизированных моделей и лор.
Статья: https://asmirnov.xyz/vram
Калькулятор: выбираете LLM и параметры, инференс или обучение и жмете кнопку посчитать.
https://vram.asmirnov.xyz/
Дайджест:
📹 ВИДЕО + АРТ 🎨
Pika 1.0 теперь доступен всем, а не только по вейтлисту.
AnyDoor: демо виртуальной примерочной.
MotionDirector: теперь можно настраивать стиль объектов в видео и как они должны появляться в кадре.
MotionCtrl: пришиваем контроль камеры к опенсорсным моделям. Пока работает с LVDM/VideoCrafter. Поддержка SVD и AnimateDiff подъедет позже, хотя в последнем контроль камеры точно есть.
HarmonyView: генерим из одной картинки разные углы обзора для получения 3D. Основано на SyncDreamer.
AGAP: редактируем 3D сцену через стилизацию, интерактивное рисование, и сегментацию.
PlatoNeRF: инструмент для получения новых углов обзора в 3D с использование NeRF и лидаров.
DreamDistribution: даём нейронке рефы и она генерит схожее в 2D или 3D.
LangSplat: сегментируем объекты в 3D, используя гауссианы.
OneFormer: тоже мультизадачный фреймворк для сегментации.
UniRef++: сегментируем что-угодно на картинках и видео по рефу.
SPM: удаляем или изменяем объекты на картинках так, чтобы они смотрелись концептуально выдержанно.
TF-T2V: text-2-video фреймворк для генерации видео на основе датасета без аннотаций.
HD Painter: инпейнтинг с учётом контекста.
Apple: тоже выпустили свой сегментатор объектов на картинках Ferret.
🎸 ЗВУК 🎸
Korus AI: в коллабе с лейблом mau5trap запустили конкурс AI-ремиксов на треки Deadmau5.
🤖 ЧАТЫ 🤖
MetaGPT: появился веб-интерфейс мощного фреймворка из AI-агентов, реализующего полный цикл разработки программного обеспечения.
Argilla: выпустили Notux 8x7B-v1 файнтюн Mixtral, который показывает себя лучше базовой модели.
Microsoft: используем Windows AI Studio для разработки и файнтюна разных LLM c Hugging Face локально или через Azure.
Также они выпустили Copilot на Android, с бесплатным чатом на GPT-4 и DALLE 3. Может понадобиться VPN.
OpenChat: ещё одна опенсорсная альтернатива GPT-3.5.
VCoder: это VLM, использующая сегментацию и карты глубины для улучшения чата по картинкам.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
📹 ВИДЕО + АРТ 🎨
Pika 1.0 теперь доступен всем, а не только по вейтлисту.
AnyDoor: демо виртуальной примерочной.
MotionDirector: теперь можно настраивать стиль объектов в видео и как они должны появляться в кадре.
MotionCtrl: пришиваем контроль камеры к опенсорсным моделям. Пока работает с LVDM/VideoCrafter. Поддержка SVD и AnimateDiff подъедет позже, хотя в последнем контроль камеры точно есть.
HarmonyView: генерим из одной картинки разные углы обзора для получения 3D. Основано на SyncDreamer.
AGAP: редактируем 3D сцену через стилизацию, интерактивное рисование, и сегментацию.
PlatoNeRF: инструмент для получения новых углов обзора в 3D с использование NeRF и лидаров.
DreamDistribution: даём нейронке рефы и она генерит схожее в 2D или 3D.
LangSplat: сегментируем объекты в 3D, используя гауссианы.
OneFormer: тоже мультизадачный фреймворк для сегментации.
UniRef++: сегментируем что-угодно на картинках и видео по рефу.
SPM: удаляем или изменяем объекты на картинках так, чтобы они смотрелись концептуально выдержанно.
TF-T2V: text-2-video фреймворк для генерации видео на основе датасета без аннотаций.
HD Painter: инпейнтинг с учётом контекста.
Apple: тоже выпустили свой сегментатор объектов на картинках Ferret.
🎸 ЗВУК 🎸
Korus AI: в коллабе с лейблом mau5trap запустили конкурс AI-ремиксов на треки Deadmau5.
🤖 ЧАТЫ 🤖
MetaGPT: появился веб-интерфейс мощного фреймворка из AI-агентов, реализующего полный цикл разработки программного обеспечения.
Argilla: выпустили Notux 8x7B-v1 файнтюн Mixtral, который показывает себя лучше базовой модели.
Microsoft: используем Windows AI Studio для разработки и файнтюна разных LLM c Hugging Face локально или через Azure.
Также они выпустили Copilot на Android, с бесплатным чатом на GPT-4 и DALLE 3. Может понадобиться VPN.
OpenChat: ещё одна опенсорсная альтернатива GPT-3.5.
VCoder: это VLM, использующая сегментацию и карты глубины для улучшения чата по картинкам.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Neurogen
UltimateVocalRemover - раскладываем аудио на компоненты
Что умеет Ultimate Vocal Remover?
Разделять аудио файлы на мультитреки (можно достать барабаны, вокал, бас и т.д.),
разделять вокал и инструментал (создание минусовок),
удаление артефактов из аудио (чистка от шумов, ревера и т.д.),
изменение длительности, питча аудио и другое. Подробнее можно прочитать тут.
Скачать
Для Mac и Windows есть готовые установщики. Все остальное можно найти на GitHub странице проекта.
Мануал на русском
Что умеет Ultimate Vocal Remover?
Разделять аудио файлы на мультитреки (можно достать барабаны, вокал, бас и т.д.),
разделять вокал и инструментал (создание минусовок),
удаление артефактов из аудио (чистка от шумов, ревера и т.д.),
изменение длительности, питча аудио и другое. Подробнее можно прочитать тут.
Скачать
Для Mac и Windows есть готовые установщики. Все остальное можно найти на GitHub странице проекта.
Мануал на русском
Очень классно! Ребята из @aifilmmaker продолжают пилить годный контент с помощью нейронок.
Forwarded from Ai Filmmaker (Dmitriy Alekseev)
Media is too big
VIEW IN TELEGRAM
Memories of winter holidays (Ai animation)
Created with Midjourney and After Effects by:
Dmitry Alekseev and Sergey Kozlov
Music: Hip-hop classica
Created with Midjourney and After Effects by:
Dmitry Alekseev and Sergey Kozlov
Music: Hip-hop classica
С Новым Годом, котаны! Пусть в 2024-м нейронки помогут вам освободиться от рутины, реализовать креативные интересные проекты, и притянуть к себе лавину лавешек, которую вы оседлаете. Веселья каждую секунду пространства!