Stability выпустили модель Cascade (она же Würstchen v3), которая быстро генерит в высоком разрешении и из коробки умеет в текст на изображении. Есть поддержка контролнета и лор.
Построена на архитектуре Würstchen. В латентном пространстве сжимает в 42 раза изображения размером 1024x1024 до 24x24, а на выходе разжимает без потери качества.
Гайд по установке в пару кликов через Pinokio.
Демо (хаггинг)
Демо (коллаб)
Анонс с деталями
Модель
Гитхаб
Построена на архитектуре Würstchen. В латентном пространстве сжимает в 42 раза изображения размером 1024x1024 до 24x24, а на выходе разжимает без потери качества.
Гайд по установке в пару кликов через Pinokio.
Демо (хаггинг)
Демо (коллаб)
Анонс с деталями
Модель
Гитхаб
Ещё от Stability: они на прошлой неделе по-тихому выпустили SVD v 1.1 для анимации изображений. Я ждал какого-то официального анонса, но видимо дальше ждать нет смысла.
Обновлённая версия зафайнтюнена генерить на скорости 25 к/с в разрешении 1024х576. Повысилась детализация видео, его консистентность и плавность движения камеры. На выходе получаются результаты в несколько секунд. Можно сделать упор на быстрый монтаж как в Шторме (твиттер автора), а можно на медитатив, как с Ёжиком в тумане.
Тут плотное сравнение v1 с обновлённой версией.
Можно гонять в ComfyUI, а можно в Forge, или ENFUGUE.
Модель на хаггинге
Подробнее про SVD
Обновлённая версия зафайнтюнена генерить на скорости 25 к/с в разрешении 1024х576. Повысилась детализация видео, его консистентность и плавность движения камеры. На выходе получаются результаты в несколько секунд. Можно сделать упор на быстрый монтаж как в Шторме (твиттер автора), а можно на медитатив, как с Ёжиком в тумане.
Тут плотное сравнение v1 с обновлённой версией.
Можно гонять в ComfyUI, а можно в Forge, или ENFUGUE.
Модель на хаггинге
Подробнее про SVD
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI показали видео генератор Sora.
Качество картинки не сравнимо лучше, чем у Pika, Runway, и SVD. Про остальные варианты даже говорить нет смысла.
Модель умеет генерить из текста или изображения видео в высоком разрешении длинной в 1 минуту, может выдавать сложные сцены с несколькими персонажами, определенными типами движения и точной детализацией объекта и фона. Sora способна продолжать и уже существующие видосы. Также она понимает не только то, что пользователь запрашивает в подсказке, но и то, как эти вещи существуют в физическом мире.
Из примеров видно, что у Sora хорошее (пусть и не идеальное) понимание физики. Если в Runway на старте Gen-2 ты ощущал, что для модели все объекты в кадре словно вырезаны из бумаги и она просто двигает их по плоскости, не понимая пространство, то с Sora ты видишь, что она умеет в объём и осознаёт как объекты и их окружение должны перемещаться в кадре и взаимодействовать. Сюда же входит работа с освещением и отражениями.
Отдельно отмечу генерацию casual контента, типа съёмка с мобильной камеры вида из окна поезда. То, что у модели сходу реалистично получается такое выдавать это очень серьёзный показатель.
Когда релиз неизвестно.
Больше примеров на странице анонса и в твиттере Сэма, где он выборочно генерит промты, что люди ему пишут.
Качество картинки не сравнимо лучше, чем у Pika, Runway, и SVD. Про остальные варианты даже говорить нет смысла.
Модель умеет генерить из текста или изображения видео в высоком разрешении длинной в 1 минуту, может выдавать сложные сцены с несколькими персонажами, определенными типами движения и точной детализацией объекта и фона. Sora способна продолжать и уже существующие видосы. Также она понимает не только то, что пользователь запрашивает в подсказке, но и то, как эти вещи существуют в физическом мире.
Из примеров видно, что у Sora хорошее (пусть и не идеальное) понимание физики. Если в Runway на старте Gen-2 ты ощущал, что для модели все объекты в кадре словно вырезаны из бумаги и она просто двигает их по плоскости, не понимая пространство, то с Sora ты видишь, что она умеет в объём и осознаёт как объекты и их окружение должны перемещаться в кадре и взаимодействовать. Сюда же входит работа с освещением и отражениями.
Отдельно отмечу генерацию casual контента, типа съёмка с мобильной камеры вида из окна поезда. То, что у модели сходу реалистично получается такое выдавать это очень серьёзный показатель.
Когда релиз неизвестно.
Больше примеров на странице анонса и в твиттере Сэма, где он выборочно генерит промты, что люди ему пишут.
Дайджест:
📹 ВИДЕО + АРТ 🎨
Dashtoon: генерим и публикуем комиксы.
Tldraw: интерфейс обзавёлся русским языком и ещё по мелочи изменения в UI/UX.
LGM: используем гауссианы для создания 3D моделей из картинки, текста, или оных вместе взятых. Есть установка через Pinokio.
3DTopia: модель для генерации 3D, работающая в 2 этапа: создание чернового меша и полировки (refinement).
threefiner: улучшатель сгенерированных 3D мешей.
DreamMatcher: улучшаем консистентность генерируемых изображений на основе рефа.
Unity: в коллабе со Stability работают над Holo-gen, генератором PBR изображений на основе 3D геометрии и текстового промта.
Adobe: генерим изображения с пошаговым предугадыванием движения в кадре.
Гауссианы теперь нативно поддерживаются в Gradio. Кратко как собрать своё AI-приложение с 3D.
ByteDance: анимируем в Boximator картинки через выделение объектов.
V-JEPA: обученная на видео модель, которая понимает происходящее в кадре и может заполнять пробелы за маской.
Magic-Me: генератор видео с целевым лицом, похожий на InstantID, который для картинок.
🎸 ЗВУК 🎸
В Audacity появилась поддержка AI-плагинов для генерации музыки, смены её стиля, и выделения стэмов.
Stability: выпустили инструменты лежащие в основе Stable Audio. Ещё сделали страницу с демками.
Редактирование аудио с помощью текста.
🤖 ЧАТЫ 🤖
SPIN: нейронка генерит тренировочные данные и сама себя файнтюнит.
OpenAI: у ChatGPT теперь есть память, и его знания переносятся между чатами.
Сравниваем чаты по визуалу (VLM) через WildVision Arena.
Вышел Mistral Next . Можно сравнить тут бок-об-бок с Mixtral и другими моделями.
Gradio: появился компонент Gradio Notebook для возможности делиться своими AI-сборками в интерактивном режиме схожим с Google Colab.
GPT для нахождения и чата по бумагам на Arxiv.
Масштабируем контекстное окно LLM до 128К .
Яндекс: добавили в браузер выжимку длинных видео на русском и другие AI-фичи.
📹 ВИДЕО + АРТ 🎨
Dashtoon: генерим и публикуем комиксы.
Tldraw: интерфейс обзавёлся русским языком и ещё по мелочи изменения в UI/UX.
LGM: используем гауссианы для создания 3D моделей из картинки, текста, или оных вместе взятых. Есть установка через Pinokio.
3DTopia: модель для генерации 3D, работающая в 2 этапа: создание чернового меша и полировки (refinement).
threefiner: улучшатель сгенерированных 3D мешей.
DreamMatcher: улучшаем консистентность генерируемых изображений на основе рефа.
Unity: в коллабе со Stability работают над Holo-gen, генератором PBR изображений на основе 3D геометрии и текстового промта.
Adobe: генерим изображения с пошаговым предугадыванием движения в кадре.
Гауссианы теперь нативно поддерживаются в Gradio. Кратко как собрать своё AI-приложение с 3D.
ByteDance: анимируем в Boximator картинки через выделение объектов.
V-JEPA: обученная на видео модель, которая понимает происходящее в кадре и может заполнять пробелы за маской.
Magic-Me: генератор видео с целевым лицом, похожий на InstantID, который для картинок.
🎸 ЗВУК 🎸
В Audacity появилась поддержка AI-плагинов для генерации музыки, смены её стиля, и выделения стэмов.
Stability: выпустили инструменты лежащие в основе Stable Audio. Ещё сделали страницу с демками.
Редактирование аудио с помощью текста.
🤖 ЧАТЫ 🤖
SPIN: нейронка генерит тренировочные данные и сама себя файнтюнит.
OpenAI: у ChatGPT теперь есть память, и его знания переносятся между чатами.
Сравниваем чаты по визуалу (VLM) через WildVision Arena.
Вышел Mistral Next . Можно сравнить тут бок-об-бок с Mixtral и другими моделями.
Gradio: появился компонент Gradio Notebook для возможности делиться своими AI-сборками в интерактивном режиме схожим с Google Colab.
GPT для нахождения и чата по бумагам на Arxiv.
Масштабируем контекстное окно LLM до 128К .
Яндекс: добавили в браузер выжимку длинных видео на русском и другие AI-фичи.
Google: не успели толком раскрыть выпущенную Ultra, как уже анонсировали Pro 1.5 с 1 млн токенов, чего должно хватить на обработку 1 часа видео, 11 часов аудио, 30к строк кода или 700к слов.
Virl: AI-агенты, которые видят окружающий мир через карты гугла, могут подсказывать куда сходить, и выполнять другие задания.
Fast-LLM: инструмент на основе Rust для запуска LLM на маке.
UForm: VLM модель напол-литра 0,5B для работы на мобилках.
Исследование:
* OpenMoE — исследование MoE архитектуры с предложением, что можно улучшить.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Virl: AI-агенты, которые видят окружающий мир через карты гугла, могут подсказывать куда сходить, и выполнять другие задания.
Fast-LLM: инструмент на основе Rust для запуска LLM на маке.
UForm: VLM модель на
Исследование:
* OpenMoE — исследование MoE архитектуры с предложением, что можно улучшить.
Please open Telegram to view this post
VIEW IN TELEGRAM
Нода для работы с 3D в ComfyUI.
Поддерживает гауссианы, нерфы, и другие алгоритмы. Говорят на 3080 генерация методом 3DTopia/LGM занимает 30 сек, а через Triplane Gaussian Transformers 10 сек. Превью показывается с помощью gsplat.js и three.js.
https://github.com/MrForExample/ComfyUI-3D-Pack
Поддерживает гауссианы, нерфы, и другие алгоритмы. Говорят на 3080 генерация методом 3DTopia/LGM занимает 30 сек, а через Triplane Gaussian Transformers 10 сек. Превью показывается с помощью gsplat.js и three.js.
https://github.com/MrForExample/ComfyUI-3D-Pack
Улучшенные гауссианы - GES (Generalized Exponential Splatting).
Теперь получить 3D из фото/видео можно с большей детализацией, вдвое меньшим объёмом памяти и на 39% быстрее. Авторы пишут, что для результатов как в пейпере нужно 24 гига видеопамяти, но вполне возможно для ваших нужд понадобится меньше. И опенсорсные волшебники найдут способ сделать все еще менее прожорливым.
https://abdullahamdi.com/ges/
Теперь получить 3D из фото/видео можно с большей детализацией, вдвое меньшим объёмом памяти и на 39% быстрее. Авторы пишут, что для результатов как в пейпере нужно 24 гига видеопамяти, но вполне возможно для ваших нужд понадобится меньше. И опенсорсные волшебники найдут способ сделать все еще менее прожорливым.
https://abdullahamdi.com/ges/
Если вас удивляет, что очень мало новостей по развитию нейросетей в музыке. Ответ цифрами:
3 мейджор лейбла
75 процентов музыки в их владении
100 млн треков на стримингах
Тысячи юристов ждут любой ошибки
Многомиллионные штрафы за нарушения в сфере авторского права
Мейджоры не упустят свою часть пирога и полюбому уже пилят инструменты для AI-монетизации их каталогов. Другое дело как быстро мы что-то увидим. Ожидать скорости от индустрии, опирающейся в 2024 году на понятие "механическое роялти" из середины прошлого века, не приходится.
Но легальный способ всё ускорить есть... и даже не один.
3 мейджор лейбла
75 процентов музыки в их владении
100 млн треков на стримингах
Тысячи юристов ждут любой ошибки
Многомиллионные штрафы за нарушения в сфере авторского права
Мейджоры не упустят свою часть пирога и полюбому уже пилят инструменты для AI-монетизации их каталогов. Другое дело как быстро мы что-то увидим. Ожидать скорости от индустрии, опирающейся в 2024 году на понятие "механическое роялти" из середины прошлого века, не приходится.
Но легальный способ всё ускорить есть... и даже не один.
YouTube
METALLICA & ANNA ASTI — ЦАРИЦА (ФУЛЛ// ПОЛНАЯ ВЕРСИЯ // COVER BY НЕЙРОХИТ) METALLICA — ЦАРИЦА
METALLICA — ЦАРИЦА
‼️ВНИМАНИЮ АВТОРОВ‼️
Если Вы являетесь автором трека и его распространение ущемляет Ваши авторские права, просим Вас связаться с нами в Telegram (@,tomchakowski) , мы тут же удалим материал.
Авторы трека: vk.com/neyrohitclub
‼️ВНИМАНИЮ АВТОРОВ‼️
Если Вы являетесь автором трека и его распространение ущемляет Ваши авторские права, просим Вас связаться с нами в Telegram (@,tomchakowski) , мы тут же удалим материал.
Авторы трека: vk.com/neyrohitclub
Музыкальная пауза
Ко мне тут на днях братан пригонял и включил нейрокавер Металлики на Анну Асти. Я прям ощутил рывок в качестве обработки голоса. Ну и ребята, стоящие за аранжировкой, молодцы.
https://youtu.be/rRtuPUHEPqQ?si=OQdPUEEnRoaRSy-l
Есть ещё такая версия. Мотив по попсовее и рифы по тяжелее, мне тоже нравится. Репчик еще убрать бы, а то он не удался.
https://youtu.be/GriBtVqYxJc?si=m0hdK1nLbVhbEYFD
Делитесь нейрокаверами, которые вам зашли или вы сами сделали.
Ко мне тут на днях братан пригонял и включил нейрокавер Металлики на Анну Асти. Я прям ощутил рывок в качестве обработки голоса. Ну и ребята, стоящие за аранжировкой, молодцы.
https://youtu.be/rRtuPUHEPqQ?si=OQdPUEEnRoaRSy-l
Есть ещё такая версия. Мотив по попсовее и рифы по тяжелее, мне тоже нравится. Репчик еще убрать бы, а то он не удался.
https://youtu.be/GriBtVqYxJc?si=m0hdK1nLbVhbEYFD
Делитесь нейрокаверами, которые вам зашли или вы сами сделали.
Forwarded from Neurogen
Оказывается, за пару дней до анонса Google их модели на 1 млн токенов, вышла open-source модель с таким же контекстным окном.
Large World Model имеет 2 варианта: обычный и мультимодальный, то есть кроме текста она принимает и изображения и видео. В основе лежит дообученная Llama-2 7B.
Из особенностей, о которых говорят разработчики:
- LWM может ответить на вопросы о видео на YouTube продолжительностью более 1 часа.
- LWM обеспечивает высокую точность в контекстном окне 1M и превосходит GPT-4V и Gemini Pro.
- LWM генерирует изображения на основе текстовых подсказок в режиме авторегрессии.
- LWM генерирует видео на основе текстовых подсказок в авторегрессионном режиме.
- LWM может ответить на вопросы об изображениях.
Для желающих запустить и протестировать модель у себя локально, основная модель, а также ее вариации на 32, 128, 256 и 512 тысяч токенов доступны на Huigging Face
Тут уже доступны квантованные варианты текстовой версии модели на 1 млн токенов в GGUF формате.
AWQ вариант
GPTQ варинт
Large World Model имеет 2 варианта: обычный и мультимодальный, то есть кроме текста она принимает и изображения и видео. В основе лежит дообученная Llama-2 7B.
Из особенностей, о которых говорят разработчики:
- LWM может ответить на вопросы о видео на YouTube продолжительностью более 1 часа.
- LWM обеспечивает высокую точность в контекстном окне 1M и превосходит GPT-4V и Gemini Pro.
- LWM генерирует изображения на основе текстовых подсказок в режиме авторегрессии.
- LWM генерирует видео на основе текстовых подсказок в авторегрессионном режиме.
- LWM может ответить на вопросы об изображениях.
Для желающих запустить и протестировать модель у себя локально, основная модель, а также ее вариации на 32, 128, 256 и 512 тысяч токенов доступны на Huigging Face
Тут уже доступны квантованные варианты текстовой версии модели на 1 млн токенов в GGUF формате.
AWQ вариант
GPTQ варинт