Media is too big
VIEW IN TELEGRAM
Про метавселенную
На днях SDF Studio, фреймворк для 3D реконструкции локаций и объектов, который сделан на базе NeRFsudio интегрировали Neuralangelo — модель для конвертации масштабных двухмерных видео в трёхмерные NeRF сцены. SDF имеет унифицированную модульную структуру, благодаря чему можно внутри интерфейса переносить 3D реконструкцию между разными методами. Проект в опенсорсе, а добавление новых оптимизированных методов обработки визуальных данных позволит рендерить NeRF всё большему количеству людей. На видео Grid-guided NeRF.
Выступая на Positive Hack Days, я рассказывал какой будет настоящая метавселенная: фотореалистичная копия реальности, визуальный стиль которой можно переключать по щелчку, или наслаивать интерактивные элементы. И это будет пространство не для нас, а наших цифровых двойников, которым мы сможем передать через датасеты свои характеристики. Они будут выполнять наши поручения и фильтровать через себя весь контент/новости/спам и прочее, а нам рекомендовать, что посмотреть/послушать/купить и так далее. Потому что мы уже не успеваем следить за информацией вокруг, а они смогут быть везде сразу и всё успевать. С помощью цифровых двойников мы сможем сфокусироваться на важном для нас.
Например, после того как ты весь день занимался семьёй, творческими проектами, или пришёл домой с работы твой цифровой двойник предложит тебе посмотреть на голографическом экране или в VR шлеме концерт или фильм на котором он сегодня был. Можно и для терапии будет поговорить с ним как с зеркалом, где в отражении версия тебя, обладающая знаниями со всего мира.
И если взглянуть на тенденцию с конвертацией фоток/видео в 3D, обработкой городских локаций плюс субъектов в NeRF (включая динамические нерфы), ранние эксперименты с Free View Video (FVV), и распознаванием моушена на видео для лёгкой замены персонажей — то можно предположить, что дальше интерактив будет не с плоским контентом, а с его оцифрованными трёхмерными объектами. Даже Midjourney двигается в сторону "60 FPS fully volumetric 3D". (Ник постоянно...
На днях SDF Studio, фреймворк для 3D реконструкции локаций и объектов, который сделан на базе NeRFsudio интегрировали Neuralangelo — модель для конвертации масштабных двухмерных видео в трёхмерные NeRF сцены. SDF имеет унифицированную модульную структуру, благодаря чему можно внутри интерфейса переносить 3D реконструкцию между разными методами. Проект в опенсорсе, а добавление новых оптимизированных методов обработки визуальных данных позволит рендерить NeRF всё большему количеству людей. На видео Grid-guided NeRF.
Выступая на Positive Hack Days, я рассказывал какой будет настоящая метавселенная: фотореалистичная копия реальности, визуальный стиль которой можно переключать по щелчку, или наслаивать интерактивные элементы. И это будет пространство не для нас, а наших цифровых двойников, которым мы сможем передать через датасеты свои характеристики. Они будут выполнять наши поручения и фильтровать через себя весь контент/новости/спам и прочее, а нам рекомендовать, что посмотреть/послушать/купить и так далее. Потому что мы уже не успеваем следить за информацией вокруг, а они смогут быть везде сразу и всё успевать. С помощью цифровых двойников мы сможем сфокусироваться на важном для нас.
Например, после того как ты весь день занимался семьёй, творческими проектами, или пришёл домой с работы твой цифровой двойник предложит тебе посмотреть на голографическом экране или в VR шлеме концерт или фильм на котором он сегодня был. Можно и для терапии будет поговорить с ним как с зеркалом, где в отражении версия тебя, обладающая знаниями со всего мира.
И если взглянуть на тенденцию с конвертацией фоток/видео в 3D, обработкой городских локаций плюс субъектов в NeRF (включая динамические нерфы), ранние эксперименты с Free View Video (FVV), и распознаванием моушена на видео для лёгкой замены персонажей — то можно предположить, что дальше интерактив будет не с плоским контентом, а с его оцифрованными трёхмерными объектами. Даже Midjourney двигается в сторону "60 FPS fully volumetric 3D". (Ник постоянно...
... тусит в дискорде MJ на комьюнити созвонах, подгоняет инсайды, выдумывать эту инфу причин у него особо нет). Так что количество стилизаций "Во все тяжкие", "Гарри Поттера" и прочих будет увеличиваться, а визуальное качество их будет становиться лучше. Как 3D-рендер, с персонализацией вплоть до самостоятельного выбора позиции камеры, персонажа и диалога. Где лицами можно жонглировать через дипфейки, а голос пришить через TTS модели. Или подойти к этому через что-то вроде MetaHuman Animator.
И это автоматом не означает, что метаверс будет принадлежать Google/Apple/Nvidia/ и прочим ибо у них навалом данных.
1) Потому что, помимо данных у них и навалом обвязок регуляторами. Например, Google то и дело штрафуют на сотни миллионов долларов за нарушения в сборе и хранении информации о пользователях. Причём в некоторых юрисдикциях им даже не дают запустить фичи, потому что они не могут соблюсти требования. Если они не могут сохранно держать ваши персональные и финансовые данные часто сливая или продавая их налево, есть ли смысл доверять им своего цифрового двойника? Что они через него смогут узнать о вас/ каким левым людям дадут к нему доступ/ на каких документах поставят подпись или впишут дипфеком там где вас не было?
2) Облака не вывозят нагрузки. Даже ChatGPT со всем финансированием и ресурсами от Microsoft постоянно тупит и тормозит. А мы говорим про визуальные данные, которые тяжелее и хранить и обрабатывать. Тут ведь ещё не просто один раз сосканить комнату и сделать нерф на её основе как в Immersive View, нужно актуализировать данные (особенно для массовых мест). А если ещё наслоить сюда постоянно меняющиеся интерактивные элементы, смену визуальных стилей, AI-агентов которые будут в мете постоянно генерить контент вроде арта / видео/ музыки / 3D игр про AI-агента создающего 3D игру.... Здесь стоит вспомнить историю Boomy, через которых за 2 года сгенерировалось 14,5 миллионов треков, или 14% от всей записанной музыки в мире (глянул, уже ~16 млн треков, то есть +1,5 млн треков за 2 месяца). А таких проектов в ближайшие годы будут тысячи. Можно парировать, что бигтехи могут быстро нарастить компьют, но 52% полупроводниковых микросхем производит TSMC на Тайване и 18% Samsung в Южной Корее. Строить свои заводы в США и обучать людей это дорого и долго, да и экономические условия во времена краха банков и массовых увольнений в корпорациях не соблаговолят этому. Так, что велика вероятность, что они не смогут наращивать компьют нужными темпами.
Из-за давления регуляторов и узкого места в мощностях бигтехам придётся разворачивать проекты постепенно на ограниченной территории и аудитории... вот только это идёт в разрез со скоростями опенсорса. Прошло уже больше 9 месяцев как были анонсированы Imagen от гугла и Make-a-Video от запрещёнки.... где бы эти проекты сейчас ни были всем уже без разницы, потому что есть Zeroscope 2 XL, GEN-2, Potat1, модели с ControlNet на борту, и тд. Этот рынок никого не ждёт — если дверь закрыта, народ ломанётся в те что открыты.
А дальше просто будут нейронки, которым скармливаешь скриншот приложения, описываешь как оно работает, а нейронка тебе генерит его код, и ты можешь также чатом его персонализировать под себя....
Большие языковые и генеративные модели уже помещаются локально на одну видюху, телефон, запускаются прямо в браузере через WebGPU, и их можно даже ускорить через распределёнку вроде Stable Horde. Так что ваши приватные данные, цифровой двойник, сгенерированный контент, и мета-проекты могут не покидать ваше устройство.
Дело за визуализацией меты исходя из такого контекста, а также экономической моделью. И движ в эту сторону есть...
Интернет по своей природе децентрализован и построен на свободном программном обеспечении. Вероятно таким же будет и метаверс.
И это автоматом не означает, что метаверс будет принадлежать Google/Apple/Nvidia/ и прочим ибо у них навалом данных.
1) Потому что, помимо данных у них и навалом обвязок регуляторами. Например, Google то и дело штрафуют на сотни миллионов долларов за нарушения в сборе и хранении информации о пользователях. Причём в некоторых юрисдикциях им даже не дают запустить фичи, потому что они не могут соблюсти требования. Если они не могут сохранно держать ваши персональные и финансовые данные часто сливая или продавая их налево, есть ли смысл доверять им своего цифрового двойника? Что они через него смогут узнать о вас/ каким левым людям дадут к нему доступ/ на каких документах поставят подпись или впишут дипфеком там где вас не было?
2) Облака не вывозят нагрузки. Даже ChatGPT со всем финансированием и ресурсами от Microsoft постоянно тупит и тормозит. А мы говорим про визуальные данные, которые тяжелее и хранить и обрабатывать. Тут ведь ещё не просто один раз сосканить комнату и сделать нерф на её основе как в Immersive View, нужно актуализировать данные (особенно для массовых мест). А если ещё наслоить сюда постоянно меняющиеся интерактивные элементы, смену визуальных стилей, AI-агентов которые будут в мете постоянно генерить контент вроде арта / видео/ музыки / 3D игр про AI-агента создающего 3D игру.... Здесь стоит вспомнить историю Boomy, через которых за 2 года сгенерировалось 14,5 миллионов треков, или 14% от всей записанной музыки в мире (глянул, уже ~16 млн треков, то есть +1,5 млн треков за 2 месяца). А таких проектов в ближайшие годы будут тысячи. Можно парировать, что бигтехи могут быстро нарастить компьют, но 52% полупроводниковых микросхем производит TSMC на Тайване и 18% Samsung в Южной Корее. Строить свои заводы в США и обучать людей это дорого и долго, да и экономические условия во времена краха банков и массовых увольнений в корпорациях не соблаговолят этому. Так, что велика вероятность, что они не смогут наращивать компьют нужными темпами.
Из-за давления регуляторов и узкого места в мощностях бигтехам придётся разворачивать проекты постепенно на ограниченной территории и аудитории... вот только это идёт в разрез со скоростями опенсорса. Прошло уже больше 9 месяцев как были анонсированы Imagen от гугла и Make-a-Video от запрещёнки.... где бы эти проекты сейчас ни были всем уже без разницы, потому что есть Zeroscope 2 XL, GEN-2, Potat1, модели с ControlNet на борту, и тд. Этот рынок никого не ждёт — если дверь закрыта, народ ломанётся в те что открыты.
А дальше просто будут нейронки, которым скармливаешь скриншот приложения, описываешь как оно работает, а нейронка тебе генерит его код, и ты можешь также чатом его персонализировать под себя....
Большие языковые и генеративные модели уже помещаются локально на одну видюху, телефон, запускаются прямо в браузере через WebGPU, и их можно даже ускорить через распределёнку вроде Stable Horde. Так что ваши приватные данные, цифровой двойник, сгенерированный контент, и мета-проекты могут не покидать ваше устройство.
Дело за визуализацией меты исходя из такого контекста, а также экономической моделью. И движ в эту сторону есть...
Интернет по своей природе децентрализован и построен на свободном программном обеспечении. Вероятно таким же будет и метаверс.
Чуть подробнее о голографическом экране с предыдущего поста — Looking Glass. Если в телефоне у нас 1 вид на контент, в VR шлеме 2 вида (по одному на каждый глаз), то в Looking Glass одновременно показывается до 100 видов одной трехмерной сцены, что даёт возможность смотреть контент большой компанией людей с разных углов и продолжать видеть объём — трехмерный опыт без VR шлема. Причем даже есть интерактив: с контентом можно взаимодействовать руками в воздухе или контроллером.
Из других ништяков: 3D художники могут презентовать гостям свои проекты в нативной трёхмерной форме и тестировать варианты креативов. Есть плагины для UE, Blender, Unity, WebXR, итд. Можно и уже существующий фото (и видео?) контент конвертировать в голограммы (через сайт платно, либо карту глубины самим делать). Даже есть отдельный раздел, где можно делиться голограммами, в один клик примерить чью-то голограмму у себя на экране, или встроить свою на любую страницу в интернете через embed.
Недавно я зашёл в бету Lifeforms. Это голограмма, с которой можно говорить голосом. Персонажа можно менять из списка или своего подгружать, а на обработке запросов зафайнтюненный GPT-4.
Я протестировал Uncle Rabbit и мне он своим характером и ответами понравился даже больше, чем просто GPT-4. Чувствовалось, что он отыгрывает роль. Скорость ответов бы пореще и мультиязычность, но в дискорде говорят через SDK можно подрубать локальные модели вроде ламы.
Пришиваем это к цифровому двойнику, групповым созвонам с коллегами, или просто общению с близкими. Затем добавляем возможность менять сеттинг (эльфийский лес, вечеринка в жерле вулкана, исследование инопланетной цивилизации, итд) и вот это уже намного ближе к метавселенной, с которой люди могут взаимодействовать ежедневно.
Проблема лишь в цене. $399 за портретную рамку ещё ок, но $3,000 за 32 дюймовый экран и $20,000 за 65 дюймов это цены очень далекие от массмаркета.
Хотя вот эта вещь ещё дороже...
Из других ништяков: 3D художники могут презентовать гостям свои проекты в нативной трёхмерной форме и тестировать варианты креативов. Есть плагины для UE, Blender, Unity, WebXR, итд. Можно и уже существующий фото (и видео?) контент конвертировать в голограммы (через сайт платно, либо карту глубины самим делать). Даже есть отдельный раздел, где можно делиться голограммами, в один клик примерить чью-то голограмму у себя на экране, или встроить свою на любую страницу в интернете через embed.
Недавно я зашёл в бету Lifeforms. Это голограмма, с которой можно говорить голосом. Персонажа можно менять из списка или своего подгружать, а на обработке запросов зафайнтюненный GPT-4.
Я протестировал Uncle Rabbit и мне он своим характером и ответами понравился даже больше, чем просто GPT-4. Чувствовалось, что он отыгрывает роль. Скорость ответов бы пореще и мультиязычность, но в дискорде говорят через SDK можно подрубать локальные модели вроде ламы.
Пришиваем это к цифровому двойнику, групповым созвонам с коллегами, или просто общению с близкими. Затем добавляем возможность менять сеттинг (эльфийский лес, вечеринка в жерле вулкана, исследование инопланетной цивилизации, итд) и вот это уже намного ближе к метавселенной, с которой люди могут взаимодействовать ежедневно.
Проблема лишь в цене. $399 за портретную рамку ещё ок, но $3,000 за 32 дюймовый экран и $20,000 за 65 дюймов это цены очень далекие от массмаркета.
Хотя вот эта вещь ещё дороже...
Media is too big
VIEW IN TELEGRAM
В 2008 году, когда я только поступил в инст, мой первый доклад был о возможности выражать мысли из воображения в цифровое пространство. На тот момент через фМРТ можно было выразить только ч/б изображение 8х8 пикселей. Ближайшим к потребительскому уровню Нейро-Компьютерным Интерфейсом (НКИ) тогда был Emotiv, который успешно дожил и до наших дней. Их устройство работает как портативная ЭЭГ, и позволяет мысленно управлять подключенными предметами в физическом и цифровом пространствах, помогает в принятии решений на основе мозговой активности, и есть примеры выражения музыки.
С тех пор мы уже можем значительно больше. Из последних проектов, что попадались на глаза:
* Через фМРТ можно приблизительно считать лицо человека, о котором думаем. Или прочесть мысли после прослушанного подкаста.
* С помощью НКИ, можно помочь озвучивучить внутренний диалог или выйти в интернет и общаться со всем миром.
* MindEye: на основе снимков активности мозга с помощью Stable Diffusion можно получить кадры из воображения в высокой точностью. Проект может замапить данные с фМРТ мультимодально, причём даже есть код.
* MinD-Vis: тоже работает на основе диффузии, и тоже есть код. Плюс другое исследование тоже на основе SD и высоким качеством изображений.
* CEBRA: декодируем сигналы мозга мыши в реальном времени, чтобы воссоздать ч/б фильм 60-х годов, который она видела и какие эмоции испытала.
* MinD-Video (расширение MinD-Vis): с помощью фМРТ и диффузии генерим видео из мыслей. Причём семплы на видео в посте ограничены по длине, fps, и разрешению, так как сгенерированы на RTX 3090. Но через MinD-Video можно генерить и длинные видео со скорость 30 fps большего разрешения.
Так что скоро сможем из воображения напрямую кино, музыку и тд. выражать на компьютер или прямо в сеть. А мозг будет восприниматься как ещё один носитель — ментальный.
И уже не будет такого, что кто-то решает какой фильм будет сниматься а какой нет, какой трек пойдёт в массы а какой нет. Пришла в голову идея — сразу её воплотил и поделился с миром.
С тех пор мы уже можем значительно больше. Из последних проектов, что попадались на глаза:
* Через фМРТ можно приблизительно считать лицо человека, о котором думаем. Или прочесть мысли после прослушанного подкаста.
* С помощью НКИ, можно помочь озвучивучить внутренний диалог или выйти в интернет и общаться со всем миром.
* MindEye: на основе снимков активности мозга с помощью Stable Diffusion можно получить кадры из воображения в высокой точностью. Проект может замапить данные с фМРТ мультимодально, причём даже есть код.
* MinD-Vis: тоже работает на основе диффузии, и тоже есть код. Плюс другое исследование тоже на основе SD и высоким качеством изображений.
* CEBRA: декодируем сигналы мозга мыши в реальном времени, чтобы воссоздать ч/б фильм 60-х годов, который она видела и какие эмоции испытала.
* MinD-Video (расширение MinD-Vis): с помощью фМРТ и диффузии генерим видео из мыслей. Причём семплы на видео в посте ограничены по длине, fps, и разрешению, так как сгенерированы на RTX 3090. Но через MinD-Video можно генерить и длинные видео со скорость 30 fps большего разрешения.
Так что скоро сможем из воображения напрямую кино, музыку и тд. выражать на компьютер или прямо в сеть. А мозг будет восприниматься как ещё один носитель — ментальный.
И уже не будет такого, что кто-то решает какой фильм будет сниматься а какой нет, какой трек пойдёт в массы а какой нет. Пришла в голову идея — сразу её воплотил и поделился с миром.
Дайджест новостей пока я писал посты выше. Ключевые новости выпущу отдельными постами:
📹 ВИДЕО + АРТ 🎨
Hugging Face: выпустили свой генератор QR-кодов. Эти легче считываются.
HyperReel: создаём высококачественные видео со свободной точкой обзора (FVV).
MDFdiffusion: генерим панорамы по тексту. Напоминает SyncDiffusion, но последний вроде лучше по качеству.
DragGAN: демо и код проекта, где можно просто мышкой менять изображение.
Orthogonal Finetuning (OFT): новый метод файнтюна диффузионных моделей, который помогает улучшить качество и скорость генерации изображений из текста.
PoseDiffusion: используем диффузию для анализа лучшего положения камеры.
Unity: выпустит Muse, AI-инструментарий для разработчиков игр, через который не зная кода можно будет делать 3D игры.
MobileSAM: легковесная версия SAM для сегментации. На одном GPU показывает около 12 мс на изображение: 8 мс на кодирование и 4 мс на декодирование маски.
PlaygroundAI: выпустили инструмент Mixed Image Editing в котором можно генерить изображения, редактировать их инпейнтом или текстом. На рекламном видеохорошо понимается контекст. Как оно вреале, посмотрим.
OpenMask3D: сегментация 3D объектов с открытым словарём в помощь AI-агентам.
Kosmos-2: мультимодальная большая языковая модель (MLLM), которая позволяет воспринимать описания объектов и связывать текст с визуальным миром.
Restart: новый алгоритм для генеративных моделей, который улучшает баланс между скоростью и качеством, превосходя другие методы и ускоряя процесс в 10 раз на CIFAR-10 и в 2 раза на ImageNet.
MotionGPT: модель на связке текста и моушена. Можно попросить показать как сделать бэкфлип, описать движения персонажа, или предсказать следующий шаг... Осталось посадить её перед монитором следить за курсом на бирже.
Blended-NeRF: редактирование объектов в NeRF. Кода пока нет.
DreamEditor: тоже редактирование NeRF и тоже кода нет.
🎸 ЗВУК 🎸
AudioPaLM: переводим голосовое общение между коллегами, разговаривающими на разных языках. Маркетинг и IT отделы таки найдут общий язык? Кода нет, так что не узнаем.
Нашелся способ через Whisper в один шаг сразу переводить генерируемый текст, минуя распознавание речи.
3D Speaker: датасет для распознавания речи в зависимости от контекста вроде расстояния, записываемого устройства, итд.
🤖 ЧАТЫ 🤖
Stability AI: выпустили V2 версию OpenFlamingo, своей мультимодальной модели, которая позволяет чатиться с изображеними, видео, и тексом. Она на 80% производительней предыдущей версии, имеет поддержку распределённых вычислений, и менее ограничительна в плане лицензий, чем лама.
MozaicML: запустили чат с моделью MPT-30B, обученной на 1Т токенов. Есть коммерческая лицензия.
Пилим собственные плагины для ChatGPT с помощью Gradio.
Hugging Face:
* добавили аренду облачного хранилища с поминутной оплатой
* пришили генерацию временных меток к Whisper, а также перескакивание внутри видео по ключевым словам
* а через фильтр Transformers.js можно в поиске найти, которые можно запустить прямо в браузере
LMFlow: простой инструмент для файнтюна LLM.
Salesforce: представили XGen-7B, новую 7B LLM натренированную на 1.5T токенов. Говорят генерит код и текст лучше MPT, Falcon, LLaMA, и OpenLLaMA.
CLIPA-v2: это улучшенная модель CLIP, которая достигает точности 81,1% на ImageNet без обучения с учителем при бюджете в $10,000, превосходя предыдущую лучшую модель CLIP и сокращая вычислительные затраты на ~39X.
Расширение контекста больших языковых моделей с помощью позиционной интерполяции.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
📹 ВИДЕО + АРТ 🎨
Hugging Face: выпустили свой генератор QR-кодов. Эти легче считываются.
HyperReel: создаём высококачественные видео со свободной точкой обзора (FVV).
MDFdiffusion: генерим панорамы по тексту. Напоминает SyncDiffusion, но последний вроде лучше по качеству.
DragGAN: демо и код проекта, где можно просто мышкой менять изображение.
Orthogonal Finetuning (OFT): новый метод файнтюна диффузионных моделей, который помогает улучшить качество и скорость генерации изображений из текста.
PoseDiffusion: используем диффузию для анализа лучшего положения камеры.
Unity: выпустит Muse, AI-инструментарий для разработчиков игр, через который не зная кода можно будет делать 3D игры.
MobileSAM: легковесная версия SAM для сегментации. На одном GPU показывает около 12 мс на изображение: 8 мс на кодирование и 4 мс на декодирование маски.
PlaygroundAI: выпустили инструмент Mixed Image Editing в котором можно генерить изображения, редактировать их инпейнтом или текстом. На рекламном видеохорошо понимается контекст. Как оно вреале, посмотрим.
OpenMask3D: сегментация 3D объектов с открытым словарём в помощь AI-агентам.
Kosmos-2: мультимодальная большая языковая модель (MLLM), которая позволяет воспринимать описания объектов и связывать текст с визуальным миром.
Restart: новый алгоритм для генеративных моделей, который улучшает баланс между скоростью и качеством, превосходя другие методы и ускоряя процесс в 10 раз на CIFAR-10 и в 2 раза на ImageNet.
MotionGPT: модель на связке текста и моушена. Можно попросить показать как сделать бэкфлип, описать движения персонажа, или предсказать следующий шаг... Осталось посадить её перед монитором следить за курсом на бирже.
Blended-NeRF: редактирование объектов в NeRF. Кода пока нет.
DreamEditor: тоже редактирование NeRF и тоже кода нет.
🎸 ЗВУК 🎸
AudioPaLM: переводим голосовое общение между коллегами, разговаривающими на разных языках. Маркетинг и IT отделы таки найдут общий язык? Кода нет, так что не узнаем.
Нашелся способ через Whisper в один шаг сразу переводить генерируемый текст, минуя распознавание речи.
3D Speaker: датасет для распознавания речи в зависимости от контекста вроде расстояния, записываемого устройства, итд.
🤖 ЧАТЫ 🤖
Stability AI: выпустили V2 версию OpenFlamingo, своей мультимодальной модели, которая позволяет чатиться с изображеними, видео, и тексом. Она на 80% производительней предыдущей версии, имеет поддержку распределённых вычислений, и менее ограничительна в плане лицензий, чем лама.
MozaicML: запустили чат с моделью MPT-30B, обученной на 1Т токенов. Есть коммерческая лицензия.
Пилим собственные плагины для ChatGPT с помощью Gradio.
Hugging Face:
* добавили аренду облачного хранилища с поминутной оплатой
* пришили генерацию временных меток к Whisper, а также перескакивание внутри видео по ключевым словам
* а через фильтр Transformers.js можно в поиске найти, которые можно запустить прямо в браузере
LMFlow: простой инструмент для файнтюна LLM.
Salesforce: представили XGen-7B, новую 7B LLM натренированную на 1.5T токенов. Говорят генерит код и текст лучше MPT, Falcon, LLaMA, и OpenLLaMA.
CLIPA-v2: это улучшенная модель CLIP, которая достигает точности 81,1% на ImageNet без обучения с учителем при бюджете в $10,000, превосходя предыдущую лучшую модель CLIP и сокращая вычислительные затраты на ~39X.
Расширение контекста больших языковых моделей с помощью позиционной интерполяции.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
DynIBaR — нейронный рендеринг динамических сцен. Модель может взять обычное 2D видео и дать ему 3D объём.
Что нам это даёт:
* возможность менять положение камеры на уже снятом видео,
* смешать точку фокуса в кадре
* делать анимацию движения камеры
* стабилизировать картинку
* ваять стерео 3D
* и, возможно, играть с освещением
Сайт
Код
PS: хотел сделать пост об этом 2 недели назад, но тогда кода не было. Хорошо, что релизнули.
Что нам это даёт:
* возможность менять положение камеры на уже снятом видео,
* смешать точку фокуса в кадре
* делать анимацию движения камеры
* стабилизировать картинку
* ваять стерео 3D
* и, возможно, играть с освещением
Сайт
Код
PS: хотел сделать пост об этом 2 недели назад, но тогда кода не было. Хорошо, что релизнули.
This media is not supported in your browser
VIEW IN TELEGRAM
Zeroscope 2 XL — модель для генерации видео по тексту на основе Modelscope, но без водяного знака.
Обучена со смещенным шумом на 9 923 клипах и 29 769 помеченных кадрах с фремрейтом 24 к/с и разрешением 1024x576.
Работает на связке двух моделей: базовая генерит 576x320 (zeroscope_v2_576w), а другая апскейлит до 1024x576 (zeroscope_v2_XL). Только так можно получить хорошую картинку как на видео выше, ибо просто базовый генератор выдаёт среднее качество. Поэтому после того как в базе сгенерите основу в 576x320 отправьте его в апскейлер, чтобы получить 1024x576. Как вариант, базовое видео ещё можно сгенерить из картинки здесь.
Это можно сделать и в колабе: когда всё прогрузится перейдите по ссылке на webui и в расширении text2video переключитесь на vid2vid. Гайд от автора.
Если не хотите копаться ни с чем, можете воспользоваться Replicate — тут просто пишешь промт, нажимаешь внизу Submit и получаешь видео. Вот гайд.
Гитхаб автора со всеми коллабами
Обучена со смещенным шумом на 9 923 клипах и 29 769 помеченных кадрах с фремрейтом 24 к/с и разрешением 1024x576.
Работает на связке двух моделей: базовая генерит 576x320 (zeroscope_v2_576w), а другая апскейлит до 1024x576 (zeroscope_v2_XL). Только так можно получить хорошую картинку как на видео выше, ибо просто базовый генератор выдаёт среднее качество. Поэтому после того как в базе сгенерите основу в 576x320 отправьте его в апскейлер, чтобы получить 1024x576. Как вариант, базовое видео ещё можно сгенерить из картинки здесь.
Это можно сделать и в колабе: когда всё прогрузится перейдите по ссылке на webui и в расширении text2video переключитесь на vid2vid. Гайд от автора.
Если не хотите копаться ни с чем, можете воспользоваться Replicate — тут просто пишешь промт, нажимаешь внизу Submit и получаешь видео. Вот гайд.
Гитхаб автора со всеми коллабами
StabilityAI выпустили SDXL 0.9
Новый SDXL работает на связке базовой модели, которая генерит картинку, и рефайнера, который улучшает её.
Базовая модель обладает 3.5B параметров, и переключается в 6,6B параметров в режиме тандема (когда обе модели работают над итоговой картинкой). Для сравнения бета имела 3,1B параметров и использовала только базовую модель.
Для запуска потребуется видеокарта как минимум с 8 ГБ VRAM плюс 16 ГБ оперативки. На генерируемых картинках ставится невидимый водяной знак, и он не тот же, что в предыдущих версиях.
Релиз версии 1.0 запланирован на середину июля. На гитхабе код базовой модели и рефайнера. Веса доступны по запросу.
Можете попробовать SDXL бесплатно уже сейчас в Nightcafe. Если авторизоваться или выполнить другие таски вам дадут халявные кредиты на генерации. А если сгенерированное опубликовать, то ещё кредитов насыпят. Например, эту картинку с киберпанк котаном я там сгенерировал. Там нет negative promt поэтому есть артефакты. Вот ещё пара примеров: раз и два. Промт:
Гитхаб
Nightcafe
Новый SDXL работает на связке базовой модели, которая генерит картинку, и рефайнера, который улучшает её.
Базовая модель обладает 3.5B параметров, и переключается в 6,6B параметров в режиме тандема (когда обе модели работают над итоговой картинкой). Для сравнения бета имела 3,1B параметров и использовала только базовую модель.
Для запуска потребуется видеокарта как минимум с 8 ГБ VRAM плюс 16 ГБ оперативки. На генерируемых картинках ставится невидимый водяной знак, и он не тот же, что в предыдущих версиях.
Релиз версии 1.0 запланирован на середину июля. На гитхабе код базовой модели и рефайнера. Веса доступны по запросу.
Можете попробовать SDXL бесплатно уже сейчас в Nightcafe. Если авторизоваться или выполнить другие таски вам дадут халявные кредиты на генерации. А если сгенерированное опубликовать, то ещё кредитов насыпят. Например, эту картинку с киберпанк котаном я там сгенерировал. Там нет negative promt поэтому есть артефакты. Вот ещё пара примеров: раз и два. Промт:
cat in the cyberpunk city
АнонсГитхаб
Nightcafe
Midjourney обновилась до версии 5.2
Помимо мелочей тут и там, добавили фичу Zoom Out, и быстро переняли на себя хайп вокруг Generative Fill. Она хорошо считывает контекст и добавляет деталей при отдалении картинки с каждой итерацией.
Чтобы ей воспользоваться надо сначала увеличить картинку через кнопку Upscale, а затем нажать Zoom х1,5 или х2 чтобы отдалить её в соответствующее количество раз. Есть ещё Custom zoom для установки отдаления вручную.
Народ очень быстро сложил 2 + 2 и от генерации картинок перешел к склейке их в видео. Зачастую получается весьма годно.
Хотя для пользователей SD тут ничего нового, Infinite Zoom в A1111 уже давно живёт и развивается.
PS: если смотреть долго в центр отдаляющегося видео, то когда оно остановится, реальность перед глазами будет немного пульсировать, словно приближаться. Это оптический эффект.
Помимо мелочей тут и там, добавили фичу Zoom Out, и быстро переняли на себя хайп вокруг Generative Fill. Она хорошо считывает контекст и добавляет деталей при отдалении картинки с каждой итерацией.
Чтобы ей воспользоваться надо сначала увеличить картинку через кнопку Upscale, а затем нажать Zoom х1,5 или х2 чтобы отдалить её в соответствующее количество раз. Есть ещё Custom zoom для установки отдаления вручную.
Народ очень быстро сложил 2 + 2 и от генерации картинок перешел к склейке их в видео. Зачастую получается весьма годно.
Хотя для пользователей SD тут ничего нового, Infinite Zoom в A1111 уже давно живёт и развивается.
PS: если смотреть долго в центр отдаляющегося видео, то когда оно остановится, реальность перед глазами будет немного пульсировать, словно приближаться. Это оптический эффект.