RAPHAEL — новая text-2-image модель, создающая высокохудожественные изображения, точно следуя промтам (включая существительные, прилагательные и глаголы). При этом текст на генерациях хорошо читается.
RAPHAEL использует смесь экспертных слоев (mixture-of-experts или MoE) для создания миллиардов диффузионных каналов. Каждый такой канал можно представить как "художника", который рисует определенную часть изображения.
Модель RAPHAEL превосходит Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd и DALL-E 2 по качеству изображения и эстетической привлекательности. И может соперничать с Midjourney.
Кода пока нет.
P.S. как-то мало данных и шума вокруг проекта. Но будем держать руку на пульсе.
RAPHAEL использует смесь экспертных слоев (mixture-of-experts или MoE) для создания миллиардов диффузионных каналов. Каждый такой канал можно представить как "художника", который рисует определенную часть изображения.
Модель RAPHAEL превосходит Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd и DALL-E 2 по качеству изображения и эстетической привлекательности. И может соперничать с Midjourney.
Кода пока нет.
P.S. как-то мало данных и шума вокруг проекта. Но будем держать руку на пульсе.
This media is not supported in your browser
VIEW IN TELEGRAM
Gen-L-Video: метод создания и редактирования длинных видео на основе множества текстовых промтов без дополнительного обучения и сохранения согласованности контента. Есть схожесть с NUWA-XL, и кода тоже пока нет.
Media is too big
VIEW IN TELEGRAM
Ghost in the Minecraft (GITM) - это новый подход к созданию AI-агентов в Minecraft. Он интегрирует большие языковые модели (LLM) с текстовыми знаниями и памятью для создания агентов, которые могут легко обрабатывать различные задачи. GITM похож на Voyager, номожет достигать 100% прохождения всех предметов в дереве технологий Minecraft Overworld и 67,5% успеха в задаче “ObtainDiamond”.
GITM также очень эффективен и требует только одного узла CPU с 32 ядрами для обучения, в то время как OpenAI’s VPT должен быть обучен в течение 6 480 дней GPU, а DreamerV3 DeepMind должен быть обучен в течение 17 дней GPU.
GITM также очень эффективен и требует только одного узла CPU с 32 ядрами для обучения, в то время как OpenAI’s VPT должен быть обучен в течение 6 480 дней GPU, а DreamerV3 DeepMind должен быть обучен в течение 17 дней GPU.
Media is too big
VIEW IN TELEGRAM
Потестил на своём видео, где скрестил Runway GEN2 + Wonder Dynamics бету нового Premiere Pro (v 23.5) есть функция перевода голоса в текст для поиска по нему нужного кадра, генерации субтитров, и редактирования видеоряда перестановкой слов. Последняя фича не сработала, будем надеяться скоро допилят.
Поставить новый Premiere можно через Creative Cloud как и фотошоп.
Поставить новый Premiere можно через Creative Cloud как и фотошоп.
Дайджест:
📹 ВИДЕО + АРТ 🎨
MyHeritage: проект для создания семейного древа выпустил инструмент для восстановления и анимации старых фото. Есть похожий проект на основе SD + ControlNet.
RIVAL: инструмент для создания вариаций реальных изображений или восстановления фото с помощью диффузии. Кода пока нет.
StyleAvatar3D: создаём стилизованных 3D-аватаров, используя диффузию для генерации данных и генеративно-состязательные сети (GAN) для обучения. Кода пока нет.
AlteredAvatar: тоже про 3D аватаров, только с точки зрения их адаптации к любым стилям. Метод сочетает прямую оптимизацию и быстрое обучение, после которого модель легко применяет новый стиль, который может быть задан текстом, изображением-референсом или их комбинацией. Кода пока нет.
HiFA: ваяем 3D-объекты из текстовых промтов за счёт использования диффузии + NeRF. Метод обеспечивает высокий уровень фотореализма и согласованность между различными видами. Кода пока нет.
🎸 ЗВУК 🎸
LibriTTS-R: датасет для генерации голоса по тексту. Представляет собой англоязычный корпус с множеством дикторов, содержащий около 585 часов английской речи с частотой дискретизации 24 кГц.
Make-An-Audio 2: генерим аудио по промту. Используются большие языковые модели для преобразования текста в структурированные пары, улучшая захват временной информации. Кода нет.
🤖 ЧАТЫ 🤖
Учёные из MIT с помощью AI открыли антибиотик, который уничтожает смертоносную супербактерию Acinetobacter baumannii. Проанализировав 7000 лекарственных соединений, нейронка за два часа выявила 240 антибактериальных молекул, которые протестировали в лаборатории, и в результате учёные получили новое соединение — абауцин. Оно точечно убивает нужную бактерию, не влияя на другие, а также лечит устойчивые к лекарствам инфекции у мышей и людей.
📹 ВИДЕО + АРТ 🎨
MyHeritage: проект для создания семейного древа выпустил инструмент для восстановления и анимации старых фото. Есть похожий проект на основе SD + ControlNet.
RIVAL: инструмент для создания вариаций реальных изображений или восстановления фото с помощью диффузии. Кода пока нет.
StyleAvatar3D: создаём стилизованных 3D-аватаров, используя диффузию для генерации данных и генеративно-состязательные сети (GAN) для обучения. Кода пока нет.
AlteredAvatar: тоже про 3D аватаров, только с точки зрения их адаптации к любым стилям. Метод сочетает прямую оптимизацию и быстрое обучение, после которого модель легко применяет новый стиль, который может быть задан текстом, изображением-референсом или их комбинацией. Кода пока нет.
HiFA: ваяем 3D-объекты из текстовых промтов за счёт использования диффузии + NeRF. Метод обеспечивает высокий уровень фотореализма и согласованность между различными видами. Кода пока нет.
🎸 ЗВУК 🎸
LibriTTS-R: датасет для генерации голоса по тексту. Представляет собой англоязычный корпус с множеством дикторов, содержащий около 585 часов английской речи с частотой дискретизации 24 кГц.
Make-An-Audio 2: генерим аудио по промту. Используются большие языковые модели для преобразования текста в структурированные пары, улучшая захват временной информации. Кода нет.
🤖 ЧАТЫ 🤖
Учёные из MIT с помощью AI открыли антибиотик, который уничтожает смертоносную супербактерию Acinetobacter baumannii. Проанализировав 7000 лекарственных соединений, нейронка за два часа выявила 240 антибактериальных молекул, которые протестировали в лаборатории, и в результате учёные получили новое соединение — абауцин. Оно точечно убивает нужную бактерию, не влияя на другие, а также лечит устойчивые к лекарствам инфекции у мышей и людей.
This media is not supported in your browser
VIEW IN TELEGRAM
Я пару месяцев назад писал, что нейронки потенциально могут заменить объективы в камерах + ведутся работы над нейронными линзами для коррекции оптических искажений.
И тут появляется на горизонте Paragraphica. Камера есть в физическом и цифровом вариантах. Она берет гео-данные с информацией о погоде, времени суток и том на чём должен быть фокус, и конвертирует их в промт с описанием того, что должно быть запечатлено. Три регулятора сверху отвечают за: радиус обзора в метрах (аналог фокусного расстояния), количество начального шума для генерации (аналог зернистости), и guidance scale (чем выше значение, тем ближе фото к промту).
В начале года в твиттере наткнулся на приложения, которое берёт твои фото с друзьями на вечеринке и за счёт SD генерит их в другом контексте, типа в параллельной реальности. Так как о нём больше не слышно, видать далеко оно не ушло. В отличие от той апы, Paragraphica генерит результаты, которыми не зазорно поделиться.
Антенна в виде носа крота (которая у меня больше ассоциируется с пауком), выглядит по-своему интересно. Но это не практично с любой точки зрения.
Суть ведь не в том, чтобы купить себе ещё один обвес, а наоборот убрать из телефона камеру в принципе (и не было причин покупать новый телефон). Чтобы был вместо неё какой-то маленький сенсор, который не поцарапаешь и не разобьёшь, а ты на уровне софта мог подбирать нужную тебе линзу.
И тут появляется на горизонте Paragraphica. Камера есть в физическом и цифровом вариантах. Она берет гео-данные с информацией о погоде, времени суток и том на чём должен быть фокус, и конвертирует их в промт с описанием того, что должно быть запечатлено. Три регулятора сверху отвечают за: радиус обзора в метрах (аналог фокусного расстояния), количество начального шума для генерации (аналог зернистости), и guidance scale (чем выше значение, тем ближе фото к промту).
В начале года в твиттере наткнулся на приложения, которое берёт твои фото с друзьями на вечеринке и за счёт SD генерит их в другом контексте, типа в параллельной реальности. Так как о нём больше не слышно, видать далеко оно не ушло. В отличие от той апы, Paragraphica генерит результаты, которыми не зазорно поделиться.
Антенна в виде носа крота (которая у меня больше ассоциируется с пауком), выглядит по-своему интересно. Но это не практично с любой точки зрения.
Суть ведь не в том, чтобы купить себе ещё один обвес, а наоборот убрать из телефона камеру в принципе (и не было причин покупать новый телефон). Чтобы был вместо неё какой-то маленький сенсор, который не поцарапаешь и не разобьёшь, а ты на уровне софта мог подбирать нужную тебе линзу.
This media is not supported in your browser
VIEW IN TELEGRAM
До лета 1 час 25 минут. Время ещё есть!
Дайджест:
📹 ВИДЕО + АРТ 🎨
Обновлённый ControlNet версии 1.1.202 позволяет расширять изображения без промта, подобно Adobe Generative Fill.
4DHumans: отслеживание людей на видео и 3D моушен-трекинг. Работает с необычными позами и воссоздаёт их из одного изображения. Поддерживает работу с несколькими людьми и сохраняет идентичность при заслонении.
Исследование как генерировать результаты не похожие на те, на которых велась тренировка. Плюс ещё один фреймворк с кодом на эту тему: Ambient Diffusion.
🤖 ЧАТЫ 🤖
Tree-Ring Watermarks: метод для создания невидимых водяных знаков на генерациях диффузионных моделей. Сначала выбирается начальный шумовой массив так, чтобы его преобразование Фурье содержало тщательно сконструированный узор у своего центра. Этот узор называется ключом. Затем этот начальный шумовой вектор преобразуется в изображение с помощью стандартного диффузионного конвейера без модификаций. Чтобы обнаружить водяной знак на изображении, диффузионная модель инвертируется для извлечения исходного шумового массива, использованного для генерации. Затем проверяется, присутствует ли ключ в этом массиве.
Tab-CoT: подход цепочного рассуждения в табличном формате. Позволяет моделировать сложные процессы рассуждения в структурированной форме, работая сразу по нескольким измерениям (строкам и столбцам). Показывает сильные способности к нулевому и небольшому обучению на различных задачах рассуждения.
Efficient Diffusion Policies (EDP): метод для обучения оптимальных политик из оффлайн-датасетов в области обучения с подкреплением. Он сокращает время обучения с 5 дней до 5 часов на задачах gym-locomotion, совместим с различными алгоритмами оффлайн-обучения с подкреплением, и устанавливает новый рекорд на D4RL.
Blockwise Parallel Transformer (BPT): метод обучения трансформеров, позволяющий обрабатывать длинные последовательности данных с сохранением эффективности использования памяти. BPT может обучать последовательности до 32 раз длиннее, чем обычные трансформеры, и от 2 до 4 раз длиннее, чем предыдущие методы, экономящие память.
LaCLIP: улучшение обучения CLIP с помощью переписывания текстовых описаний, используя LLM.
ReWOO: отделение процесса рассуждения от внешних наблюдений. Это сокращает потребление токенов автономных агентов AutoPGT и Langchain, увеличивает точность и позволяет переносить способности к рассуждению из больших моделей в меньшие.
PlaSma: добавление языковым моделям процедурных знаний и способности к планированию.
Google: представила многоязычную (100 языков) мультимодалку PaLI-X 55B, через которую можно чатиться с изображениями и текстами. По заверениям разработчиков превосходит другие модели на разнообразных задачах: подписи к изображениям, вопросы-ответы, понимание документа, обнаружение объектов и видео. PaLI-X даёт хорошие результаты не только благодаря своему размеру, но и гибкому обучению. Она демонстрирует возникающие способности, такие как сложный подсчет объектов и многоязычное обнаружение объектов. Кода нет.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude.
📹 ВИДЕО + АРТ 🎨
Обновлённый ControlNet версии 1.1.202 позволяет расширять изображения без промта, подобно Adobe Generative Fill.
4DHumans: отслеживание людей на видео и 3D моушен-трекинг. Работает с необычными позами и воссоздаёт их из одного изображения. Поддерживает работу с несколькими людьми и сохраняет идентичность при заслонении.
Исследование как генерировать результаты не похожие на те, на которых велась тренировка. Плюс ещё один фреймворк с кодом на эту тему: Ambient Diffusion.
🤖 ЧАТЫ 🤖
Tree-Ring Watermarks: метод для создания невидимых водяных знаков на генерациях диффузионных моделей. Сначала выбирается начальный шумовой массив так, чтобы его преобразование Фурье содержало тщательно сконструированный узор у своего центра. Этот узор называется ключом. Затем этот начальный шумовой вектор преобразуется в изображение с помощью стандартного диффузионного конвейера без модификаций. Чтобы обнаружить водяной знак на изображении, диффузионная модель инвертируется для извлечения исходного шумового массива, использованного для генерации. Затем проверяется, присутствует ли ключ в этом массиве.
Tab-CoT: подход цепочного рассуждения в табличном формате. Позволяет моделировать сложные процессы рассуждения в структурированной форме, работая сразу по нескольким измерениям (строкам и столбцам). Показывает сильные способности к нулевому и небольшому обучению на различных задачах рассуждения.
Efficient Diffusion Policies (EDP): метод для обучения оптимальных политик из оффлайн-датасетов в области обучения с подкреплением. Он сокращает время обучения с 5 дней до 5 часов на задачах gym-locomotion, совместим с различными алгоритмами оффлайн-обучения с подкреплением, и устанавливает новый рекорд на D4RL.
Blockwise Parallel Transformer (BPT): метод обучения трансформеров, позволяющий обрабатывать длинные последовательности данных с сохранением эффективности использования памяти. BPT может обучать последовательности до 32 раз длиннее, чем обычные трансформеры, и от 2 до 4 раз длиннее, чем предыдущие методы, экономящие память.
LaCLIP: улучшение обучения CLIP с помощью переписывания текстовых описаний, используя LLM.
ReWOO: отделение процесса рассуждения от внешних наблюдений. Это сокращает потребление токенов автономных агентов AutoPGT и Langchain, увеличивает точность и позволяет переносить способности к рассуждению из больших моделей в меньшие.
PlaSma: добавление языковым моделям процедурных знаний и способности к планированию.
Google: представила многоязычную (100 языков) мультимодалку PaLI-X 55B, через которую можно чатиться с изображениями и текстами. По заверениям разработчиков превосходит другие модели на разнообразных задачах: подписи к изображениям, вопросы-ответы, понимание документа, обнаружение объектов и видео. PaLI-X даёт хорошие результаты не только благодаря своему размеру, но и гибкому обучению. Она демонстрирует возникающие способности, такие как сложный подсчет объектов и многоязычное обнаружение объектов. Кода нет.
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Сравнение Adobe Generative Fill с опенсорсным Gyre.ai на основе Stable Diffusion.
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Гемифицированный тест Тьюринга: "Человек или бот?"
Подключаешься, чатишься, и когда другая сторона покинула чат угадываешь был это человек или бот.
https://app.humanornot.ai/
Подключаешься, чатишься, и когда другая сторона покинула чат угадываешь был это человек или бот.
https://app.humanornot.ai/
Falcon-40B: модель с 40 миллиардами параметров, созданная TII и обученная на 1 триллионе токенов датасета RefinedWeb с дополнительными корпусами.
* Превосходит LLaMA, StableLM, RedPajama, MPT и другие опенсорсные модели.
* Имеет архитектуру, оптимизированную для инференса (вывода данных) с FlashAttention и multiquery.
* Лицензия Apache 2.0, допускает коммерческое использование без каких-либо отчислений или ограничений.
Помимо сырой модели есть оптимизированная для чата Falcon-40B-Instruct и маленькая Falcon-7B
* Превосходит LLaMA, StableLM, RedPajama, MPT и другие опенсорсные модели.
* Имеет архитектуру, оптимизированную для инференса (вывода данных) с FlashAttention и multiquery.
* Лицензия Apache 2.0, допускает коммерческое использование без каких-либо отчислений или ограничений.
Помимо сырой модели есть оптимизированная для чата Falcon-40B-Instruct и маленькая Falcon-7B
huggingface.co
tiiuae/falcon-40b-instruct · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
OpenAI представило новый подход к решению математических задач с помощью моделей, обученных на основе процесса, а не только на основе итогового результата. Этот подход, названный "Process Supervision", позволяет модели следовать за "цепочкой мысли", одобренной человеком, на каждом шаге решения задачи. Это приводит к значительному улучшению производительности по сравнению с обучением на основе итогового результата и обеспечивает более высокий уровень согласованности с человеческими ожиданиями.
Пост
Датасет
Бумага
Пост
Датасет
Бумага
This media is not supported in your browser
VIEW IN TELEGRAM
Чувак с помощью нейронок сделал из себя 3D игрового персонажа.
1) Сначала сделал NeRF через Luma
2) Затем экспортировал 3D-меш в блендер для его очистки и оптимизации
3) Через Mixamo подключил авториг и анимацию для AR контроллера
4) Воспользовался AR библиотекой 8th Wall для создания игр с поддержкой джойстика, физики, датчиков приближения, и отражений из реальности.
Автор
1) Сначала сделал NeRF через Luma
2) Затем экспортировал 3D-меш в блендер для его очистки и оптимизации
3) Через Mixamo подключил авториг и анимацию для AR контроллера
4) Воспользовался AR библиотекой 8th Wall для создания игр с поддержкой джойстика, физики, датчиков приближения, и отражений из реальности.
Автор
Дайджест:
📹 ВИДЕО + АРТ 🎨
Make-Your-Video: новая video-2-video модель, можно добиться нормальной консистентности. Напоминает GEN-1 от Runway. Код будет позже.
CelebBasis: ещё один метод как с помощью одного фото за 3 минуты сгенерировать с собой изображение, используя диффузионную модель. Код будет позже.
Google: показали text-2-image модель StyleDrop, которая генерирует изображения с хорошим следованием целевому стилю, учитывая нюансы вроде теней, цвета, и т.д. Кода нет.
Self-guidance: zero-shot метод, с помощью которого можно заменять/перемещать объекты в кадре не трогая контекст сцены. Кода нет.
Conceptor: улучшаем SD на лету следовать семантике через Generative Semantic Nursing (GSN). Кода пока нет.
Cones 2: используем контекст нескольких изображений, чтобы генерить на их основе новые. Напоминает Break-a-scene... и кода тоже нет.
GenMM: генерация движения персонажа без необходимости в тренировке. Кода пока нет.
Würstchen: ускоряем тренировку text-2-image модели вроде SD 1.4 с 150 тыс. GPU часов до 9,2 тыс.
🎸 ЗВУК 🎸
MERT: модель для понимания музыки без человеческого контроля (self-supervised). Модели-учителя RVQ-VAE и CQT направляют модель-студента BERT-style в сторону лучшего понимания и моделирования музыки.
🤖 ЧАТЫ 🤖
Вышла неотцензуренная Wizard Vicuna 30B Uncensored
Обсуждение как цензура влияет на производительность языковых моделей.
LLaMa-Adapter Multimodal: к ламе прикрутили ImageBind и теперь она может чатиться с текстом, изображениями, видео, и аудио.
LLM As Chatbot: чат с разными моделями обновился. Добавилась тёмная тема, возможность задать глобальный контекст, и ещё по-мелочи.
LLaVA-Med: чат помощник по медицинским данным. Работает с изображениями и текстом.
SafeDiffusion: исследование как сделать процесс диффузии более точным. Бумага тут.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude.
📹 ВИДЕО + АРТ 🎨
Make-Your-Video: новая video-2-video модель, можно добиться нормальной консистентности. Напоминает GEN-1 от Runway. Код будет позже.
CelebBasis: ещё один метод как с помощью одного фото за 3 минуты сгенерировать с собой изображение, используя диффузионную модель. Код будет позже.
Google: показали text-2-image модель StyleDrop, которая генерирует изображения с хорошим следованием целевому стилю, учитывая нюансы вроде теней, цвета, и т.д. Кода нет.
Self-guidance: zero-shot метод, с помощью которого можно заменять/перемещать объекты в кадре не трогая контекст сцены. Кода нет.
Conceptor: улучшаем SD на лету следовать семантике через Generative Semantic Nursing (GSN). Кода пока нет.
Cones 2: используем контекст нескольких изображений, чтобы генерить на их основе новые. Напоминает Break-a-scene... и кода тоже нет.
GenMM: генерация движения персонажа без необходимости в тренировке. Кода пока нет.
Würstchen: ускоряем тренировку text-2-image модели вроде SD 1.4 с 150 тыс. GPU часов до 9,2 тыс.
🎸 ЗВУК 🎸
MERT: модель для понимания музыки без человеческого контроля (self-supervised). Модели-учителя RVQ-VAE и CQT направляют модель-студента BERT-style в сторону лучшего понимания и моделирования музыки.
🤖 ЧАТЫ 🤖
Вышла неотцензуренная Wizard Vicuna 30B Uncensored
Обсуждение как цензура влияет на производительность языковых моделей.
LLaMa-Adapter Multimodal: к ламе прикрутили ImageBind и теперь она может чатиться с текстом, изображениями, видео, и аудио.
LLM As Chatbot: чат с разными моделями обновился. Добавилась тёмная тема, возможность задать глобальный контекст, и ещё по-мелочи.
LLaVA-Med: чат помощник по медицинским данным. Работает с изображениями и текстом.
SafeDiffusion: исследование как сделать процесс диффузии более точным. Бумага тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Text-2-image генерация локально на мобильных телефонах за несколько секунд —SnapFusion.
Достигнуто путем внедрения эффективной архитектуры UNet (с выявлением избыточности исходной модели) и сокращения вычислений декодера изображения за счет дистилляции данных. Далее, пошаговая дистилляция улучшается, исследуя стратегии обучения и вводя регуляризацию из руководства без классификатора.
Эксперименты на датасете MS-COCO показывают, что SnapFusion с 8 шагами денойза генерит лучше, чем модель Stable Diffusion v1.5 с 50 шагами.
Бумага
Кода пока нет
Достигнуто путем внедрения эффективной архитектуры UNet (с выявлением избыточности исходной модели) и сокращения вычислений декодера изображения за счет дистилляции данных. Далее, пошаговая дистилляция улучшается, исследуя стратегии обучения и вводя регуляризацию из руководства без классификатора.
Эксперименты на датасете MS-COCO показывают, что SnapFusion с 8 шагами денойза генерит лучше, чем модель Stable Diffusion v1.5 с 50 шагами.
Бумага
Кода пока нет
This media is not supported in your browser
VIEW IN TELEGRAM
Coctail — использование нескольких модальностей для генерации изображений по тексту.
В отличие от предыдущих подходов, для смешивания используется одна модель, которая не требует модификации, что значительно снижает уровень трат.
Под капотом ControlNet общего назначения (gControlNet), контролируемая нормализация (ControlNorm), и метод выборки пространственных ориентиров.
Сайт
В отличие от предыдущих подходов, для смешивания используется одна модель, которая не требует модификации, что значительно снижает уровень трат.
Под капотом ControlNet общего назначения (gControlNet), контролируемая нормализация (ControlNorm), и метод выборки пространственных ориентиров.
Сайт