Дайджест:
📹 ВИДЕО + АРТ 🎨
ARTIC3D: генерация текстурированных и анимированных 3D моделей животных по одному фото. Кода пока нет.
🎸 ЗВУК 🎸
Google: представили модель SQuId для быстрой оценки качества работы TTS-моделей без необходимости привлечения людей. Кода нет.
🤖 ЧАТЫ 🤖
Falcon Chat: подъехал чат на основе Falcon 40B. Работает шустро и результаты неплохие.
InternLM: многоязычная модель языка с 104B параметров. Демонстрирует хорошие возможности в понимании текста, математике, кодировании. На тестах входит в топ-5 среди других моделей, а бенчмарке C-Eval уступает только GPT-4.
LLMZip: сжатие текста языковыми моделями. Метод превосходит на тестах подходы BSC, ZPAQ, и paq8h.
MobileNMT: система для развертывания моделей машинного перевода (не LLM) на мобильных устройствах. Авторы сжали модель Transformer до 15 МБ (в 65 раз) при скорости перевода 30 мс. Сочетая модель и движок оптимизированный под INT8, они ускорили декодирование в 47 раз при экономии 99,5% памяти. Потери BLEU всего 11,6%.
Исследование как улучшить в языковых моделях работу с контекстом, а также пошаговое рассуждение.
Генерация текста с водяным знаком.
M$^3$IT: набор данных, чтобы модель могла научиться связывать текст и изображения и понимать инструкции... Название канешн топ, китайские исследователи слушают вичуху?
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude.
📹 ВИДЕО + АРТ 🎨
ARTIC3D: генерация текстурированных и анимированных 3D моделей животных по одному фото. Кода пока нет.
🎸 ЗВУК 🎸
Google: представили модель SQuId для быстрой оценки качества работы TTS-моделей без необходимости привлечения людей. Кода нет.
🤖 ЧАТЫ 🤖
Falcon Chat: подъехал чат на основе Falcon 40B. Работает шустро и результаты неплохие.
InternLM: многоязычная модель языка с 104B параметров. Демонстрирует хорошие возможности в понимании текста, математике, кодировании. На тестах входит в топ-5 среди других моделей, а бенчмарке C-Eval уступает только GPT-4.
LLMZip: сжатие текста языковыми моделями. Метод превосходит на тестах подходы BSC, ZPAQ, и paq8h.
MobileNMT: система для развертывания моделей машинного перевода (не LLM) на мобильных устройствах. Авторы сжали модель Transformer до 15 МБ (в 65 раз) при скорости перевода 30 мс. Сочетая модель и движок оптимизированный под INT8, они ускорили декодирование в 47 раз при экономии 99,5% памяти. Потери BLEU всего 11,6%.
Исследование как улучшить в языковых моделях работу с контекстом, а также пошаговое рассуждение.
Генерация текста с водяным знаком.
M$^3$IT: набор данных, чтобы модель могла научиться связывать текст и изображения и понимать инструкции... Название канешн топ, китайские исследователи слушают вичуху?
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Clipdrop (связаны со Stability AI) запустили Uncrop — ответ Generative Fill от Adobe.
Просто загружаем картинку и меняем соотношение сторон как нам надо, без промта. Модель сгенерирует недостающую часть на основе контекста.
Я потестил, и Gyre пока выглядит более многообещающим, скоро до него доберусь.
Анонс
Просто загружаем картинку и меняем соотношение сторон как нам надо, без промта. Модель сгенерирует недостающую часть на основе контекста.
Я потестил, и Gyre пока выглядит более многообещающим, скоро до него доберусь.
Анонс
Я тут с удивлением обнаружил, что у меня видюха на ноутбуке не на 1 ГБ, а на 2 ГБ... Жизнь обман.
Дайджест:
📹 ВИДЕО + АРТ 🎨
Background Prompting: улучшение генерации 3D из одного изображения через подстановку фона, что помогает моделям сфокусироваться на объектах на переднем плане.
Attention Refocusing: исследование как улучшить text-2-image модели следовать промту. Предлагают ввести две потери для улучшения согласованности между изображениями.
Исследователи выпустили улучшенную версию VQGAN — Asymmetric VQGAN. Меньше артефактов при генерации картинок с текстом.
Zoom: теперь может делать выжимку созвонов в текстовом формате.
GenMM: появилось демо модели для генерации движения.
🎸 ЗВУК 🎸
MusicGen: модель для генерации аудио по тексту или с звуковым рефом. В отличие от существующих методов, таких как MusicLM, эта модель не требует самостоятельного семантического представления, и генерирует все 4 кодовые книги за один проход.
🤖 ЧАТЫ 🤖
DeepMind успользуют алгоритм AlphaDev который управляет выдачей и сортировкой контента. Так вот, ChatGPT за пару промтов пришёл к такому же алгоритму без человеческого фидбэка (RLHF).
StarChat: помимо альфы, теперь появилась бета-версия одного из лучших софтов для написания кода через чат. Также вышла в релиз модель StarCoderPlus, которая натренирована на датасете RedefinedWeb (также как Falcon) и позволяет коммерческое использование.
HuggingFace: обновились до v.0.20. Добавилась поддержка QLoRA, распределённого инференса, и не только.
Diffusers: библиотека обновилась до v 0.17. Из нового: улучшения в LoRA, добавлен Kandinsky 2.1, ускорена компиляция Torch, и другое.
VideoChatGPT: модель для суммаризации и чата по видео. Можно раскатать локально.
MIMIC-IT: датасет с 2.8 млн. мультимодальных инструкций и ответов, обогащенных контекстом для обучения моделей, которые смогут чатиться с изображениями или видео.
Исследования как масштабировать сферические свёрточные нейронные сети (не в вакууме).
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
📹 ВИДЕО + АРТ 🎨
Background Prompting: улучшение генерации 3D из одного изображения через подстановку фона, что помогает моделям сфокусироваться на объектах на переднем плане.
Attention Refocusing: исследование как улучшить text-2-image модели следовать промту. Предлагают ввести две потери для улучшения согласованности между изображениями.
Исследователи выпустили улучшенную версию VQGAN — Asymmetric VQGAN. Меньше артефактов при генерации картинок с текстом.
Zoom: теперь может делать выжимку созвонов в текстовом формате.
GenMM: появилось демо модели для генерации движения.
🎸 ЗВУК 🎸
MusicGen: модель для генерации аудио по тексту или с звуковым рефом. В отличие от существующих методов, таких как MusicLM, эта модель не требует самостоятельного семантического представления, и генерирует все 4 кодовые книги за один проход.
🤖 ЧАТЫ 🤖
DeepMind успользуют алгоритм AlphaDev который управляет выдачей и сортировкой контента. Так вот, ChatGPT за пару промтов пришёл к такому же алгоритму без человеческого фидбэка (RLHF).
StarChat: помимо альфы, теперь появилась бета-версия одного из лучших софтов для написания кода через чат. Также вышла в релиз модель StarCoderPlus, которая натренирована на датасете RedefinedWeb (также как Falcon) и позволяет коммерческое использование.
HuggingFace: обновились до v.0.20. Добавилась поддержка QLoRA, распределённого инференса, и не только.
Diffusers: библиотека обновилась до v 0.17. Из нового: улучшения в LoRA, добавлен Kandinsky 2.1, ускорена компиляция Torch, и другое.
VideoChatGPT: модель для суммаризации и чата по видео. Можно раскатать локально.
MIMIC-IT: датасет с 2.8 млн. мультимодальных инструкций и ответов, обогащенных контекстом для обучения моделей, которые смогут чатиться с изображениями или видео.
Исследования как масштабировать сферические свёрточные нейронные сети (не в вакууме).
Please open Telegram to view this post
VIEW IN TELEGRAM
Разработчик под ником The Axodonian поделился на реддите своей версией Stable Diffusion, написанной на C++.
В ней нет зависимостей от Python, нет нужды клонировать репы с гитхаба, создавать виртуальные пространства, и тянуть сотни паков занимающих место. Она быстро и легко устанавливается и запускается как один процесс. Это также делает её удобной для создания плагинов и встраивания в игры (C++ и библиотеки на С для них родное).
Также он пилит апу Unpaint на основе своего кода, где есть txt-2-img, img-2-img, итд.
Лицензия MIT, что подразумевает свободное использование.
Реддит
В ней нет зависимостей от Python, нет нужды клонировать репы с гитхаба, создавать виртуальные пространства, и тянуть сотни паков занимающих место. Она быстро и легко устанавливается и запускается как один процесс. Это также делает её удобной для создания плагинов и встраивания в игры (C++ и библиотеки на С для них родное).
Также он пилит апу Unpaint на основе своего кода, где есть txt-2-img, img-2-img, итд.
Лицензия MIT, что подразумевает свободное использование.
Реддит
This media is not supported in your browser
VIEW IN TELEGRAM
Unsupervised Compositional Concepts Discovery — новая img-2-img модель, которая берёт разные изображения на вход, понимает как их классифицировать, а дальше может их комбинировать как угодно. Например, если среди картинок будут кухня, собака и арт ВанГога, то модель сможет сделать кухню или собаку в стиле ВанГога.
Напоминает Break-a-Scene на основе imageBind. Но там кода нет, а тут код есть.
P.S. Если скормить ей вашу папку Загрузки и начать комбинировать, что мы увидим на экране?
Сайт
Код
Напоминает Break-a-Scene на основе imageBind. Но там кода нет, а тут код есть.
P.S. Если скормить ей вашу папку Загрузки и начать комбинировать, что мы увидим на экране?
Сайт
Код
AutoTrain: фреймворк для тренировки своих моделей через простой UI на Gradio для тех, кто не умеет программировать. Можно раскатать локально и тренировать модельки в сфере обработки языка (NLP), компьютерного зрения (CV), работы с голосом, и тд
Есть версии для тех, у кого небольшой датасет, и у кого есть доступ к большому корпусу данных. Также доступен API.
Есть версии для тех, у кого небольшой датасет, и у кого есть доступ к большому корпусу данных. Также доступен API.
SyncDiffusion — модель для генерации согласованных панорам, синхронизуя несколько диффузий.
Она использует градиент потерь схожести с изображением на каждом шаге диффузии, что помогает модели понять напревление генерации для создания согласованных панорам. Результаты отличаются высоким качеством, сохраняют достоверность и совместимость с исходным промтом.
Метод демонстрирует значительное улучшение по сравнению с предыдущими подходами (66,35% против 33,65%).
Сайт
Кода пока нет
Она использует градиент потерь схожести с изображением на каждом шаге диффузии, что помогает модели понять напревление генерации для создания согласованных панорам. Результаты отличаются высоким качеством, сохраняют достоверность и совместимость с исходным промтом.
Метод демонстрирует значительное улучшение по сравнению с предыдущими подходами (66,35% против 33,65%).
Сайт
Кода пока нет
Media is too big
VIEW IN TELEGRAM
Уже опробовали MusicGen?
Модель генерирует 12 секунд аудио на основе текстового промта. По желанию можно предоставить аудио реф, из которого будет извлечена общая мелодия. Модель попытается следовать промту и мелодии.
К волне AI-каверов готовится присоединиться волна AI-мэшапов и ремиксов.
Демо
Модели
Код
Модель генерирует 12 секунд аудио на основе текстового промта. По желанию можно предоставить аудио реф, из которого будет извлечена общая мелодия. Модель попытается следовать промту и мелодии.
К волне AI-каверов готовится присоединиться волна AI-мэшапов и ремиксов.
Демо
Модели
Код
Deforum выпустили нодный редактор aiNodes Engine для генерации изображений и анимации.
Вдохновлён ComfyUI, написан на питоне, и имеет инсталлятор, который одним кликом поставит всё нужное, включая виртуальные среды.
Фичи:
* Полная модульность с динамической загрузкой пакетов узлов во время выполнения
* Поддержка RIFE (оценка промежуточного потока в реальном времени)
* Поддержка FILM для плавной интерполяции кадров при анимации
* Цветной фон для улучшения визуального восприятия
* Аннотации IDE для простого создания узлов
Гитхаб
Вдохновлён ComfyUI, написан на питоне, и имеет инсталлятор, который одним кликом поставит всё нужное, включая виртуальные среды.
Фичи:
* Полная модульность с динамической загрузкой пакетов узлов во время выполнения
* Поддержка RIFE (оценка промежуточного потока в реальном времени)
* Поддержка FILM для плавной интерполяции кадров при анимации
* Цветной фон для улучшения визуального восприятия
* Аннотации IDE для простого создания узлов
Гитхаб
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Вот еще один проект-прокладка между Stable Diffusion (+ControlNet) и пользователем.
Value здесь в том, что они:
1. Сделали мини-сток различных элементов, часто используемых в рекламе. Это маски (точнее canny) для Control Net, представляющие руки, лица, подставки, растения - в общем небольшая база элементов, по аналогии с многими софтами, в которых есть библиотеки. Только здесь это маски, на основе которых будут генериться элементы.
2. Сделали UI в духе PowerPoint и прочих для коллажирования.
3. Немного удаления фона и элементов.
Подписка, как обычно, 10 долларов в месяц. Можно попробовать бесплатно.
Время таких продуктов ограниченно. В принципе это все уже есть в Microsoft Designer или Canva, просто не так ловко и не так прицельно в рекламные картинки.
Думаю, все это появится во "взрослых" софтах. Прежде всего в Адобченко и Микрософте.
Но проблема в том, что Адобченко будет юзать свой FireFly, а Микрософт Dalle-2.
Никто из корпоратов не хочет связываться с серым полем авторских прав для Stable Diffusion.
Поэтому такие сервисы будут жить некоторое время.
https://app.flair.ai/
Ну и понятно, что все это можно делать в Automatic1111. Но надо искать и делать маски, плясать с коллажированием, продираться сквозь настройки контролнета. А тут все под рукой.
Value здесь в том, что они:
1. Сделали мини-сток различных элементов, часто используемых в рекламе. Это маски (точнее canny) для Control Net, представляющие руки, лица, подставки, растения - в общем небольшая база элементов, по аналогии с многими софтами, в которых есть библиотеки. Только здесь это маски, на основе которых будут генериться элементы.
2. Сделали UI в духе PowerPoint и прочих для коллажирования.
3. Немного удаления фона и элементов.
Подписка, как обычно, 10 долларов в месяц. Можно попробовать бесплатно.
Время таких продуктов ограниченно. В принципе это все уже есть в Microsoft Designer или Canva, просто не так ловко и не так прицельно в рекламные картинки.
Думаю, все это появится во "взрослых" софтах. Прежде всего в Адобченко и Микрософте.
Но проблема в том, что Адобченко будет юзать свой FireFly, а Микрософт Dalle-2.
Никто из корпоратов не хочет связываться с серым полем авторских прав для Stable Diffusion.
Поэтому такие сервисы будут жить некоторое время.
https://app.flair.ai/
Ну и понятно, что все это можно делать в Automatic1111. Но надо искать и делать маски, плясать с коллажированием, продираться сквозь настройки контролнета. А тут все под рукой.
Дайджест:
📹 ВИДЕО + АРТ 🎨
GANeRF: улучшение качества рендеринга NeRF сцен с помощью GAN сетей. Над подобным работает NeRFLiX, только без GAN.
Phygital+: больше настроек для Stable Diffusion Inpainting, Control Net и обучения своих моделей, 6 новых стилей, и персональный онбардинг.
Nvidia: представила text-2-3D модель ATT3D. В отличие от методов, требующих длительной оптимизации для каждого запроса, модель использует амортизированную оптимизацию, обучая модель на множестве промтов одновременно. Это позволяет распределить вычислительные мощности между набором запросов и сэкономить время и деньги. Кода пока нет.
BOOT: быстрый метод обучения генеративных моделей, который позволяет достичь высокого качества генерации изображений без использования реальных данных. Метод основан на предсказании траектории диффузии и бутстрэппинге. Кода пока нет.
Рабочая моделька поиграться с img-2-3D через Shap-E.
🤖 ЧАТЫ 🤖
LLM as Chat: сервис для чата с разными языковыми моделями обновился. Теперь показываются требования к VRAM и можно выбрать только те, на которые памяти хватит.
Cerebras: выпустили SlimPajama с 627B параметров — крупнейший набор данных для обучения моделей естественного языка. Он был создан путем очистки + удаления дубликатов из датасета RedPajama 1.21T, и с высоким качеством данных показывает хорошую эффективность вычислений для обучения моделей до 627 миллиардов токенов.
Hugging Face: обновили свой контейнер для инференса LLM.
Сравнение генерации текста на маленьком датасете с крупными моделями (GPT-4 175B).
GPTWorld: игра, в которой надо красной точкой забрать ключ и выбраться из лабиринта. Нужны навыки программирования, так что....
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
📹 ВИДЕО + АРТ 🎨
GANeRF: улучшение качества рендеринга NeRF сцен с помощью GAN сетей. Над подобным работает NeRFLiX, только без GAN.
Phygital+: больше настроек для Stable Diffusion Inpainting, Control Net и обучения своих моделей, 6 новых стилей, и персональный онбардинг.
Nvidia: представила text-2-3D модель ATT3D. В отличие от методов, требующих длительной оптимизации для каждого запроса, модель использует амортизированную оптимизацию, обучая модель на множестве промтов одновременно. Это позволяет распределить вычислительные мощности между набором запросов и сэкономить время и деньги. Кода пока нет.
BOOT: быстрый метод обучения генеративных моделей, который позволяет достичь высокого качества генерации изображений без использования реальных данных. Метод основан на предсказании траектории диффузии и бутстрэппинге. Кода пока нет.
Рабочая моделька поиграться с img-2-3D через Shap-E.
🤖 ЧАТЫ 🤖
LLM as Chat: сервис для чата с разными языковыми моделями обновился. Теперь показываются требования к VRAM и можно выбрать только те, на которые памяти хватит.
Cerebras: выпустили SlimPajama с 627B параметров — крупнейший набор данных для обучения моделей естественного языка. Он был создан путем очистки + удаления дубликатов из датасета RedPajama 1.21T, и с высоким качеством данных показывает хорошую эффективность вычислений для обучения моделей до 627 миллиардов токенов.
Hugging Face: обновили свой контейнер для инференса LLM.
Сравнение генерации текста на маленьком датасете с крупными моделями (GPT-4 175B).
GPTWorld: игра, в которой надо красной точкой забрать ключ и выбраться из лабиринта. Нужны навыки программирования, так что....
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Похоже Modelscope стал лучше выдавать картинку.
Автор с помощью базовой модели сгенерировал 320x256 —> затем через vid2vid на 640x512 удалил водяной знак.
Реддит
Автор с помощью базовой модели сгенерировал 320x256 —> затем через vid2vid на 640x512 удалил водяной знак.
Реддит
This media is not supported in your browser
VIEW IN TELEGRAM
Mind2Web — инструмент для автоматизации задач в интернете и поручения их выполнения AI-агентам.
В датасете Mind2Web представлены задачи, такие как поиск авиабилетов, бронирование, поиск информации, взаимодействие с элементами веб-страниц и многое другое. В общей сложности 2 350 задач с 137 веб-сайтов, охватывающих 31 сферу деятельности. Для каждой задачи предоставляется описание задачи, последовательность действий для ее выполнения, снимки веб-страниц (включая HTML-код, DOM-снимки, изображения, файлы HAR и трассировки взаимодействия) и другая соответствующая информация.
Можно посмотреть как запись на видео процесса выполнения задачи, так и додетально каждый шаг (raw trace).
P.S. Не нашел как применить к твиттеру, телеге, да и чётких инструкций как натренить для своих нужд, но в целом интересно.
Сайт
В датасете Mind2Web представлены задачи, такие как поиск авиабилетов, бронирование, поиск информации, взаимодействие с элементами веб-страниц и многое другое. В общей сложности 2 350 задач с 137 веб-сайтов, охватывающих 31 сферу деятельности. Для каждой задачи предоставляется описание задачи, последовательность действий для ее выполнения, снимки веб-страниц (включая HTML-код, DOM-снимки, изображения, файлы HAR и трассировки взаимодействия) и другая соответствующая информация.
Можно посмотреть как запись на видео процесса выполнения задачи, так и додетально каждый шаг (raw trace).
P.S. Не нашел как применить к твиттеру, телеге, да и чётких инструкций как натренить для своих нужд, но в целом интересно.
Сайт