This media is not supported in your browser
VIEW IN TELEGRAM
Я пару месяцев назад писал, что нейронки потенциально могут заменить объективы в камерах + ведутся работы над нейронными линзами для коррекции оптических искажений.
И тут появляется на горизонте Paragraphica. Камера есть в физическом и цифровом вариантах. Она берет гео-данные с информацией о погоде, времени суток и том на чём должен быть фокус, и конвертирует их в промт с описанием того, что должно быть запечатлено. Три регулятора сверху отвечают за: радиус обзора в метрах (аналог фокусного расстояния), количество начального шума для генерации (аналог зернистости), и guidance scale (чем выше значение, тем ближе фото к промту).
В начале года в твиттере наткнулся на приложения, которое берёт твои фото с друзьями на вечеринке и за счёт SD генерит их в другом контексте, типа в параллельной реальности. Так как о нём больше не слышно, видать далеко оно не ушло. В отличие от той апы, Paragraphica генерит результаты, которыми не зазорно поделиться.
Антенна в виде носа крота (которая у меня больше ассоциируется с пауком), выглядит по-своему интересно. Но это не практично с любой точки зрения.
Суть ведь не в том, чтобы купить себе ещё один обвес, а наоборот убрать из телефона камеру в принципе (и не было причин покупать новый телефон). Чтобы был вместо неё какой-то маленький сенсор, который не поцарапаешь и не разобьёшь, а ты на уровне софта мог подбирать нужную тебе линзу.
И тут появляется на горизонте Paragraphica. Камера есть в физическом и цифровом вариантах. Она берет гео-данные с информацией о погоде, времени суток и том на чём должен быть фокус, и конвертирует их в промт с описанием того, что должно быть запечатлено. Три регулятора сверху отвечают за: радиус обзора в метрах (аналог фокусного расстояния), количество начального шума для генерации (аналог зернистости), и guidance scale (чем выше значение, тем ближе фото к промту).
В начале года в твиттере наткнулся на приложения, которое берёт твои фото с друзьями на вечеринке и за счёт SD генерит их в другом контексте, типа в параллельной реальности. Так как о нём больше не слышно, видать далеко оно не ушло. В отличие от той апы, Paragraphica генерит результаты, которыми не зазорно поделиться.
Антенна в виде носа крота (которая у меня больше ассоциируется с пауком), выглядит по-своему интересно. Но это не практично с любой точки зрения.
Суть ведь не в том, чтобы купить себе ещё один обвес, а наоборот убрать из телефона камеру в принципе (и не было причин покупать новый телефон). Чтобы был вместо неё какой-то маленький сенсор, который не поцарапаешь и не разобьёшь, а ты на уровне софта мог подбирать нужную тебе линзу.
This media is not supported in your browser
VIEW IN TELEGRAM
До лета 1 час 25 минут. Время ещё есть!
Дайджест:
📹 ВИДЕО + АРТ 🎨
Обновлённый ControlNet версии 1.1.202 позволяет расширять изображения без промта, подобно Adobe Generative Fill.
4DHumans: отслеживание людей на видео и 3D моушен-трекинг. Работает с необычными позами и воссоздаёт их из одного изображения. Поддерживает работу с несколькими людьми и сохраняет идентичность при заслонении.
Исследование как генерировать результаты не похожие на те, на которых велась тренировка. Плюс ещё один фреймворк с кодом на эту тему: Ambient Diffusion.
🤖 ЧАТЫ 🤖
Tree-Ring Watermarks: метод для создания невидимых водяных знаков на генерациях диффузионных моделей. Сначала выбирается начальный шумовой массив так, чтобы его преобразование Фурье содержало тщательно сконструированный узор у своего центра. Этот узор называется ключом. Затем этот начальный шумовой вектор преобразуется в изображение с помощью стандартного диффузионного конвейера без модификаций. Чтобы обнаружить водяной знак на изображении, диффузионная модель инвертируется для извлечения исходного шумового массива, использованного для генерации. Затем проверяется, присутствует ли ключ в этом массиве.
Tab-CoT: подход цепочного рассуждения в табличном формате. Позволяет моделировать сложные процессы рассуждения в структурированной форме, работая сразу по нескольким измерениям (строкам и столбцам). Показывает сильные способности к нулевому и небольшому обучению на различных задачах рассуждения.
Efficient Diffusion Policies (EDP): метод для обучения оптимальных политик из оффлайн-датасетов в области обучения с подкреплением. Он сокращает время обучения с 5 дней до 5 часов на задачах gym-locomotion, совместим с различными алгоритмами оффлайн-обучения с подкреплением, и устанавливает новый рекорд на D4RL.
Blockwise Parallel Transformer (BPT): метод обучения трансформеров, позволяющий обрабатывать длинные последовательности данных с сохранением эффективности использования памяти. BPT может обучать последовательности до 32 раз длиннее, чем обычные трансформеры, и от 2 до 4 раз длиннее, чем предыдущие методы, экономящие память.
LaCLIP: улучшение обучения CLIP с помощью переписывания текстовых описаний, используя LLM.
ReWOO: отделение процесса рассуждения от внешних наблюдений. Это сокращает потребление токенов автономных агентов AutoPGT и Langchain, увеличивает точность и позволяет переносить способности к рассуждению из больших моделей в меньшие.
PlaSma: добавление языковым моделям процедурных знаний и способности к планированию.
Google: представила многоязычную (100 языков) мультимодалку PaLI-X 55B, через которую можно чатиться с изображениями и текстами. По заверениям разработчиков превосходит другие модели на разнообразных задачах: подписи к изображениям, вопросы-ответы, понимание документа, обнаружение объектов и видео. PaLI-X даёт хорошие результаты не только благодаря своему размеру, но и гибкому обучению. Она демонстрирует возникающие способности, такие как сложный подсчет объектов и многоязычное обнаружение объектов. Кода нет.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude.
📹 ВИДЕО + АРТ 🎨
Обновлённый ControlNet версии 1.1.202 позволяет расширять изображения без промта, подобно Adobe Generative Fill.
4DHumans: отслеживание людей на видео и 3D моушен-трекинг. Работает с необычными позами и воссоздаёт их из одного изображения. Поддерживает работу с несколькими людьми и сохраняет идентичность при заслонении.
Исследование как генерировать результаты не похожие на те, на которых велась тренировка. Плюс ещё один фреймворк с кодом на эту тему: Ambient Diffusion.
🤖 ЧАТЫ 🤖
Tree-Ring Watermarks: метод для создания невидимых водяных знаков на генерациях диффузионных моделей. Сначала выбирается начальный шумовой массив так, чтобы его преобразование Фурье содержало тщательно сконструированный узор у своего центра. Этот узор называется ключом. Затем этот начальный шумовой вектор преобразуется в изображение с помощью стандартного диффузионного конвейера без модификаций. Чтобы обнаружить водяной знак на изображении, диффузионная модель инвертируется для извлечения исходного шумового массива, использованного для генерации. Затем проверяется, присутствует ли ключ в этом массиве.
Tab-CoT: подход цепочного рассуждения в табличном формате. Позволяет моделировать сложные процессы рассуждения в структурированной форме, работая сразу по нескольким измерениям (строкам и столбцам). Показывает сильные способности к нулевому и небольшому обучению на различных задачах рассуждения.
Efficient Diffusion Policies (EDP): метод для обучения оптимальных политик из оффлайн-датасетов в области обучения с подкреплением. Он сокращает время обучения с 5 дней до 5 часов на задачах gym-locomotion, совместим с различными алгоритмами оффлайн-обучения с подкреплением, и устанавливает новый рекорд на D4RL.
Blockwise Parallel Transformer (BPT): метод обучения трансформеров, позволяющий обрабатывать длинные последовательности данных с сохранением эффективности использования памяти. BPT может обучать последовательности до 32 раз длиннее, чем обычные трансформеры, и от 2 до 4 раз длиннее, чем предыдущие методы, экономящие память.
LaCLIP: улучшение обучения CLIP с помощью переписывания текстовых описаний, используя LLM.
ReWOO: отделение процесса рассуждения от внешних наблюдений. Это сокращает потребление токенов автономных агентов AutoPGT и Langchain, увеличивает точность и позволяет переносить способности к рассуждению из больших моделей в меньшие.
PlaSma: добавление языковым моделям процедурных знаний и способности к планированию.
Google: представила многоязычную (100 языков) мультимодалку PaLI-X 55B, через которую можно чатиться с изображениями и текстами. По заверениям разработчиков превосходит другие модели на разнообразных задачах: подписи к изображениям, вопросы-ответы, понимание документа, обнаружение объектов и видео. PaLI-X даёт хорошие результаты не только благодаря своему размеру, но и гибкому обучению. Она демонстрирует возникающие способности, такие как сложный подсчет объектов и многоязычное обнаружение объектов. Кода нет.
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Сравнение Adobe Generative Fill с опенсорсным Gyre.ai на основе Stable Diffusion.
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Гемифицированный тест Тьюринга: "Человек или бот?"
Подключаешься, чатишься, и когда другая сторона покинула чат угадываешь был это человек или бот.
https://app.humanornot.ai/
Подключаешься, чатишься, и когда другая сторона покинула чат угадываешь был это человек или бот.
https://app.humanornot.ai/
Falcon-40B: модель с 40 миллиардами параметров, созданная TII и обученная на 1 триллионе токенов датасета RefinedWeb с дополнительными корпусами.
* Превосходит LLaMA, StableLM, RedPajama, MPT и другие опенсорсные модели.
* Имеет архитектуру, оптимизированную для инференса (вывода данных) с FlashAttention и multiquery.
* Лицензия Apache 2.0, допускает коммерческое использование без каких-либо отчислений или ограничений.
Помимо сырой модели есть оптимизированная для чата Falcon-40B-Instruct и маленькая Falcon-7B
* Превосходит LLaMA, StableLM, RedPajama, MPT и другие опенсорсные модели.
* Имеет архитектуру, оптимизированную для инференса (вывода данных) с FlashAttention и multiquery.
* Лицензия Apache 2.0, допускает коммерческое использование без каких-либо отчислений или ограничений.
Помимо сырой модели есть оптимизированная для чата Falcon-40B-Instruct и маленькая Falcon-7B
huggingface.co
tiiuae/falcon-40b-instruct · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
OpenAI представило новый подход к решению математических задач с помощью моделей, обученных на основе процесса, а не только на основе итогового результата. Этот подход, названный "Process Supervision", позволяет модели следовать за "цепочкой мысли", одобренной человеком, на каждом шаге решения задачи. Это приводит к значительному улучшению производительности по сравнению с обучением на основе итогового результата и обеспечивает более высокий уровень согласованности с человеческими ожиданиями.
Пост
Датасет
Бумага
Пост
Датасет
Бумага
This media is not supported in your browser
VIEW IN TELEGRAM
Чувак с помощью нейронок сделал из себя 3D игрового персонажа.
1) Сначала сделал NeRF через Luma
2) Затем экспортировал 3D-меш в блендер для его очистки и оптимизации
3) Через Mixamo подключил авториг и анимацию для AR контроллера
4) Воспользовался AR библиотекой 8th Wall для создания игр с поддержкой джойстика, физики, датчиков приближения, и отражений из реальности.
Автор
1) Сначала сделал NeRF через Luma
2) Затем экспортировал 3D-меш в блендер для его очистки и оптимизации
3) Через Mixamo подключил авториг и анимацию для AR контроллера
4) Воспользовался AR библиотекой 8th Wall для создания игр с поддержкой джойстика, физики, датчиков приближения, и отражений из реальности.
Автор
Дайджест:
📹 ВИДЕО + АРТ 🎨
Make-Your-Video: новая video-2-video модель, можно добиться нормальной консистентности. Напоминает GEN-1 от Runway. Код будет позже.
CelebBasis: ещё один метод как с помощью одного фото за 3 минуты сгенерировать с собой изображение, используя диффузионную модель. Код будет позже.
Google: показали text-2-image модель StyleDrop, которая генерирует изображения с хорошим следованием целевому стилю, учитывая нюансы вроде теней, цвета, и т.д. Кода нет.
Self-guidance: zero-shot метод, с помощью которого можно заменять/перемещать объекты в кадре не трогая контекст сцены. Кода нет.
Conceptor: улучшаем SD на лету следовать семантике через Generative Semantic Nursing (GSN). Кода пока нет.
Cones 2: используем контекст нескольких изображений, чтобы генерить на их основе новые. Напоминает Break-a-scene... и кода тоже нет.
GenMM: генерация движения персонажа без необходимости в тренировке. Кода пока нет.
Würstchen: ускоряем тренировку text-2-image модели вроде SD 1.4 с 150 тыс. GPU часов до 9,2 тыс.
🎸 ЗВУК 🎸
MERT: модель для понимания музыки без человеческого контроля (self-supervised). Модели-учителя RVQ-VAE и CQT направляют модель-студента BERT-style в сторону лучшего понимания и моделирования музыки.
🤖 ЧАТЫ 🤖
Вышла неотцензуренная Wizard Vicuna 30B Uncensored
Обсуждение как цензура влияет на производительность языковых моделей.
LLaMa-Adapter Multimodal: к ламе прикрутили ImageBind и теперь она может чатиться с текстом, изображениями, видео, и аудио.
LLM As Chatbot: чат с разными моделями обновился. Добавилась тёмная тема, возможность задать глобальный контекст, и ещё по-мелочи.
LLaVA-Med: чат помощник по медицинским данным. Работает с изображениями и текстом.
SafeDiffusion: исследование как сделать процесс диффузии более точным. Бумага тут.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude.
📹 ВИДЕО + АРТ 🎨
Make-Your-Video: новая video-2-video модель, можно добиться нормальной консистентности. Напоминает GEN-1 от Runway. Код будет позже.
CelebBasis: ещё один метод как с помощью одного фото за 3 минуты сгенерировать с собой изображение, используя диффузионную модель. Код будет позже.
Google: показали text-2-image модель StyleDrop, которая генерирует изображения с хорошим следованием целевому стилю, учитывая нюансы вроде теней, цвета, и т.д. Кода нет.
Self-guidance: zero-shot метод, с помощью которого можно заменять/перемещать объекты в кадре не трогая контекст сцены. Кода нет.
Conceptor: улучшаем SD на лету следовать семантике через Generative Semantic Nursing (GSN). Кода пока нет.
Cones 2: используем контекст нескольких изображений, чтобы генерить на их основе новые. Напоминает Break-a-scene... и кода тоже нет.
GenMM: генерация движения персонажа без необходимости в тренировке. Кода пока нет.
Würstchen: ускоряем тренировку text-2-image модели вроде SD 1.4 с 150 тыс. GPU часов до 9,2 тыс.
🎸 ЗВУК 🎸
MERT: модель для понимания музыки без человеческого контроля (self-supervised). Модели-учителя RVQ-VAE и CQT направляют модель-студента BERT-style в сторону лучшего понимания и моделирования музыки.
🤖 ЧАТЫ 🤖
Вышла неотцензуренная Wizard Vicuna 30B Uncensored
Обсуждение как цензура влияет на производительность языковых моделей.
LLaMa-Adapter Multimodal: к ламе прикрутили ImageBind и теперь она может чатиться с текстом, изображениями, видео, и аудио.
LLM As Chatbot: чат с разными моделями обновился. Добавилась тёмная тема, возможность задать глобальный контекст, и ещё по-мелочи.
LLaVA-Med: чат помощник по медицинским данным. Работает с изображениями и текстом.
SafeDiffusion: исследование как сделать процесс диффузии более точным. Бумага тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Text-2-image генерация локально на мобильных телефонах за несколько секунд —SnapFusion.
Достигнуто путем внедрения эффективной архитектуры UNet (с выявлением избыточности исходной модели) и сокращения вычислений декодера изображения за счет дистилляции данных. Далее, пошаговая дистилляция улучшается, исследуя стратегии обучения и вводя регуляризацию из руководства без классификатора.
Эксперименты на датасете MS-COCO показывают, что SnapFusion с 8 шагами денойза генерит лучше, чем модель Stable Diffusion v1.5 с 50 шагами.
Бумага
Кода пока нет
Достигнуто путем внедрения эффективной архитектуры UNet (с выявлением избыточности исходной модели) и сокращения вычислений декодера изображения за счет дистилляции данных. Далее, пошаговая дистилляция улучшается, исследуя стратегии обучения и вводя регуляризацию из руководства без классификатора.
Эксперименты на датасете MS-COCO показывают, что SnapFusion с 8 шагами денойза генерит лучше, чем модель Stable Diffusion v1.5 с 50 шагами.
Бумага
Кода пока нет
This media is not supported in your browser
VIEW IN TELEGRAM
Coctail — использование нескольких модальностей для генерации изображений по тексту.
В отличие от предыдущих подходов, для смешивания используется одна модель, которая не требует модификации, что значительно снижает уровень трат.
Под капотом ControlNet общего назначения (gControlNet), контролируемая нормализация (ControlNorm), и метод выборки пространственных ориентиров.
Сайт
В отличие от предыдущих подходов, для смешивания используется одна модель, которая не требует модификации, что значительно снижает уровень трат.
Под капотом ControlNet общего назначения (gControlNet), контролируемая нормализация (ControlNorm), и метод выборки пространственных ориентиров.
Сайт
Дайджест:
📹 ВИДЕО + АРТ 🎨
Phygital+: новые стили для тренировки, смена дня и ночи в кадре, Dreambooth 2.1 теперь не нужны карты глубины, промт-помощники внутри текстового поля.
TextDiffuser: модель для text-2-image генераций, смены стиля и инпейтинга.
Ещё один вариант редактирования изображения текстом. Теперь через DDPM инверсию.
Классификация изображений без словаря.
SAM3D: использование Segment Anything для zero-shot 3D обнаружения.
HeadSculpt: генерация 3D говорящих голов по тексту.
VisualGPTScore: модель для оценки связи между изображением и текстом. Кода пока нет.
Google: представили Video Adapter, метод адаптации больших предобученных текст-видео моделей к генерации узко-специализированного контента, которому их не учили. Кода нет.
Исследование от них же об эффективности диффузии для оценки оптического потока и монокулярной глубины.
🎸 ЗВУК 🎸
ByteDance: представили PolyVoice модель для speech-2-speech голосового перевода. Может сохранять акцент.
🤖 ЧАТЫ 🤖
GPT4ALL: интерфейс теперь поддерживает 100+ локальных LLM моделей. Также добавлены плагины, через которые можно общаться со своими данными (pdf и так далее).
LLM-Blender: модель, в которой можно объединять разные LLM и их преимущества. PairRanker выявляет различия между кандидатами, а GenFuser объединяет лучшие результаты. В комплекте идёт бенчмарк MixInstruct для оценки моделей.
Фреймворк для обнаружения уязвимостей в коде на этапе генерации и редактирования. Подход показывает улучшение выявления эксплоитов на 10% по сравнению с существующими моделями, в то время как применение фреймворка на коде с высокими рисками снижает количество уязвимостей на 90%.
Ламу на 7B параметров оптимизировали под запуск на Metal GPU Apple в M2 Max запустили со скоростью 40 токенов в секунду с 0% нагрузкой на процессор.
Viedo-LLaMA: новы чат с видео на основе ламы.
HuggingChat: теперь может выходить в интернет.
Falcon: появилось демо для модели 40B. Эта опенсорсная модель хорошо себя показывает на тестах и у неё есть коммерческая лицензия.
Gradio: представили возможность разворачивать со своего компа AI-приложения командой из двух слов (
Microsoft: исследование автоматизации процессов с помощью языковых моделей.
Fine-Grained RLHF: тренировка моделей на основе подробных функций вознаграждения для улучшения генерации текста и уменьшения недостатков языковых моделей.
GRES: обновлённый бенчмарк и датасет RES, который теперь берет на вход несколько объектов или никаких вовсе.
Orca-13B: бумага с обучением модели использованию сложных объяснительных следов от GPT-4. Orca превосходит другие модели на сложных тестах и экзаменах, обучаясь пошаговым объяснениям и показывая конкурентоспособную производительность.
InstructZero: оптимизация инструкций для black-box языковых моделей вроде ChatGPT. Осуществляется через low-dimensional soft prompt и методы Bayesian optimization.
OpenAI не хватает GPU, но в ближайших планах у них: снизить цены, сделать API для файнтюна моделей, увеличение контекстного окна, и другое.
Gorilla: модель для вызова естественным языком 1600+ сторонних API. Для связи с API ещё можно юзать ToolBench, который тоже на ламе.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude.
📹 ВИДЕО + АРТ 🎨
Phygital+: новые стили для тренировки, смена дня и ночи в кадре, Dreambooth 2.1 теперь не нужны карты глубины, промт-помощники внутри текстового поля.
TextDiffuser: модель для text-2-image генераций, смены стиля и инпейтинга.
Ещё один вариант редактирования изображения текстом. Теперь через DDPM инверсию.
Классификация изображений без словаря.
SAM3D: использование Segment Anything для zero-shot 3D обнаружения.
HeadSculpt: генерация 3D говорящих голов по тексту.
VisualGPTScore: модель для оценки связи между изображением и текстом. Кода пока нет.
Google: представили Video Adapter, метод адаптации больших предобученных текст-видео моделей к генерации узко-специализированного контента, которому их не учили. Кода нет.
Исследование от них же об эффективности диффузии для оценки оптического потока и монокулярной глубины.
🎸 ЗВУК 🎸
ByteDance: представили PolyVoice модель для speech-2-speech голосового перевода. Может сохранять акцент.
🤖 ЧАТЫ 🤖
GPT4ALL: интерфейс теперь поддерживает 100+ локальных LLM моделей. Также добавлены плагины, через которые можно общаться со своими данными (pdf и так далее).
LLM-Blender: модель, в которой можно объединять разные LLM и их преимущества. PairRanker выявляет различия между кандидатами, а GenFuser объединяет лучшие результаты. В комплекте идёт бенчмарк MixInstruct для оценки моделей.
Фреймворк для обнаружения уязвимостей в коде на этапе генерации и редактирования. Подход показывает улучшение выявления эксплоитов на 10% по сравнению с существующими моделями, в то время как применение фреймворка на коде с высокими рисками снижает количество уязвимостей на 90%.
Ламу на 7B параметров оптимизировали под запуск на Metal GPU Apple в M2 Max запустили со скоростью 40 токенов в секунду с 0% нагрузкой на процессор.
Viedo-LLaMA: новы чат с видео на основе ламы.
HuggingChat: теперь может выходить в интернет.
Falcon: появилось демо для модели 40B. Эта опенсорсная модель хорошо себя показывает на тестах и у неё есть коммерческая лицензия.
Gradio: представили возможность разворачивать со своего компа AI-приложения командой из двух слов (
𝚐𝚛𝚊𝚍𝚒𝚘 𝚍𝚎𝚙𝚕𝚘𝚢) Microsoft: исследование автоматизации процессов с помощью языковых моделей.
Fine-Grained RLHF: тренировка моделей на основе подробных функций вознаграждения для улучшения генерации текста и уменьшения недостатков языковых моделей.
GRES: обновлённый бенчмарк и датасет RES, который теперь берет на вход несколько объектов или никаких вовсе.
Orca-13B: бумага с обучением модели использованию сложных объяснительных следов от GPT-4. Orca превосходит другие модели на сложных тестах и экзаменах, обучаясь пошаговым объяснениям и показывая конкурентоспособную производительность.
InstructZero: оптимизация инструкций для black-box языковых моделей вроде ChatGPT. Осуществляется через low-dimensional soft prompt и методы Bayesian optimization.
OpenAI не хватает GPU, но в ближайших планах у них: снизить цены, сделать API для файнтюна моделей, увеличение контекстного окна, и другое.
Gorilla: модель для вызова естественным языком 1600+ сторонних API. Для связи с API ещё можно юзать ToolBench, который тоже на ламе.
Please open Telegram to view this post
VIEW IN TELEGRAM
QR коды сделанные связкой ControlNet, StyleGAN и модели натренированной на QR кодах. На удивление они читаются.
Сайт
Реддит
Процесс тренировки
Сайт
Реддит
Процесс тренировки