Восхитительная эмерджентность модели EMSFold
Вы же знаете, что GPT-3 обучена просто предсказывать следующее слово в предложении, а в итоге пишет стихи, помогает читать научные статьи, писать и понимать код?
Это явление называется эмерджентность (emergence) - когда после обучения на простой задаче, модель умеет делать гораздо больше.
Эмерджентость - одно из ключевых свойств фундаментальных моделей, таких как DALL-E, BERT, GPT-3 и теперь - представленной в ноябре EMSFold.
Изначально Meta AI обучали языковую модель заполнять пробелы в последовательности белков, а оказалось, чтобы хорошо выполнить задачу, она должна узнать, какая у белка функция, и как ориентированы аминокислоты в пространстве.
Почему это восхитительно: эволюционная изменчивость белков не произвольная - их биологические свойства играют роль ограничителей на мутации в последовательности. Но головоломка в том, что свойства белка зависят от его 3D формы.
И EMSFold - новая SOTA модель, решающая эту головоломку.
📖Статья
🖇Код
@GingerSpacetail
Вы же знаете, что GPT-3 обучена просто предсказывать следующее слово в предложении, а в итоге пишет стихи, помогает читать научные статьи, писать и понимать код?
Это явление называется эмерджентность (emergence) - когда после обучения на простой задаче, модель умеет делать гораздо больше.
Эмерджентость - одно из ключевых свойств фундаментальных моделей, таких как DALL-E, BERT, GPT-3 и теперь - представленной в ноябре EMSFold.
Изначально Meta AI обучали языковую модель заполнять пробелы в последовательности белков, а оказалось, чтобы хорошо выполнить задачу, она должна узнать, какая у белка функция, и как ориентированы аминокислоты в пространстве.
Почему это восхитительно: эволюционная изменчивость белков не произвольная - их биологические свойства играют роль ограничителей на мутации в последовательности. Но головоломка в том, что свойства белка зависят от его 3D формы.
И EMSFold - новая SOTA модель, решающая эту головоломку.
📖Статья
🖇Код
@GingerSpacetail
Пять ошибок, которые допускают менеджеры при внедрении искусственного интеллекта, и как их исправить
Искусственный интеллект способен изменить процесс принятия корпоративных решений - увеличить доходы, снизить затраты и повысить качество. Если только сотрудники смогут его правильно применять.
Ошибка 1: концентрация на том, где алгоритмы будут иметь наибольшее влияние
Ошибка 2: Когда менеджеры внедряют алгоритмические технологии, они в основном устраняют технические трения и страхи перед инновациями.
Ошибка 3: акцент только на том, как алгоритмы могут помочь максимизировать доход и рентабельность
Ошибка 4: Использование алгоритмических технологий для предоставления работникам обратной связи в реальном времени об их работе
Ошибка 5: чрезмерное объяснение того, как работает алгоритм
Расписать каждую ошибку не хватит лимитов, так что подробности читайте в статье
🍬 Статья (возможен paywall)
Искусственный интеллект способен изменить процесс принятия корпоративных решений - увеличить доходы, снизить затраты и повысить качество. Если только сотрудники смогут его правильно применять.
Ошибка 1: концентрация на том, где алгоритмы будут иметь наибольшее влияние
Ошибка 2: Когда менеджеры внедряют алгоритмические технологии, они в основном устраняют технические трения и страхи перед инновациями.
Ошибка 3: акцент только на том, как алгоритмы могут помочь максимизировать доход и рентабельность
Ошибка 4: Использование алгоритмических технологий для предоставления работникам обратной связи в реальном времени об их работе
Ошибка 5: чрезмерное объяснение того, как работает алгоритм
Расписать каждую ошибку не хватит лимитов, так что подробности читайте в статье
🍬 Статья (возможен paywall)
Какие области наук вам ближе всего?
Anonymous Poll
29%
Физика
10%
Науки о Земле
68%
Компьютерные науки
24%
Инженерия
47%
Математика
11%
Медицина
16%
Биология
7%
Химия
15%
Гуманитарные науки
2%
Другое (пишу в комментах)
Forwarded from AbstractDL
MinD-Vis: диффузия для чтения мыслей
Представлена диффузионная модель, которая умеет декодировать то, что видит человек по его мозговой активности (fMRI).
Сначала авторы обучили self-supervised модель для получения универсальных эмбеддингов мозговой активности (одинаковых для разных людей). Далее они взяли предобученную Latent Diffusion и добавили к ней cross-attention на эти мысленные репрезентации. После короткого файнтюна на 1.5к парах картинка-fMRI модель смогла полноценно декодировать то, что видит перед собой человек!
Данные для обучения и код выложены в открытый доступ, веса моделей дают по запросу.
Статья, GitHub, блог
Представлена диффузионная модель, которая умеет декодировать то, что видит человек по его мозговой активности (fMRI).
Сначала авторы обучили self-supervised модель для получения универсальных эмбеддингов мозговой активности (одинаковых для разных людей). Далее они взяли предобученную Latent Diffusion и добавили к ней cross-attention на эти мысленные репрезентации. После короткого файнтюна на 1.5к парах картинка-fMRI модель смогла полноценно декодировать то, что видит перед собой человек!
Данные для обучения и код выложены в открытый доступ, веса моделей дают по запросу.
Статья, GitHub, блог
Focal Modulation Networks
Когда мы рассматриваем что-то, наши глаза совершают быстрые движения, называемые саккадами, фокусируясь на интересных деталях и мысленно строя сцену, учитывая глобальный контекст. Self-attention (SA) в ViT работает похожим образом, но проблема в том, что нужно вычислять attention между всеми частями изображения.
В Microsoft представили FocalNet, которая является развитием предыдущей идеи - авторы предложили вокруг каждого query-вектора создать зону из трех уровней: ближний - самый детальный и состоит из отдельных векторов, тогда как дальний - объединяет вектора в группу. В FocalNet развили эту идею, упростив вычисления при достижении SOTA результатов.
Восхитительно и то, что замена SA фокальной модуляцией позволяет не только упростить вычисления, но также локализовывать объекты без обращения к картам активации и вычисления градиент через backpropagation (как в Grad-CAM). Кроме того, полученные тепловые карты более консистентны в сравнении с SA (демо).
📖Статья
👨💻Код
@karray
Когда мы рассматриваем что-то, наши глаза совершают быстрые движения, называемые саккадами, фокусируясь на интересных деталях и мысленно строя сцену, учитывая глобальный контекст. Self-attention (SA) в ViT работает похожим образом, но проблема в том, что нужно вычислять attention между всеми частями изображения.
В Microsoft представили FocalNet, которая является развитием предыдущей идеи - авторы предложили вокруг каждого query-вектора создать зону из трех уровней: ближний - самый детальный и состоит из отдельных векторов, тогда как дальний - объединяет вектора в группу. В FocalNet развили эту идею, упростив вычисления при достижении SOTA результатов.
Восхитительно и то, что замена SA фокальной модуляцией позволяет не только упростить вычисления, но также локализовывать объекты без обращения к картам активации и вычисления градиент через backpropagation (как в Grad-CAM). Кроме того, полученные тепловые карты более консистентны в сравнении с SA (демо).
📖Статья
👨💻Код
@karray
This media is not supported in your browser
VIEW IN TELEGRAM
🪐 "Galactica". Большая языковая модель для науки.
Galactica может обобщать научную литературу, решать математические задачи, генерировать статьи Wiki, писать научный код, аннотировать молекулы и белки и многое другое.
Модель была выпущена компанией Meta (в принципе, с такой моделью действительно можно уволить часть сотрудников).
Попробовал ее на своей довольно специфичной области - работает на ура!
🪐 Онлайн демо
🫣 Модель
🦭 Статья
Galactica может обобщать научную литературу, решать математические задачи, генерировать статьи Wiki, писать научный код, аннотировать молекулы и белки и многое другое.
Модель была выпущена компанией Meta (в принципе, с такой моделью действительно можно уволить часть сотрудников).
Попробовал ее на своей довольно специфичной области - работает на ура!
🪐 Онлайн демо
🫣 Модель
🦭 Статья
Аугментация сейсмических данных
У меня есть своя библиотека для аугментации сейсмических данных (с точки зрения модальности - аудио/звук). Буду рад, если вы туда что-нибудь законтрибьютите!
На языке вертится frequency и time masking, но буду супер рад любым идеям!
P.S.: можно просто документацию пописать и примеры поделать
📻 Библиотека для аугментации сейсмических данных
P.S.: Sinkovics, прикинь, там уже 17 звёзд 🌟
У меня есть своя библиотека для аугментации сейсмических данных (с точки зрения модальности - аудио/звук). Буду рад, если вы туда что-нибудь законтрибьютите!
На языке вертится frequency и time masking, но буду супер рад любым идеям!
P.S.: можно просто документацию пописать и примеры поделать
📻 Библиотека для аугментации сейсмических данных
P.S.: Sinkovics, прикинь, там уже 17 звёзд 🌟
GitHub
GitHub - crimeacs/seismic-augmentation: Pytorch library for seismic data augmentation
Pytorch library for seismic data augmentation. Contribute to crimeacs/seismic-augmentation development by creating an account on GitHub.
AI для подкастов
Я тут изучил тему, оказывается, появился уже целый ряд ИИ продуктов для редактирования и производства подкастов:
Podcastle, Descript - транскрибация, редактирование звука по тексту, клонирование голоса и последующий нейродубляж
Podcast.co - хостинг и продвижение подкастов
Zencastr - обещают все в одном :)
И как оказалось там еще целое поле не паханое.
Пишите в коментах какие бы вы хотели фичи с ИИ?
Я тут изучил тему, оказывается, появился уже целый ряд ИИ продуктов для редактирования и производства подкастов:
Podcastle, Descript - транскрибация, редактирование звука по тексту, клонирование голоса и последующий нейродубляж
Podcast.co - хостинг и продвижение подкастов
Zencastr - обещают все в одном :)
И как оказалось там еще целое поле не паханое.
Пишите в коментах какие бы вы хотели фичи с ИИ?
This media is not supported in your browser
VIEW IN TELEGRAM
Wordcraft - NLG ассистент писателя, сфокусированный на полезности для пользователя
Google Research попросили 13 профессиональных писателей, поэтов и комиков в течение 8 недель использовать созданный на основе языковой модели LaMDA инструмент Wordcraft как партнера для мозговых штурмов, соавтора, помощника-исследователя и бета-читателя.
Пока Wordcraft с этим справляется на уровне, подходящем любителям и новичкам, но не тем, у кого есть свой стиль и почерк.
Топ 5 проблем:
1. Неоригинальность (в этом смысле модели поменьше типа GPT-2 лучше вдохновляют своими безбашенными курьезами)
2. Плагиат или нарушение авторских прав
3. Короткая "память", не умещающая сюжетную линию (в LaMDA последовательности из 1024 токенов, но даже 4к GPT-3 будет недостаточно)
4. Wordcraft отказывался создавать отрицательных персонажей (файнтьюнинг на грубости)
И вишенка на торте:
5. Wordcraft пока преувеличивает свои возможности, обещая, например, перезвонить через несколько дней🌚
📖Статья
📚Произведения
@GingerSpacetail
Google Research попросили 13 профессиональных писателей, поэтов и комиков в течение 8 недель использовать созданный на основе языковой модели LaMDA инструмент Wordcraft как партнера для мозговых штурмов, соавтора, помощника-исследователя и бета-читателя.
Пока Wordcraft с этим справляется на уровне, подходящем любителям и новичкам, но не тем, у кого есть свой стиль и почерк.
Топ 5 проблем:
1. Неоригинальность (в этом смысле модели поменьше типа GPT-2 лучше вдохновляют своими безбашенными курьезами)
2. Плагиат или нарушение авторских прав
3. Короткая "память", не умещающая сюжетную линию (в LaMDA последовательности из 1024 токенов, но даже 4к GPT-3 будет недостаточно)
4. Wordcraft отказывался создавать отрицательных персонажей (файнтьюнинг на грубости)
И вишенка на торте:
5. Wordcraft пока преувеличивает свои возможности, обещая, например, перезвонить через несколько дней🌚
📖Статья
📚Произведения
@GingerSpacetail
This media is not supported in your browser
VIEW IN TELEGRAM
Magic3D - модель text-to-3D от NVIDIA. Теперь мы знаем как выглядит волшебство.
Кажется, NVIDIA наняли эльфа Бадди (который из фильма 2003 с Уиллом Ферреллом). Во-первых, это умопомрачительная text-to-3D высокого разрешения. А во-вторых, дизайн инструмента в лучших традициях 90х со шрифтом comic sans. Комик санс, Карл!
Про диффузию вы и так знаете. А кода все равно ещё нет.
📖Статья
🪄Страница инструмента
@GingerSpacetail
Кажется, NVIDIA наняли эльфа Бадди (который из фильма 2003 с Уиллом Ферреллом). Во-первых, это умопомрачительная text-to-3D высокого разрешения. А во-вторых, дизайн инструмента в лучших традициях 90х со шрифтом comic sans. Комик санс, Карл!
Про диффузию вы и так знаете. А кода все равно ещё нет.
📖Статья
🪄Страница инструмента
@GingerSpacetail
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ победил в игру Дипломатия
Сегодня META объявила о прорыве на пути к созданию ИИ, овладевшего навыками использовать язык для ведения переговоров, убеждения и работы с людьми для достижения стратегических целей.
Они создали агента - CICERO (агент Цицерон) - который стал первым ИИ, достигшим уровня человека в популярной стратегической игре Diplomacy*. Работу опубликовали в журнале Science.
CICERO продемонстрировал свои возможности, играя на webDiplomacy.net, онлайновой версии игры, где CICERO набрал более чем в два раза больше очков, чем человеческие игроки, и вошел в 10 процентов лучших участников, сыгравших более одной игры.
В блог-посте подробнейшее описание задумки и исполнения. МЕТА в этом году прям в ударе по интересным статьям связанным с AI. Начинаю подозревать что метаверс строиться совсем не для людей.
😌 Блог-пост
🤩 Статья
🙃 Сайт CICERO
@crimeacs
Сегодня META объявила о прорыве на пути к созданию ИИ, овладевшего навыками использовать язык для ведения переговоров, убеждения и работы с людьми для достижения стратегических целей.
Они создали агента - CICERO (агент Цицерон) - который стал первым ИИ, достигшим уровня человека в популярной стратегической игре Diplomacy*. Работу опубликовали в журнале Science.
CICERO продемонстрировал свои возможности, играя на webDiplomacy.net, онлайновой версии игры, где CICERO набрал более чем в два раза больше очков, чем человеческие игроки, и вошел в 10 процентов лучших участников, сыгравших более одной игры.
В блог-посте подробнейшее описание задумки и исполнения. МЕТА в этом году прям в ударе по интересным статьям связанным с AI. Начинаю подозревать что метаверс строиться совсем не для людей.
😌 Блог-пост
🤩 Статья
🙃 Сайт CICERO
@crimeacs
Forwarded from Syncrets
Нейроны, аксоны, синапсы — всё это клеточный уровень. А как насчёт отдельных молекул?
Международная группа учёных совместно с коллегами из Бернальского института университета Лимерика в Ирландии открыли «динамический молекулярный переключатель», который имитирует синаптическое поведение и демонстрирует все функции математической логики, необходимые для глубокого обучения.
Команда разработала двухнанометровый молекулярный слой, объединяющий быстрый перенос электронов (по аналогии с потенциалами действия и деполяризации в биологии) с медленным связыванием протонов, ограниченным диффузией (сродни роли ионов кальция или нейротрансмиттеров). Так как этапы переноса электрона и связывания протона в материале происходят с очень разными временными масштабами, трансформация делает возможной эмуляцию пластичного поведения синаптических связей, Павловское обучение и цифровые логические вентили — просто изменяя напряжение и продолжительность импульсов — и это революционная альтернатива обычным бинарным кремниевым переключателям, по словам профессора Томпсона, руководителя проекта.
Применение этого метода в будущем к динамическим молекулярным системам с иными стимулами (например, светом) и с различными типами формирования ковалентных связей открывает путь к созданию новых реконфигурируемых систем, органических материалов для вычислений, сверхплотной упаковки данных, энергетики и т. д.
Интересно, если на подобную искусственную синаптическую базу развернуть уже готовый коннектом, что получится?
Please open Telegram to view this post
VIEW IN TELEGRAM
phys.org
Discovery reveals 'brain-like computing' at molecular level is possible
A discovery at University of Limerick in Ireland has revealed for the first time that unconventional brain-like computing at the tiniest scale of atoms and molecules is possible.
Media is too big
VIEW IN TELEGRAM
Clippit (известный под именами Clippy, Скрепа и Скрепыш) - ML помощник из Microsoft Office, работавший на байесовских алгоритмах
После поста про Wordcraft накрыло ностальгией по Скрепышу. Помните такого помощника в Ворде?
Оказалось, он был ML ассистентом, опередившим свое время. Его действия инициировались серией байесовских алгоритмов, оценивающих вероятность того, что пользователю нужна помощь, а ответы, естественно, основывались на правилах и шаблонах из базы знаний Microsoft.
И уже тогда, в далёком 1993, у него были несовершенства лучших AI помощников и чат-ботов современности: назойливость, короткая память, предложения в духе Капитана Очевидность и беспардонное нарушение социальных норм.
Под натиском критики его убрали в 2007 (2008 из Mac), но в 2021 он нашел новую работу в виде эмоджи, а в 2022 ему просвещен традиционный ugly-свитер Майкрософт.
📼Видео похищено отсюда. И оно с теми самыми звуками
📎Код для встраивания js Скрепы в любой сайт
@GingerSpacetail
После поста про Wordcraft накрыло ностальгией по Скрепышу. Помните такого помощника в Ворде?
Оказалось, он был ML ассистентом, опередившим свое время. Его действия инициировались серией байесовских алгоритмов, оценивающих вероятность того, что пользователю нужна помощь, а ответы, естественно, основывались на правилах и шаблонах из базы знаний Microsoft.
И уже тогда, в далёком 1993, у него были несовершенства лучших AI помощников и чат-ботов современности: назойливость, короткая память, предложения в духе Капитана Очевидность и беспардонное нарушение социальных норм.
Под натиском критики его убрали в 2007 (2008 из Mac), но в 2021 он нашел новую работу в виде эмоджи, а в 2022 ему просвещен традиционный ugly-свитер Майкрософт.
📼Видео похищено отсюда. И оно с теми самыми звуками
📎Код для встраивания js Скрепы в любой сайт
@GingerSpacetail
Stable Diffusion 2.0
SD2 предоставляет ряд значительных улучшений и возможностей по сравнению с оригинальной версией V1:
🌟 Depth-to-Image Diffusion Model
Новинка! Depth2img, расширяет предыдущую функцию "изображение-изображение", предоставляя совершенно новые возможности для творческого применения. Depth2img определяет глубину входного изображения (используя существующую модель), а затем генерирует новые изображения, используя как текст, так и информацию о глубине.
Новый Text-to-Image
Новые модели обучали с помощью нового OpenCLIP и эстетичного сабсета LAION-5B.
Super-resolution Upscaler
Повышает разрешение изображений в 4 раза. Теперь Stable Diffusion 2.0 может генерировать изображения с разрешением 2048x2048 или даже выше.
Updated Inpainting Diffusion Model
новая модель инпейнтинга, которая позволяет очень легко и быстро менять местами части изображения.
Еще больше подробностей тут
SD2 предоставляет ряд значительных улучшений и возможностей по сравнению с оригинальной версией V1:
🌟 Depth-to-Image Diffusion Model
Новинка! Depth2img, расширяет предыдущую функцию "изображение-изображение", предоставляя совершенно новые возможности для творческого применения. Depth2img определяет глубину входного изображения (используя существующую модель), а затем генерирует новые изображения, используя как текст, так и информацию о глубине.
Новый Text-to-Image
Новые модели обучали с помощью нового OpenCLIP и эстетичного сабсета LAION-5B.
Super-resolution Upscaler
Повышает разрешение изображений в 4 раза. Теперь Stable Diffusion 2.0 может генерировать изображения с разрешением 2048x2048 или даже выше.
Updated Inpainting Diffusion Model
новая модель инпейнтинга, которая позволяет очень легко и быстро менять местами части изображения.
Еще больше подробностей тут
This media is not supported in your browser
VIEW IN TELEGRAM
Следующий ивент Neuralink будет через неделю!
Nov 30, 6 pm PT
Судя по видео-приглашению нам покажут как кто-то печатает с помощью нейроимпланта. Было бы круто если бы печатали обезьяны, но с человеком тоже хорошо.
Источник
Nov 30, 6 pm PT
Судя по видео-приглашению нам покажут как кто-то печатает с помощью нейроимпланта. Было бы круто если бы печатали обезьяны, но с человеком тоже хорошо.
Источник
Self-Supervised Learning based on Heat Equation
Авторы обратили внимание на то, что карты активации классов полученные из global average pooling сверточных сетей похожи на физическое рассеивание тепла. Вдохновившись теплопередачей из физики они адаптировали уравнение теплопроводности и использовали его вместо лейблов, что позволило перевести задачу из supervised в self-supervised learning (#SSL).
На этапе обучения pretext-задачи, изображение делят на 4 патча, один из которых подается на вход модели, а остальные 3 предсказываются ей. Таким образом модель учит латентное представление.
Авторы утверждают, что их подход применим как для классификации изображений, так и для обнаружения объектов. Код обещают позже.
📖 Статья
@karray
Авторы обратили внимание на то, что карты активации классов полученные из global average pooling сверточных сетей похожи на физическое рассеивание тепла. Вдохновившись теплопередачей из физики они адаптировали уравнение теплопроводности и использовали его вместо лейблов, что позволило перевести задачу из supervised в self-supervised learning (#SSL).
На этапе обучения pretext-задачи, изображение делят на 4 патча, один из которых подается на вход модели, а остальные 3 предсказываются ей. Таким образом модель учит латентное представление.
Авторы утверждают, что их подход применим как для классификации изображений, так и для обнаружения объектов. Код обещают позже.
📖 Статья
@karray
This media is not supported in your browser
VIEW IN TELEGRAM
Интересные свойства softmax
Уверен многим знакома фунция softmax. Она часто используется как функция активации выходного слоя в нейронных сетях для задач классификации, при этом результат трактуется как вероятности (все значения между 0 и 1, а их сумма равна 1). Однако, это одна из ее интерпретаций этой и результат не следует рассматривать как фактическую вероятность.
Эта функция также имеет и другую интерпретацию. Как видно из названия, она возвращает максимум, а точнее является дифференцируемой argmax функцией. Как и argmax, результат softmax можно интерпретировать как индекс максимального значения. Напрмер, если взять вектор
Такое свойство softmax используется в self-attention блоках в трансформерах для реализации своего рода “soft dictionary”. Но об этом в другой раз.
Подробнее
@karray
Уверен многим знакома фунция softmax. Она часто используется как функция активации выходного слоя в нейронных сетях для задач классификации, при этом результат трактуется как вероятности (все значения между 0 и 1, а их сумма равна 1). Однако, это одна из ее интерпретаций этой и результат не следует рассматривать как фактическую вероятность.
Эта функция также имеет и другую интерпретацию. Как видно из названия, она возвращает максимум, а точнее является дифференцируемой argmax функцией. Как и argmax, результат softmax можно интерпретировать как индекс максимального значения. Напрмер, если взять вектор
[1, 5, 5]
, softmax вернет [0.01, 0.49, 0.49]
. Перемножив эти вектора, получим ≈5, что аналогично argmax функции.Такое свойство softmax используется в self-attention блоках в трансформерах для реализации своего рода “soft dictionary”. Но об этом в другой раз.
Подробнее
@karray
Всем привет! Меня зовут Арай - как array, только с одной “r” 🙂
Долгое время я был фулстак разработчиком, но потом мне стало скучно, и я закончил магистратуру. И вот уже год я работаю научным сотрудником в Берлинском Техническом Университете, где собираюсь делать PhD в области Explainable AI. Наша группа работает с медицинскими данными и понятный ИИ важен при составлении диагноза.
Недавно я начал помогать Артемию вести канал. Мои посты можно узнать по подписи @karray
Заходите в чат канала, будем развиваться вместе 👾
@karray
Долгое время я был фулстак разработчиком, но потом мне стало скучно, и я закончил магистратуру. И вот уже год я работаю научным сотрудником в Берлинском Техническом Университете, где собираюсь делать PhD в области Explainable AI. Наша группа работает с медицинскими данными и понятный ИИ важен при составлении диагноза.
Недавно я начал помогать Артемию вести канал. Мои посты можно узнать по подписи @karray
Заходите в чат канала, будем развиваться вместе 👾
@karray
Peekaboo: сегментация как эмерджентное свойство фундаментальной Stable Diffusion
Давайте честно, играя с text-to-image, вы ведь спрашивали модель: "Ок, лягушку в пальто ты сгенерировала. И что, ты знаешь, где тут на картинке ПАЛЬТО?"
Похожим вопросом задались ресечеры из Stony Brook University и сделали не очень удивительное, но крайне полезное открытие: сегментацию можно делать по текстовому описанию с помощью моделей латентной диффузии.
Созданная ими Peekaboo замечательна тем, что:
- использует оригинальную SD (никакого переобучения);
- unsupervised (без разметки людьми);
- open-vocabulary (запросы в свободной форме);
- zero-shot (здесь это значит без обучения на под-задачах);
- решает задачу и семантической, и описательной (referring) сегментации.
Изящество в Dream Loss, оптимизирующей альфа-маску с ограничением по текстовому описанию, и вспомогательных функциях потерь, минимизирующих фон и пересечения.
Что касается возможностей, мы открыли ящик Пандоры.
📖Статья
🧑💻Код обещают позже
@GingerSpacetail
Давайте честно, играя с text-to-image, вы ведь спрашивали модель: "Ок, лягушку в пальто ты сгенерировала. И что, ты знаешь, где тут на картинке ПАЛЬТО?"
Похожим вопросом задались ресечеры из Stony Brook University и сделали не очень удивительное, но крайне полезное открытие: сегментацию можно делать по текстовому описанию с помощью моделей латентной диффузии.
Созданная ими Peekaboo замечательна тем, что:
- использует оригинальную SD (никакого переобучения);
- unsupervised (без разметки людьми);
- open-vocabulary (запросы в свободной форме);
- zero-shot (здесь это значит без обучения на под-задачах);
- решает задачу и семантической, и описательной (referring) сегментации.
Изящество в Dream Loss, оптимизирующей альфа-маску с ограничением по текстовому описанию, и вспомогательных функциях потерь, минимизирующих фон и пересечения.
Что касается возможностей, мы открыли ящик Пандоры.
📖Статья
🧑💻Код обещают позже
@GingerSpacetail