Иллюстрация архитектуры Stable Diffusion
Автор иллюстрированного трансформера написал новую 🍬.
Диффузионные модели были вдохновлены диффузией из физики. Но если в физике этот процесс необратим, основная идея диффузионных моделей заключается в том, что при помощи нейронный сетей мы можем восстановить оригинальное изображение из абсолютного шума за конечное число шагов.
Для этого обучение делиться на два этапа: в первом (Forward diffusion process) мы контролируемо добавляем шум к изображению; во втором (Reverse diffusion process) модель учится предсказывать добавленный шум. Так как мы точно знаем шум, который сами же и добавили, мы можем сконструировать функцию потерь, которая вычисляет L2 норму между добавленным и предсказанным шумом.
Архитектура Stable Diffusion не является монолитной и помимо диффузионной части (UNet + Scheduler) так же включает в себя текстовый энкодер (CLIP) и декодер для генерации изображений.
Эта иллюстрированная статья описывает компоненты и процесс диффузии.
📖 Статья
@karray
Автор иллюстрированного трансформера написал новую 🍬.
Диффузионные модели были вдохновлены диффузией из физики. Но если в физике этот процесс необратим, основная идея диффузионных моделей заключается в том, что при помощи нейронный сетей мы можем восстановить оригинальное изображение из абсолютного шума за конечное число шагов.
Для этого обучение делиться на два этапа: в первом (Forward diffusion process) мы контролируемо добавляем шум к изображению; во втором (Reverse diffusion process) модель учится предсказывать добавленный шум. Так как мы точно знаем шум, который сами же и добавили, мы можем сконструировать функцию потерь, которая вычисляет L2 норму между добавленным и предсказанным шумом.
Архитектура Stable Diffusion не является монолитной и помимо диффузионной части (UNet + Scheduler) так же включает в себя текстовый энкодер (CLIP) и декодер для генерации изображений.
Эта иллюстрированная статья описывает компоненты и процесс диффузии.
📖 Статья
@karray
🔥27👍2
🔥16👍5❤2
This media is not supported in your browser
VIEW IN TELEGRAM
TAP-Vid - эталон в области анализа движения на видео
DeepMind формализовали задачу долгосрочного отслеживания любой точки на видео (TAP, track any point), включая деформацию, ускорения, повороты, перекрытие другими объектами.
Но главное - проделали ювелирную работу по созданию и разметке датасета для решения таких задач.
По дороге подняли планку для уже существующих моделей, собрав TAP-Net.
Зачем это: делать выводы о форме объектов, их физических свойствах и возможных взаимодействиях.
Датасет состоит из реальных видео с точными человеческими аннотациями и синтетических видео с истинными значениями.
Чтобы зафиксировать бейслайн, проверили RAFT, но он не справляется с перекрытием объектов и накапливает ошибки при интерполяции по многим кадрам;
CORT теряет информацию о деформации;
Kubric-VFS-Like слабо полезен при переходе от синтетических данных к реальным видео.
TAP-Net пока лучшая, но с таким датасетом - ненадолго.
Следующий шаг - освоить с жидкости и прозрачности.
📖Статья
🗂Датасет
@GingerSpacetail
DeepMind формализовали задачу долгосрочного отслеживания любой точки на видео (TAP, track any point), включая деформацию, ускорения, повороты, перекрытие другими объектами.
Но главное - проделали ювелирную работу по созданию и разметке датасета для решения таких задач.
По дороге подняли планку для уже существующих моделей, собрав TAP-Net.
Зачем это: делать выводы о форме объектов, их физических свойствах и возможных взаимодействиях.
Датасет состоит из реальных видео с точными человеческими аннотациями и синтетических видео с истинными значениями.
Чтобы зафиксировать бейслайн, проверили RAFT, но он не справляется с перекрытием объектов и накапливает ошибки при интерполяции по многим кадрам;
CORT теряет информацию о деформации;
Kubric-VFS-Like слабо полезен при переходе от синтетических данных к реальным видео.
TAP-Net пока лучшая, но с таким датасетом - ненадолго.
Следующий шаг - освоить с жидкости и прозрачности.
📖Статья
🗂Датасет
@GingerSpacetail
👍17🔥6❤2
Media is too big
VIEW IN TELEGRAM
Multi-layered Mapping of Brain Tissue via Segmentation Guided Contrastive Learning
В прошлом году в Google оцифровали 1 мм³ ткани коры головного мозга получив 3d карту высокого разрешения объемом 1,4 Пбайт. Для подробного изучения такой карты сначала нужно идентифицировать типы клеток и их синаптические связи, но разметить такое количество данных вручную невозможно (привет).
Для решение проблемы авторы предложили новую сеть SegCLR (модификация SimCLR). Она способна различать элементы меньше 10 µm с высокой точностью, тогда как эксперты уже не справляются.
Благодаря self-supervised (#SSL) подходу авторам удалось извлечь 8 млрд эмбеддингов без ручной аннотации. Далее, они были сгруппированы в кластеры и используя лишь небольшое количество размеченных данных, кластерам был присвоен лейбл. Кроме того, сеть понижает размерность данных до 64-мерных векторов, что облегчает обучение моделей для downstream задач.
Таким образом был получен размеченный датасет, который был вложен в открытый доступ.
🔬Блог
📖Статья
@karray
В прошлом году в Google оцифровали 1 мм³ ткани коры головного мозга получив 3d карту высокого разрешения объемом 1,4 Пбайт. Для подробного изучения такой карты сначала нужно идентифицировать типы клеток и их синаптические связи, но разметить такое количество данных вручную невозможно (привет).
Для решение проблемы авторы предложили новую сеть SegCLR (модификация SimCLR). Она способна различать элементы меньше 10 µm с высокой точностью, тогда как эксперты уже не справляются.
Благодаря self-supervised (#SSL) подходу авторам удалось извлечь 8 млрд эмбеддингов без ручной аннотации. Далее, они были сгруппированы в кластеры и используя лишь небольшое количество размеченных данных, кластерам был присвоен лейбл. Кроме того, сеть понижает размерность данных до 64-мерных векторов, что облегчает обучение моделей для downstream задач.
Таким образом был получен размеченный датасет, который был вложен в открытый доступ.
🔬Блог
📖Статья
@karray
👍30🔥11
Forwarded from Earth&Climate Tech
Работа в climate-tech
#📢Вакансия
Компании из портфолио Breakthrough Ventures набирают обороты. По ссылке список вакансий в 77 climate-energy-tech компаниях: водород, геотермалка, цемент, разведка металлов, захоронение СО2, квантовые компьютеры и многое другое.
#📢Вакансия
Компании из портфолио Breakthrough Ventures набирают обороты. По ссылке список вакансий в 77 climate-energy-tech компаниях: водород, геотермалка, цемент, разведка металлов, захоронение СО2, квантовые компьютеры и многое другое.
bevjobs.breakthroughenergy.org
Breakthrough Energy Ventures Job Board
Search job openings across the Breakthrough Energy Ventures network.
👍2
Восхитительная эмерджентность модели EMSFold
Вы же знаете, что GPT-3 обучена просто предсказывать следующее слово в предложении, а в итоге пишет стихи, помогает читать научные статьи, писать и понимать код?
Это явление называется эмерджентность (emergence) - когда после обучения на простой задаче, модель умеет делать гораздо больше.
Эмерджентость - одно из ключевых свойств фундаментальных моделей, таких как DALL-E, BERT, GPT-3 и теперь - представленной в ноябре EMSFold.
Изначально Meta AI обучали языковую модель заполнять пробелы в последовательности белков, а оказалось, чтобы хорошо выполнить задачу, она должна узнать, какая у белка функция, и как ориентированы аминокислоты в пространстве.
Почему это восхитительно: эволюционная изменчивость белков не произвольная - их биологические свойства играют роль ограничителей на мутации в последовательности. Но головоломка в том, что свойства белка зависят от его 3D формы.
И EMSFold - новая SOTA модель, решающая эту головоломку.
📖Статья
🖇Код
@GingerSpacetail
Вы же знаете, что GPT-3 обучена просто предсказывать следующее слово в предложении, а в итоге пишет стихи, помогает читать научные статьи, писать и понимать код?
Это явление называется эмерджентность (emergence) - когда после обучения на простой задаче, модель умеет делать гораздо больше.
Эмерджентость - одно из ключевых свойств фундаментальных моделей, таких как DALL-E, BERT, GPT-3 и теперь - представленной в ноябре EMSFold.
Изначально Meta AI обучали языковую модель заполнять пробелы в последовательности белков, а оказалось, чтобы хорошо выполнить задачу, она должна узнать, какая у белка функция, и как ориентированы аминокислоты в пространстве.
Почему это восхитительно: эволюционная изменчивость белков не произвольная - их биологические свойства играют роль ограничителей на мутации в последовательности. Но головоломка в том, что свойства белка зависят от его 3D формы.
И EMSFold - новая SOTA модель, решающая эту головоломку.
📖Статья
🖇Код
@GingerSpacetail
🔥32👍3😐1
Пять ошибок, которые допускают менеджеры при внедрении искусственного интеллекта, и как их исправить
Искусственный интеллект способен изменить процесс принятия корпоративных решений - увеличить доходы, снизить затраты и повысить качество. Если только сотрудники смогут его правильно применять.
Ошибка 1: концентрация на том, где алгоритмы будут иметь наибольшее влияние
Ошибка 2: Когда менеджеры внедряют алгоритмические технологии, они в основном устраняют технические трения и страхи перед инновациями.
Ошибка 3: акцент только на том, как алгоритмы могут помочь максимизировать доход и рентабельность
Ошибка 4: Использование алгоритмических технологий для предоставления работникам обратной связи в реальном времени об их работе
Ошибка 5: чрезмерное объяснение того, как работает алгоритм
Расписать каждую ошибку не хватит лимитов, так что подробности читайте в статье
🍬 Статья (возможен paywall)
Искусственный интеллект способен изменить процесс принятия корпоративных решений - увеличить доходы, снизить затраты и повысить качество. Если только сотрудники смогут его правильно применять.
Ошибка 1: концентрация на том, где алгоритмы будут иметь наибольшее влияние
Ошибка 2: Когда менеджеры внедряют алгоритмические технологии, они в основном устраняют технические трения и страхи перед инновациями.
Ошибка 3: акцент только на том, как алгоритмы могут помочь максимизировать доход и рентабельность
Ошибка 4: Использование алгоритмических технологий для предоставления работникам обратной связи в реальном времени об их работе
Ошибка 5: чрезмерное объяснение того, как работает алгоритм
Расписать каждую ошибку не хватит лимитов, так что подробности читайте в статье
🍬 Статья (возможен paywall)
👍8🔥1
Какие области наук вам ближе всего?
Anonymous Poll
29%
Физика
10%
Науки о Земле
68%
Компьютерные науки
24%
Инженерия
47%
Математика
11%
Медицина
16%
Биология
7%
Химия
15%
Гуманитарные науки
2%
Другое (пишу в комментах)
👍13
Forwarded from AbstractDL
MinD-Vis: диффузия для чтения мыслей
Представлена диффузионная модель, которая умеет декодировать то, что видит человек по его мозговой активности (fMRI).
Сначала авторы обучили self-supervised модель для получения универсальных эмбеддингов мозговой активности (одинаковых для разных людей). Далее они взяли предобученную Latent Diffusion и добавили к ней cross-attention на эти мысленные репрезентации. После короткого файнтюна на 1.5к парах картинка-fMRI модель смогла полноценно декодировать то, что видит перед собой человек!
Данные для обучения и код выложены в открытый доступ, веса моделей дают по запросу.
Статья, GitHub, блог
Представлена диффузионная модель, которая умеет декодировать то, что видит человек по его мозговой активности (fMRI).
Сначала авторы обучили self-supervised модель для получения универсальных эмбеддингов мозговой активности (одинаковых для разных людей). Далее они взяли предобученную Latent Diffusion и добавили к ней cross-attention на эти мысленные репрезентации. После короткого файнтюна на 1.5к парах картинка-fMRI модель смогла полноценно декодировать то, что видит перед собой человек!
Данные для обучения и код выложены в открытый доступ, веса моделей дают по запросу.
Статья, GitHub, блог
🔥18😱12👍3
Focal Modulation Networks
Когда мы рассматриваем что-то, наши глаза совершают быстрые движения, называемые саккадами, фокусируясь на интересных деталях и мысленно строя сцену, учитывая глобальный контекст. Self-attention (SA) в ViT работает похожим образом, но проблема в том, что нужно вычислять attention между всеми частями изображения.
В Microsoft представили FocalNet, которая является развитием предыдущей идеи - авторы предложили вокруг каждого query-вектора создать зону из трех уровней: ближний - самый детальный и состоит из отдельных векторов, тогда как дальний - объединяет вектора в группу. В FocalNet развили эту идею, упростив вычисления при достижении SOTA результатов.
Восхитительно и то, что замена SA фокальной модуляцией позволяет не только упростить вычисления, но также локализовывать объекты без обращения к картам активации и вычисления градиент через backpropagation (как в Grad-CAM). Кроме того, полученные тепловые карты более консистентны в сравнении с SA (демо).
📖Статья
👨💻Код
@karray
Когда мы рассматриваем что-то, наши глаза совершают быстрые движения, называемые саккадами, фокусируясь на интересных деталях и мысленно строя сцену, учитывая глобальный контекст. Self-attention (SA) в ViT работает похожим образом, но проблема в том, что нужно вычислять attention между всеми частями изображения.
В Microsoft представили FocalNet, которая является развитием предыдущей идеи - авторы предложили вокруг каждого query-вектора создать зону из трех уровней: ближний - самый детальный и состоит из отдельных векторов, тогда как дальний - объединяет вектора в группу. В FocalNet развили эту идею, упростив вычисления при достижении SOTA результатов.
Восхитительно и то, что замена SA фокальной модуляцией позволяет не только упростить вычисления, но также локализовывать объекты без обращения к картам активации и вычисления градиент через backpropagation (как в Grad-CAM). Кроме того, полученные тепловые карты более консистентны в сравнении с SA (демо).
📖Статья
👨💻Код
@karray
👍21
This media is not supported in your browser
VIEW IN TELEGRAM
🪐 "Galactica". Большая языковая модель для науки.
Galactica может обобщать научную литературу, решать математические задачи, генерировать статьи Wiki, писать научный код, аннотировать молекулы и белки и многое другое.
Модель была выпущена компанией Meta (в принципе, с такой моделью действительно можно уволить часть сотрудников).
Попробовал ее на своей довольно специфичной области - работает на ура!
🪐 Онлайн демо
🫣 Модель
🦭 Статья
Galactica может обобщать научную литературу, решать математические задачи, генерировать статьи Wiki, писать научный код, аннотировать молекулы и белки и многое другое.
Модель была выпущена компанией Meta (в принципе, с такой моделью действительно можно уволить часть сотрудников).
Попробовал ее на своей довольно специфичной области - работает на ура!
🪐 Онлайн демо
🫣 Модель
🦭 Статья
🔥36👍10
Аугментация сейсмических данных
У меня есть своя библиотека для аугментации сейсмических данных (с точки зрения модальности - аудио/звук). Буду рад, если вы туда что-нибудь законтрибьютите!
На языке вертится frequency и time masking, но буду супер рад любым идеям!
P.S.: можно просто документацию пописать и примеры поделать
📻 Библиотека для аугментации сейсмических данных
P.S.: Sinkovics, прикинь, там уже 17 звёзд 🌟
У меня есть своя библиотека для аугментации сейсмических данных (с точки зрения модальности - аудио/звук). Буду рад, если вы туда что-нибудь законтрибьютите!
На языке вертится frequency и time masking, но буду супер рад любым идеям!
P.S.: можно просто документацию пописать и примеры поделать
📻 Библиотека для аугментации сейсмических данных
P.S.: Sinkovics, прикинь, там уже 17 звёзд 🌟
GitHub
GitHub - crimeacs/seismic-augmentation: Pytorch library for seismic data augmentation
Pytorch library for seismic data augmentation. Contribute to crimeacs/seismic-augmentation development by creating an account on GitHub.
👍27😱1
AI для подкастов
Я тут изучил тему, оказывается, появился уже целый ряд ИИ продуктов для редактирования и производства подкастов:
Podcastle, Descript - транскрибация, редактирование звука по тексту, клонирование голоса и последующий нейродубляж
Podcast.co - хостинг и продвижение подкастов
Zencastr - обещают все в одном :)
И как оказалось там еще целое поле не паханое.
Пишите в коментах какие бы вы хотели фичи с ИИ?
Я тут изучил тему, оказывается, появился уже целый ряд ИИ продуктов для редактирования и производства подкастов:
Podcastle, Descript - транскрибация, редактирование звука по тексту, клонирование голоса и последующий нейродубляж
Podcast.co - хостинг и продвижение подкастов
Zencastr - обещают все в одном :)
И как оказалось там еще целое поле не паханое.
Пишите в коментах какие бы вы хотели фичи с ИИ?
🔥22👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Wordcraft - NLG ассистент писателя, сфокусированный на полезности для пользователя
Google Research попросили 13 профессиональных писателей, поэтов и комиков в течение 8 недель использовать созданный на основе языковой модели LaMDA инструмент Wordcraft как партнера для мозговых штурмов, соавтора, помощника-исследователя и бета-читателя.
Пока Wordcraft с этим справляется на уровне, подходящем любителям и новичкам, но не тем, у кого есть свой стиль и почерк.
Топ 5 проблем:
1. Неоригинальность (в этом смысле модели поменьше типа GPT-2 лучше вдохновляют своими безбашенными курьезами)
2. Плагиат или нарушение авторских прав
3. Короткая "память", не умещающая сюжетную линию (в LaMDA последовательности из 1024 токенов, но даже 4к GPT-3 будет недостаточно)
4. Wordcraft отказывался создавать отрицательных персонажей (файнтьюнинг на грубости)
И вишенка на торте:
5. Wordcraft пока преувеличивает свои возможности, обещая, например, перезвонить через несколько дней🌚
📖Статья
📚Произведения
@GingerSpacetail
Google Research попросили 13 профессиональных писателей, поэтов и комиков в течение 8 недель использовать созданный на основе языковой модели LaMDA инструмент Wordcraft как партнера для мозговых штурмов, соавтора, помощника-исследователя и бета-читателя.
Пока Wordcraft с этим справляется на уровне, подходящем любителям и новичкам, но не тем, у кого есть свой стиль и почерк.
Топ 5 проблем:
1. Неоригинальность (в этом смысле модели поменьше типа GPT-2 лучше вдохновляют своими безбашенными курьезами)
2. Плагиат или нарушение авторских прав
3. Короткая "память", не умещающая сюжетную линию (в LaMDA последовательности из 1024 токенов, но даже 4к GPT-3 будет недостаточно)
4. Wordcraft отказывался создавать отрицательных персонажей (файнтьюнинг на грубости)
И вишенка на торте:
5. Wordcraft пока преувеличивает свои возможности, обещая, например, перезвонить через несколько дней🌚
📖Статья
📚Произведения
@GingerSpacetail
😁14👍7