AI для Всех
14.9K subscribers
1.31K photos
179 videos
11 files
1.5K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Иллюстрация архитектуры Stable Diffusion

Автор иллюстрированного трансформера написал новую 🍬.

Диффузионные модели были вдохновлены диффузией из физики. Но если в физике этот процесс необратим, основная идея диффузионных моделей заключается в том, что при помощи нейронный сетей мы можем восстановить оригинальное изображение из абсолютного шума за конечное число шагов.

Для этого обучение делиться на два этапа: в первом (Forward diffusion process) мы контролируемо добавляем шум к изображению; во втором (Reverse diffusion process) модель учится предсказывать добавленный шум. Так как мы точно знаем шум, который сами же и добавили, мы можем сконструировать функцию потерь, которая вычисляет L2 норму между добавленным и предсказанным шумом.

Архитектура Stable Diffusion не является монолитной и помимо диффузионной части (UNet + Scheduler) так же включает в себя текстовый энкодер (CLIP) и декодер для генерации изображений.

Эта иллюстрированная статья описывает компоненты и процесс диффузии.

📖 Статья
@karray
🔥27👍2
Stable Diffusion для архитекторов 🌆

Архитекторы и урбанисты часто рисуют концептуальные города и районы. Теперь им на помощь приходит нейросеть, которая создает бесконечные вариации изометрических городов.

🌃 Модель

@crimeacs
🔥16👍52
AMA Stanford x Silicon Valley

Ask me anything про Стенфорд, Долину, исследования и всякое разное
This media is not supported in your browser
VIEW IN TELEGRAM
TAP-Vid - эталон в области анализа движения на видео

DeepMind формализовали задачу долгосрочного отслеживания любой точки на видео (TAP, track any point), включая деформацию, ускорения, повороты, перекрытие другими объектами.

Но главное - проделали ювелирную работу по созданию и разметке датасета для решения таких задач.
По дороге подняли планку для уже существующих моделей, собрав TAP-Net.

Зачем это: делать выводы о форме объектов, их физических свойствах и возможных взаимодействиях.

Датасет состоит из реальных видео с точными человеческими аннотациями и синтетических видео с истинными значениями.

Чтобы зафиксировать бейслайн, проверили RAFT, но он не справляется с перекрытием объектов и накапливает ошибки при интерполяции по многим кадрам;
CORT теряет информацию о деформации;
Kubric-VFS-Like слабо полезен при переходе от синтетических данных к реальным видео.
TAP-Net пока лучшая, но с таким датасетом - ненадолго.

Следующий шаг - освоить с жидкости и прозрачности.

📖Статья
🗂Датасет
@GingerSpacetail
👍17🔥62
Хочу сделать хороший сайт визитку для себя, подскажите кто на каких сервисах делал? Что почем?
👍8😢1
Media is too big
VIEW IN TELEGRAM
Multi-layered Mapping of Brain Tissue via Segmentation Guided Contrastive Learning

В
прошлом году в Google оцифровали 1 мм³ ткани коры головного мозга получив 3d карту высокого разрешения объемом 1,4 Пбайт. Для подробного изучения такой карты сначала нужно идентифицировать типы клеток и их синаптические связи, но разметить такое количество данных вручную невозможно (привет).

Для решение проблемы авторы предложили новую сеть SegCLR (модификация SimCLR). Она способна различать элементы меньше 10 µm с высокой точностью, тогда как эксперты уже не справляются.

Благодаря self-supervised (#SSL) подходу авторам удалось извлечь 8 млрд эмбеддингов без ручной аннотации. Далее, они были сгруппированы в кластеры и используя лишь небольшое количество размеченных данных, кластерам был присвоен лейбл. Кроме того, сеть понижает размерность данных до 64-мерных векторов, что облегчает обучение моделей для downstream задач.

Таким образом был получен размеченный датасет, который был вложен в открытый доступ.

🔬Блог
📖Статья
@karray
👍30🔥11
Forwarded from Earth&Climate Tech
Работа в climate-tech

#📢Вакансия

Компании из портфолио Breakthrough Ventures набирают обороты. По ссылке список вакансий в 77 climate-energy-tech компаниях: водород, геотермалка, цемент, разведка металлов, захоронение СО2, квантовые компьютеры и многое другое.
👍2
Восхитительная эмерджентность модели EMSFold

Вы же знаете, что GPT-3 обучена просто предсказывать следующее слово в предложении, а в итоге пишет стихи, помогает читать научные статьи, писать и понимать код?

Это явление называется эмерджентность (emergence) - когда после обучения на простой задаче, модель умеет делать гораздо больше.

Эмерджентость - одно из ключевых свойств фундаментальных моделей, таких как DALL-E, BERT, GPT-3 и теперь - представленной в ноябре EMSFold.

Изначально Meta AI обучали языковую модель заполнять пробелы в последовательности белков, а оказалось, чтобы хорошо выполнить задачу, она должна узнать, какая у белка функция, и как ориентированы аминокислоты в пространстве.

Почему это восхитительно: эволюционная изменчивость белков не произвольная - их биологические свойства играют роль ограничителей на мутации в последовательности. Но головоломка в том, что свойства белка зависят от его 3D формы.

И EMSFold - новая SOTA модель, решающая эту головоломку.

📖Статья
🖇Код
@GingerSpacetail
🔥32👍3😐1
Пять ошибок, которые допускают менеджеры при внедрении искусственного интеллекта, и как их исправить

Искусственный интеллект способен изменить процесс принятия корпоративных решений - увеличить доходы, снизить затраты и повысить качество. Если только сотрудники смогут его правильно применять.

Ошибка 1: концентрация на том, где алгоритмы будут иметь наибольшее влияние

Ошибка 2: Когда менеджеры внедряют алгоритмические технологии, они в основном устраняют технические трения и страхи перед инновациями.

Ошибка 3: акцент только на том, как алгоритмы могут помочь максимизировать доход и рентабельность

Ошибка 4: Использование алгоритмических технологий для предоставления работникам обратной связи в реальном времени об их работе

Ошибка 5: чрезмерное объяснение того, как работает алгоритм

Расписать каждую ошибку не хватит лимитов, так что подробности читайте в статье

🍬 Статья (возможен paywall)
👍8🔥1
Forwarded from AbstractDL
MinD-Vis: диффузия для чтения мыслей

Представлена диффузионная модель, которая умеет декодировать то, что видит человек по его мозговой активности (fMRI).

Сначала авторы обучили self-supervised модель для получения универсальных эмбеддингов мозговой активности (одинаковых для разных людей). Далее они взяли предобученную Latent Diffusion и добавили к ней cross-attention на эти мысленные репрезентации. После короткого файнтюна на 1.5к парах картинка-fMRI модель смогла полноценно декодировать то, что видит перед собой человек!

Данные для обучения и код выложены в открытый доступ, веса моделей дают по запросу.

Статья, GitHub, блог
🔥18😱12👍3
Focal Modulation Networks

Когда мы рассматриваем что-то, наши глаза совершают быстрые движения, называемые саккадами, фокусируясь на интересных деталях и мысленно строя сцену, учитывая глобальный контекст. Self-attention (SA) в ViT работает похожим образом, но проблема в том, что нужно вычислять attention между всеми частями изображения.

В Microsoft представили FocalNet, которая является развитием предыдущей идеи - авторы предложили вокруг каждого query-вектора создать зону из трех уровней: ближний - самый детальный и состоит из отдельных векторов, тогда как дальний - объединяет вектора в группу. В FocalNet развили эту идею, упростив вычисления при достижении SOTA результатов.

Восхитительно и то, что замена SA фокальной модуляцией позволяет не только упростить вычисления, но также локализовывать объекты без обращения к картам активации и вычисления градиент через backpropagation (как в Grad-CAM). Кроме того, полученные тепловые карты более консистентны в сравнении с SA (демо).

📖Статья
👨‍💻Код
@karray
👍21
This media is not supported in your browser
VIEW IN TELEGRAM
🪐 "Galactica". Большая языковая модель для науки.

Galactica может обобщать научную литературу, решать математические задачи, генерировать статьи Wiki, писать научный код, аннотировать молекулы и белки и многое другое.

Модель была выпущена компанией Meta (в принципе, с такой моделью действительно можно уволить часть сотрудников).

Попробовал ее на своей довольно специфичной области - работает на ура!

🪐 Онлайн демо
🫣 Модель
🦭 Статья
🔥36👍10
Аугментация сейсмических данных

У меня есть своя библиотека для аугментации сейсмических данных (с точки зрения модальности - аудио/звук). Буду рад, если вы туда что-нибудь законтрибьютите!

На языке вертится frequency и time masking, но буду супер рад любым идеям!

P.S.: можно просто документацию пописать и примеры поделать

📻 Библиотека для аугментации сейсмических данных

P.S.: Sinkovics, прикинь, там уже 17 звёзд 🌟
👍27😱1
AI для подкастов

Я тут изучил тему, оказывается, появился уже целый ряд ИИ продуктов для редактирования и производства подкастов:

Podcastle, Descript - транскрибация, редактирование звука по тексту, клонирование голоса и последующий нейродубляж

Podcast.co - хостинг и продвижение подкастов

Zencastr - обещают все в одном :)

И как оказалось там еще целое поле не паханое.

Пишите в коментах какие бы вы хотели фичи с ИИ?
🔥22👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Wordcraft - NLG ассистент писателя, сфокусированный на полезности для пользователя

Google Research попросили 13 профессиональных писателей, поэтов и комиков в течение 8 недель использовать созданный на основе языковой модели LaMDA инструмент Wordcraft как партнера для мозговых штурмов, соавтора, помощника-исследователя и бета-читателя.

Пока Wordcraft с этим справляется на уровне, подходящем любителям и новичкам, но не тем, у кого есть свой стиль и почерк.

Топ 5 проблем:
1. Неоригинальность (в этом смысле модели поменьше типа GPT-2 лучше вдохновляют своими безбашенными курьезами)
2. Плагиат или нарушение авторских прав
3. Короткая "память", не умещающая сюжетную линию (в LaMDA последовательности из 1024 токенов, но даже 4к GPT-3 будет недостаточно)
4. Wordcraft отказывался создавать отрицательных персонажей (файнтьюнинг на грубости)

И вишенка на торте:
5. Wordcraft пока преувеличивает свои возможности, обещая, например, перезвонить через несколько дней🌚

📖Статья
📚Произведения
@GingerSpacetail
😁14👍7