эйай ньюз
82.1K subscribers
1.78K photos
944 videos
7 files
2.11K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

Ex-Staff Research Scientist в Meta Generative AI. Сейчас CEO&Founder AI стартапа в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
CVPR День первый: воркшопы и туториалы

Держу вас в курсе. Начался первый день конфы.

Я уже посетил Efficient Neutral Network воркшоп от Снепа. Послушал про эффективные архитектуры трансформеров для мобилок и про SnapFusion — ускоренную Stable Diffusion для мобил. Ребята достигли скорости 1.9 сек 🔥 за картинку на iPhone 14.

Сейчас зашёл на туториал по диффузионным моделям. Это по сути развитие туториала с CVPR 2022, о котором я много раз писал. Очень классная штука, советую. Надеюсь, они выложат записи на ютуб.

#конфа
@ai_newz
🔥150👍2515❤‍🔥3🐳3😁1
А вот несколько слайдов с доклада "Efficient Text-to-Image Generation", где Снэп рассказывал про свою работу по ускорению Stable Diffusion.

Плюс демка, где они запускали генерации на телефоне.

Модель уменьшили, ускорили, дистиллировали и сконвертировали в Apple CoreML. Во время инференса использовали 8 шагов с DDIM семплером. Скорость генерации 1.9—2.0 сек / картинка на iPhone 14.

Представьте только. На GPU 50 шагов DDIM оригинальной Stable Diffusion в разрешении 512×512 работает примерно 1.7 сек. А тут сделали на мобиле почти за такое же время и без потери в качестве!

Сайт проекта SnapFusion

#конфа
@ai_newz
🔥141🤯26👍173👎1
This media is not supported in your browser
VIEW IN TELEGRAM
CVPR День второй: воркшопы и туториалы

Словили Эндрю Ына в коридоре. Он несколько часов со всеми фоткался и отвечал на вопросы. Кажется, благодаря своим курсам по ML/DL, он стал даже более известным чем Хинтон, ЛеКун или Бенжио.

Сегодня моя команда огранизовывала воркшоп Efficient Deep Learning for Computer Vision. Вот пара понравившихся статей оттуда:
FastComposer. Метод для генерации людей по заданному текстовому промпту и референсным фоткам. Не требует дорогого файнтюнинга, как например Dreambooth и может генерить сразу несколько персон на одном фото.
DIME-FM: Distilling Multimodal and Efficient Foundation Models. Дистилляция фундаментальных Visual-Language моделей, которая требует меньше данных и в 10 раз меньше ресурсов чем оригинальные модели (например, дистиллировали CLIP).

Ещё заглянул на воркшоп про Egocentric Vision. Послушал доклад от Kristen Grauman: в недавней работе про Ego-exo video alignment они учили энкодер мэтчить кадры между видео от первого лица и видео с внешних камер.

#personal #конфа
@ai_newz
🔥87👍1916❤‍🔥3
Сегодня был ещё на офигенном воркшопе Visual Pre-Training for Robotics.

Великий исследователь в области визуального восприятия Джеймс Гибсон сказал знаменитую фразу: «Мы видим, чтобы двигаться, и мы двигаемся, чтобы видеть». Но можем ли мы научиться видеть, прежде чем научимся двигаться? И как далеко мы сможем продвинуться, если сначала научимся видеть? — Так описывается этот воркшоп.

Было много классных докладов про применения компьютерного зрения и претренировки моделей на визуальных задачах перед тем как использовать их на задачах робототехники, например для планирования и управления роботами.

Особенно понравился доклад Сергея Левина про то, как они делают претрейн модели с offline RL на видеоданных, собранных с разных роботов (от машинок до квадрокоптера), а затем файнтюнят с помощью online policy learning. В итоге модель обобщается на нового робота и новое окружение всего за 20 мин. Это впечатляюще быстро!

Подробности в статье FastRLAP.

Постараюсь достать запись докладов для вас.

#конфа
@ai_newz
🔥71👍1612🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
Сегодня в 10:30-12:30 по канадскому я буду презентовать наш постер Avatars Grow Legs

Узнаете как восстанавливать последовательность 3D поз человека в движении, зная только позицию головы и запястий (например во время игры в VR).

Постер #46, приходите поболтать если вы на CVPR. #конфа

❱❱ Подробный пост про статью.

@ai_newz
🔥83👍24❤‍🔥21
Media is too big
VIEW IN TELEGRAM
CVPR день третий: основная конференция, постеры и экспо

Сейчас готовлюсь к презентации постера, прошелся для вас по экспо со стендами компаний пока не набежала толпа.

Тут будут ходить тучи народа через 30 минут.

#конфа #personal
@ai_newz
44👍39❤‍🔥8🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
🔥8529❤‍🔥5🤯4👍3👎2
This media is not supported in your browser
VIEW IN TELEGRAM
Qualcomm запилили квантизацию для Stable Diffusion и запихнули ее на телефон с процессором Snapdragon. Я поговорил с их ресерчерами.

Работает прилично, но не молниеносно – 13 сек на картинку (20 шагов DPM++).

Int8 квантизация для весов и int16 для активаций.

Все это зарелизили как часть своего AI Engine SDK. Говорят, что их код можно использовать и для квантизации под GPU.

У снэпа получилось быстрее, но у них и трюков больше, и телефон мощнее плюс юзают Apple CoreML.

#конфа
@ai_newz
🔥100👍18👏84🥰3👎2
Media is too big
VIEW IN TELEGRAM
CVPR день четвертый: доклады, постеры и демо 🤖

Я сегодня дежурю на стенде Meta AI, болтаю с посетителями, рассказываю про наши работы.

Тем временем коллеги из команды робототехники показывают демо с робопёсиком Спотом, которого научили навигироваться в неизвестном пространстве (то есть у него нет карты помещения) и выполнять различные команды. Например собрать мягкие игрушки в комнате и закинуть их в корзину, как показано на видео. Он сам планирует, находит предметы и переносит их. И самое крутое — это то, что он был обучен только на синтетических данных.

К пёсику прикрутили языковую модель, что позволяет командовать им на английском языке (про похожую интеграцию GPT в Спота от компании Levatas я писал раньше тут).

Некоторые подробности про то, как этого пёсика дрессировали есть в блогпосте.

Как же классно, если есть возможность посмотреть как натренированные тобой нейронки работают в физическом мире. Жаль, я не занимаюсь робототехникой.

#конфа #карьера
@ai_newz
🔥78👍258😍4🥰1
Утекли подробности про GPT-4.

Говорят, что это смесь из 8 экспертов, каждый по 220 млрд параметров. То есть в сумме 1.760 триллиона параметров! Соумит Чинтала (один из создателей PyTorch) тоже подтвердил слух.

Эксперты в этом случае — это просто копии модели GPT, на 220B параметров, которые тренировались отдельно и скорее всего на различных данных.

Во время инференса у них там какие-то хитрые трюки для того, чтобы выбрать ответы каких экспертов выдавать юзеру.

@ai_newz
🔥137👍38😱197🤔3
Новая LDM модель от Stability AI

Встретился со своими бывшими коллегами по PhD — Робином (справа) и Адреасом (слева).

Парни являются основными авторами Stable Diffusion и сейчас работают в Stability AI.

Сегодня они зарелизили новую Latent Diffusion модель примерно на 3 млрд параметров.

Я так понимаю, это следующее поколение SDXL. И будет опубликован код!

#personal
@ai_newz
🔥211👍2314❤‍🔥6
🔥Stable Diffusion SDXL 0.9

А вот и официальное подтверждение релиза новой модели, но пока без ссылки на код.

Модель SDXL 0.9 имеет 3.5 B параметров в базовой версии. И будет ещё ансамбль из двух моделей, суммарно на 6.6 B параметров.

Для текстового гайданса вместо одной CLIP модели используется конкатенация из двух: базовый клип от OpenAI)и OpenCLIP ViT-G/14. Это позволяет генерировать более точные детали на картинках.

На парных картинках — сравнение результатов SDXL beta и новой версии SDXL 0.9. Качество сильно возросло

Во время инференса нужна будет видеокарта от AMD с 16 GB VRAM, либо от NVIDIA с 8GB VRAM.

Ждём блог пост со всеми деталями и сам код (который по идее должен появиться сегодня).

https://stability.ai/blog/sdxl-09-stable-diffusion

@ai_newz
97🔥45👍19