This media is not supported in your browser
VIEW IN TELEGRAM
CVPR День первый: воркшопы и туториалы
Держу вас в курсе. Начался первый день конфы.
Я уже посетил Efficient Neutral Network воркшоп от Снепа. Послушал про эффективные архитектуры трансформеров для мобилок и про SnapFusion — ускоренную Stable Diffusion для мобил. Ребята достигли скорости 1.9 сек 🔥 за картинку на iPhone 14.
Сейчас зашёл на туториал по диффузионным моделям. Это по сути развитие туториала с CVPR 2022, о котором я много раз писал. Очень классная штука, советую. Надеюсь, они выложат записи на ютуб.
#конфа
@ai_newz
Держу вас в курсе. Начался первый день конфы.
Я уже посетил Efficient Neutral Network воркшоп от Снепа. Послушал про эффективные архитектуры трансформеров для мобилок и про SnapFusion — ускоренную Stable Diffusion для мобил. Ребята достигли скорости 1.9 сек 🔥 за картинку на iPhone 14.
Сейчас зашёл на туториал по диффузионным моделям. Это по сути развитие туториала с CVPR 2022, о котором я много раз писал. Очень классная штука, советую. Надеюсь, они выложат записи на ютуб.
#конфа
@ai_newz
🔥150👍25❤15❤🔥3🐳3😁1
А вот несколько слайдов с доклада "Efficient Text-to-Image Generation", где Снэп рассказывал про свою работу по ускорению Stable Diffusion.
Плюс демка, где они запускали генерации на телефоне.
Модель уменьшили, ускорили, дистиллировали и сконвертировали в Apple CoreML. Во время инференса использовали 8 шагов с DDIM семплером. Скорость генерации 1.9—2.0 сек / картинка на iPhone 14.
Представьте только. На GPU 50 шагов DDIM оригинальной Stable Diffusion в разрешении 512×512 работает примерно 1.7 сек. А тут сделали на мобиле почти за такое же время и без потери в качестве!
Сайт проекта SnapFusion
#конфа
@ai_newz
Плюс демка, где они запускали генерации на телефоне.
Модель уменьшили, ускорили, дистиллировали и сконвертировали в Apple CoreML. Во время инференса использовали 8 шагов с DDIM семплером. Скорость генерации 1.9—2.0 сек / картинка на iPhone 14.
Представьте только. На GPU 50 шагов DDIM оригинальной Stable Diffusion в разрешении 512×512 работает примерно 1.7 сек. А тут сделали на мобиле почти за такое же время и без потери в качестве!
Сайт проекта SnapFusion
#конфа
@ai_newz
🔥141🤯26👍17❤3👎1
This media is not supported in your browser
VIEW IN TELEGRAM
CVPR День второй: воркшопы и туториалы
Словили Эндрю Ына в коридоре. Он несколько часов со всеми фоткался и отвечал на вопросы. Кажется, благодаря своим курсам по ML/DL, он стал даже более известным чем Хинтон, ЛеКун или Бенжио.
Сегодня моя команда огранизовывала воркшоп Efficient Deep Learning for Computer Vision. Вот пара понравившихся статей оттуда:
— FastComposer. Метод для генерации людей по заданному текстовому промпту и референсным фоткам. Не требует дорогого файнтюнинга, как например Dreambooth и может генерить сразу несколько персон на одном фото.
— DIME-FM: Distilling Multimodal and Efficient Foundation Models. Дистилляция фундаментальных Visual-Language моделей, которая требует меньше данных и в 10 раз меньше ресурсов чем оригинальные модели (например, дистиллировали CLIP).
Ещё заглянул на воркшоп про Egocentric Vision. Послушал доклад от Kristen Grauman: в недавней работе про Ego-exo video alignment они учили энкодер мэтчить кадры между видео от первого лица и видео с внешних камер.
#personal #конфа
@ai_newz
Словили Эндрю Ына в коридоре. Он несколько часов со всеми фоткался и отвечал на вопросы. Кажется, благодаря своим курсам по ML/DL, он стал даже более известным чем Хинтон, ЛеКун или Бенжио.
Сегодня моя команда огранизовывала воркшоп Efficient Deep Learning for Computer Vision. Вот пара понравившихся статей оттуда:
— FastComposer. Метод для генерации людей по заданному текстовому промпту и референсным фоткам. Не требует дорогого файнтюнинга, как например Dreambooth и может генерить сразу несколько персон на одном фото.
— DIME-FM: Distilling Multimodal and Efficient Foundation Models. Дистилляция фундаментальных Visual-Language моделей, которая требует меньше данных и в 10 раз меньше ресурсов чем оригинальные модели (например, дистиллировали CLIP).
Ещё заглянул на воркшоп про Egocentric Vision. Послушал доклад от Kristen Grauman: в недавней работе про Ego-exo video alignment они учили энкодер мэтчить кадры между видео от первого лица и видео с внешних камер.
#personal #конфа
@ai_newz
🔥87👍19❤16❤🔥3
Сегодня был ещё на офигенном воркшопе Visual Pre-Training for Robotics.
Великий исследователь в области визуального восприятия Джеймс Гибсон сказал знаменитую фразу: «Мы видим, чтобы двигаться, и мы двигаемся, чтобы видеть». Но можем ли мы научиться видеть, прежде чем научимся двигаться? И как далеко мы сможем продвинуться, если сначала научимся видеть? — Так описывается этот воркшоп.
Было много классных докладов про применения компьютерного зрения и претренировки моделей на визуальных задачах перед тем как использовать их на задачах робототехники, например для планирования и управления роботами.
Особенно понравился доклад Сергея Левина про то, как они делают претрейн модели с offline RL на видеоданных, собранных с разных роботов (от машинок до квадрокоптера), а затем файнтюнят с помощью online policy learning. В итоге модель обобщается на нового робота и новое окружение всего за 20 мин. Это впечатляюще быстро!
Подробности в статье FastRLAP.
Постараюсь достать запись докладов для вас.
#конфа
@ai_newz
Великий исследователь в области визуального восприятия Джеймс Гибсон сказал знаменитую фразу: «Мы видим, чтобы двигаться, и мы двигаемся, чтобы видеть». Но можем ли мы научиться видеть, прежде чем научимся двигаться? И как далеко мы сможем продвинуться, если сначала научимся видеть? — Так описывается этот воркшоп.
Было много классных докладов про применения компьютерного зрения и претренировки моделей на визуальных задачах перед тем как использовать их на задачах робототехники, например для планирования и управления роботами.
Особенно понравился доклад Сергея Левина про то, как они делают претрейн модели с offline RL на видеоданных, собранных с разных роботов (от машинок до квадрокоптера), а затем файнтюнят с помощью online policy learning. В итоге модель обобщается на нового робота и новое окружение всего за 20 мин. Это впечатляюще быстро!
Подробности в статье FastRLAP.
Постараюсь достать запись докладов для вас.
#конфа
@ai_newz
🔥71👍16❤12🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
Сегодня в 10:30-12:30 по канадскому я буду презентовать наш постер Avatars Grow Legs
Узнаете как восстанавливать последовательность 3D поз человека в движении, зная только позицию головы и запястий (например во время игры в VR).
Постер #46, приходите поболтать если вы на CVPR. #конфа
❱❱ Подробный пост про статью.
@ai_newz
Узнаете как восстанавливать последовательность 3D поз человека в движении, зная только позицию головы и запястий (например во время игры в VR).
Постер #46, приходите поболтать если вы на CVPR. #конфа
❱❱ Подробный пост про статью.
@ai_newz
🔥83👍24❤🔥2❤1
Media is too big
VIEW IN TELEGRAM
CVPR день третий: основная конференция, постеры и экспо
Сейчас готовлюсь к презентации постера, прошелся для вас по экспо со стендами компаний пока не набежала толпа.
Тут будут ходить тучи народа через 30 минут.
#конфа #personal
@ai_newz
Сейчас готовлюсь к презентации постера, прошелся для вас по экспо со стендами компаний пока не набежала толпа.
Тут будут ходить тучи народа через 30 минут.
#конфа #personal
@ai_newz
❤44👍39❤🔥8🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Qualcomm запилили квантизацию для Stable Diffusion и запихнули ее на телефон с процессором Snapdragon. Я поговорил с их ресерчерами.
Работает прилично, но не молниеносно – 13 сек на картинку (20 шагов DPM++).
Int8 квантизация для весов и int16 для активаций.
Все это зарелизили как часть своего AI Engine SDK. Говорят, что их код можно использовать и для квантизации под GPU.
У снэпа получилось быстрее, но у них и трюков больше, и телефон мощнее плюс юзают Apple CoreML.
#конфа
@ai_newz
Работает прилично, но не молниеносно – 13 сек на картинку (20 шагов DPM++).
Int8 квантизация для весов и int16 для активаций.
Все это зарелизили как часть своего AI Engine SDK. Говорят, что их код можно использовать и для квантизации под GPU.
У снэпа получилось быстрее, но у них и трюков больше, и телефон мощнее плюс юзают Apple CoreML.
#конфа
@ai_newz
🔥100👍18👏8❤4🥰3👎2
Media is too big
VIEW IN TELEGRAM
CVPR день четвертый: доклады, постеры и демо 🤖
Я сегодня дежурю на стенде Meta AI, болтаю с посетителями, рассказываю про наши работы.
Тем временем коллеги из команды робототехники показывают демо с робопёсиком Спотом, которого научили навигироваться в неизвестном пространстве (то есть у него нет карты помещения) и выполнять различные команды. Например собрать мягкие игрушки в комнате и закинуть их в корзину, как показано на видео. Он сам планирует, находит предметы и переносит их. И самое крутое — это то, что он был обучен только на синтетических данных.
К пёсику прикрутили языковую модель, что позволяет командовать им на английском языке (про похожую интеграцию GPT в Спота от компании Levatas я писал раньше тут).
Некоторые подробности про то, как этого пёсика дрессировали есть в блогпосте.
Как же классно, если есть возможность посмотреть как натренированные тобой нейронки работают в физическом мире. Жаль, я не занимаюсь робототехникой.
#конфа #карьера
@ai_newz
Я сегодня дежурю на стенде Meta AI, болтаю с посетителями, рассказываю про наши работы.
Тем временем коллеги из команды робототехники показывают демо с робопёсиком Спотом, которого научили навигироваться в неизвестном пространстве (то есть у него нет карты помещения) и выполнять различные команды. Например собрать мягкие игрушки в комнате и закинуть их в корзину, как показано на видео. Он сам планирует, находит предметы и переносит их. И самое крутое — это то, что он был обучен только на синтетических данных.
К пёсику прикрутили языковую модель, что позволяет командовать им на английском языке (про похожую интеграцию GPT в Спота от компании Levatas я писал раньше тут).
Некоторые подробности про то, как этого пёсика дрессировали есть в блогпосте.
Как же классно, если есть возможность посмотреть как натренированные тобой нейронки работают в физическом мире. Жаль, я не занимаюсь робототехникой.
#конфа #карьера
@ai_newz
🔥78👍25❤8😍4🥰1
Утекли подробности про GPT-4.
Говорят, что это смесь из 8 экспертов, каждый по 220 млрд параметров. То есть в сумме 1.760 триллиона параметров! Соумит Чинтала (один из создателей PyTorch) тоже подтвердил слух.
Эксперты в этом случае — это просто копии модели GPT, на 220B параметров, которые тренировались отдельно и скорее всего на различных данных.
Во время инференса у них там какие-то хитрые трюки для того, чтобы выбрать ответы каких экспертов выдавать юзеру.
@ai_newz
Говорят, что это смесь из 8 экспертов, каждый по 220 млрд параметров. То есть в сумме 1.760 триллиона параметров! Соумит Чинтала (один из создателей PyTorch) тоже подтвердил слух.
Эксперты в этом случае — это просто копии модели GPT, на 220B параметров, которые тренировались отдельно и скорее всего на различных данных.
Во время инференса у них там какие-то хитрые трюки для того, чтобы выбрать ответы каких экспертов выдавать юзеру.
@ai_newz
🔥137👍38😱19❤7🤔3
Новая LDM модель от Stability AI
Встретился со своими бывшими коллегами по PhD — Робином (справа) и Адреасом (слева).
Парни являются основными авторами Stable Diffusion и сейчас работают в Stability AI.
Сегодня они зарелизили новую Latent Diffusion модель примерно на 3 млрд параметров.
Я так понимаю, это следующее поколение SDXL. И будет опубликован код!
#personal
@ai_newz
Встретился со своими бывшими коллегами по PhD — Робином (справа) и Адреасом (слева).
Парни являются основными авторами Stable Diffusion и сейчас работают в Stability AI.
Сегодня они зарелизили новую Latent Diffusion модель примерно на 3 млрд параметров.
Я так понимаю, это следующее поколение SDXL. И будет опубликован код!
#personal
@ai_newz
🔥211👍23❤14❤🔥6
🔥Stable Diffusion SDXL 0.9
А вот и официальное подтверждение релиза новой модели, но пока без ссылки на код.
Модель SDXL 0.9 имеет 3.5 B параметров в базовой версии. И будет ещё ансамбль из двух моделей, суммарно на 6.6 B параметров.
Для текстового гайданса вместо одной CLIP модели используется конкатенация из двух: базовый клип от OpenAI)и OpenCLIP ViT-G/14. Это позволяет генерировать более точные детали на картинках.
На парных картинках — сравнение результатов SDXL beta и новой версии SDXL 0.9. Качество сильно возросло
Во время инференса нужна будет видеокарта от AMD с 16 GB VRAM, либо от NVIDIA с 8GB VRAM.
Ждём блог пост со всеми деталями и сам код (который по идее должен появиться сегодня).
https://stability.ai/blog/sdxl-09-stable-diffusion
@ai_newz
А вот и официальное подтверждение релиза новой модели, но пока без ссылки на код.
Модель SDXL 0.9 имеет 3.5 B параметров в базовой версии. И будет ещё ансамбль из двух моделей, суммарно на 6.6 B параметров.
Для текстового гайданса вместо одной CLIP модели используется конкатенация из двух: базовый клип от OpenAI)и OpenCLIP ViT-G/14. Это позволяет генерировать более точные детали на картинках.
На парных картинках — сравнение результатов SDXL beta и новой версии SDXL 0.9. Качество сильно возросло
Во время инференса нужна будет видеокарта от AMD с 16 GB VRAM, либо от NVIDIA с 8GB VRAM.
Ждём блог пост со всеми деталями и сам код (который по идее должен появиться сегодня).
https://stability.ai/blog/sdxl-09-stable-diffusion
@ai_newz
❤97🔥45👍19