This media is not supported in your browser
VIEW IN TELEGRAM
А вот Лиза Су показывает риал-тайм демку инференса модельки Falcon 40B на MI300X.
Более того, они договорились с HuggingFace, что те возьмутся за оптимизацию многих моделей с HF хаба под видеокарты AMD 🔥
@ai_newz
Более того, они договорились с HuggingFace, что те возьмутся за оптимизацию многих моделей с HF хаба под видеокарты AMD 🔥
@ai_newz
🔥194👍22❤9👎3🤔3🤯2❤🔥1👏1🌚1
Кстати, на днях OpenAI обновили модели и публичный API.
Появилась модель
Для сравнения, из всех моделей OpenAI самый большой размер контекста в 32k токенов есть у версии GPT-4, которой пока нет в публичном доступе.
Цена за токен у
Эмбеддинги можно использовать для поиска релевантых параграфов в документах и кормить в ChatGPT как дополнительный контекст. Напимер, если вы хотите поспрашивать чат-гпт по PDF доке, вы первым делом должны посчитать эмбеддинги для текста этой PDF, а затем для каждого запроса искать наиболее релеватный кусок текста и добавлять его в контекст ChatGPT. По сути эмбеддинг - это сжатое представление текста в векторизованном виде, по которому легко искать.
@ai_newz
Появилась модель
gpt-3.5-turbo-16k
с контекстом на 16к токенов.Для сравнения, из всех моделей OpenAI самый большой размер контекста в 32k токенов есть у версии GPT-4, которой пока нет в публичном доступе.
Цена за токен у
gpt-3.5-turbo
упала на 25%. А цена за использование модели text-embedding-ada-002
, вычисляющей эмбеддинги для текста упала на 75%. Забавный факт: раньше можно было посчитать эмбеддинги для всего текста в интернете примерно за $50 мл, сейчас же это обойдется всего в $12.5 млн Эмбеддинги можно использовать для поиска релевантых параграфов в документах и кормить в ChatGPT как дополнительный контекст. Напимер, если вы хотите поспрашивать чат-гпт по PDF доке, вы первым делом должны посчитать эмбеддинги для текста этой PDF, а затем для каждого запроса искать наиболее релеватный кусок текста и добавлять его в контекст ChatGPT. По сути эмбеддинг - это сжатое представление текста в векторизованном виде, по которому легко искать.
@ai_newz
🔥66👍20❤8👎5🤯5😱5
This media is not supported in your browser
VIEW IN TELEGRAM
Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation
Моушн-дизайнерам на заметку!
Все, кто пытался стилизовать видео по текстовому запросу с помощью SD + ControlNet знают, что результат такой генерации начинает прыгать как собака, потому что каждый кадр обрабатывается независимо.
В этой статье эту проблемку частично решают. Решение не научное, а скорее инженерное и не требует перетренировки сеток. Предлагают стилизовать ключевые кадры, причем для достижения консистентности по стилю, пробрасывают cross-attention между ключевыми кадрами. Как я понял, сначала стилизуют один ключевой кадр, а потом используют его как контекст во время стилизации всех других.
Затем авторы пропагируют информацию от ключевых кадров к тем, что между ними. Тут для консистентности формы, текстур и цвета используются трюки в latent пространстве LDM: AdaIN для цвета, ворпинг кадров друг на друга (используя optical flow) для формы.
Подробности в статье.
Результаты на сайте проекта просто🔥
@ai_newz
Моушн-дизайнерам на заметку!
Все, кто пытался стилизовать видео по текстовому запросу с помощью SD + ControlNet знают, что результат такой генерации начинает прыгать как собака, потому что каждый кадр обрабатывается независимо.
В этой статье эту проблемку частично решают. Решение не научное, а скорее инженерное и не требует перетренировки сеток. Предлагают стилизовать ключевые кадры, причем для достижения консистентности по стилю, пробрасывают cross-attention между ключевыми кадрами. Как я понял, сначала стилизуют один ключевой кадр, а потом используют его как контекст во время стилизации всех других.
Затем авторы пропагируют информацию от ключевых кадров к тем, что между ними. Тут для консистентности формы, текстур и цвета используются трюки в latent пространстве LDM: AdaIN для цвета, ворпинг кадров друг на друга (используя optical flow) для формы.
Подробности в статье.
Результаты на сайте проекта просто🔥
@ai_newz
🔥75👍14🤯7❤3👎2
Forwarded from Derp Learning
This media is not supported in your browser
VIEW IN TELEGRAM
Произошел очередной отвал жепы башки на поприще ИИ-ассистентов!
Даем на входе видео с ютуба, скриншот из дискорда, и говорим: я вот дошел до этого шага на видео, покажи на скриншоте, куда мне кликать дальше.
Агенты ищут в видео кусок, описанный юзером, смотрят, что идет дальше, ищут нужный кусок скриншота.
Какой простор для оптимизации техподдержки, 99% работы которой сводится к совместному чтению уже существующих мануалов вместе с юзером.
Hold on to yourjobs papers, what a time to be alive intensifies
Магия, да и только!
paper
tweet
Даем на входе видео с ютуба, скриншот из дискорда, и говорим: я вот дошел до этого шага на видео, покажи на скриншоте, куда мне кликать дальше.
Агенты ищут в видео кусок, описанный юзером, смотрят, что идет дальше, ищут нужный кусок скриншота.
Какой простор для оптимизации техподдержки, 99% работы которой сводится к совместному чтению уже существующих мануалов вместе с юзером.
Hold on to your
Магия, да и только!
paper
tweet
🤯124👍30😁3❤2👎2
Французский LLM стартап, который поднял €105 млн через 4 недели после основания (ч.1)
В апреле я отправился из Цюриха в Париж, чтобы пересечься с коллегами из Meta GenAI, работающими над языковыми моделями. В нашем офисе я встретился c Гийомом Лампле (Guillaume Lample). Мы обсуждали LLaMa, ее дальнейшее развитие, поговорили про оптимизацию больших языковы моделей и трюки, которые можно применять для их ускорения во время инференса. В конце нашей встречи Гийом сказал, что он долго не задержится в Meta и через месяц уходит, чтобы создать свой стратап.
Через месяц после нашей встречи Гийом вместе с двумя друзьями основал в Париже стартап Mistral AI. Они намереваются строить большие и по настоящему открытые языковые модели, и возможно подвинуть OpenAI.
Еще через месяц, Mistral AI подняла seed раунд инвестиций на €105 млн и теперь оценивается в €240 млн. Представьте, компания, существующая всего месяц, не имеющая никакого продукта, и в которой всего 3 сотрудника уже оценивается в €240 млн! Давайте попробуем разобраться, почему так дорого, и почему фаундеры решили отдать целых 44% компании на первом же раунде инвестиций.
Итак, у компании три фаундера:
– CEO: Arthur Mensch. PhD в INRIA, 2 года PostDoc в École normale supérieure в Париже. Затем 2.5 года как Research Scientist в DeepMind, где кроме всего прочего внес вклад в известные модели Flamingo и Chinchilla. Имеет массивную экспертизу в языковых моделях.
– CTO: Timothée Lacroix. Работал Software Engineer в исследовательском отделе Facebook AI Research, один из контрибьютеров LLaMa. Самый инженеристый человек в команде Mistral AI, поэтому и CTO.
– Chief Research Officer (CRO): Guillaume Lample. Сделал PhD в Facebook AI Research и получил full-time позицию как Research Scientist в FAIR, а затем в GenAI, где и создал LLaMa. С Гийомом я пересекался еще в 2019, во время моей стажировки в FAIR, когда мы оба писали PhD. Уже тогда он показался мне невероятно продуктивным исследователем, у которого к защите диссертации было ~3000 цитирований. Основной его фокус это NLP и языковые модели, чем он и занимался, начиная с PhD и до основания стартапа. Самый маститый чел в плане науки и инноваций из трех фаундеров.
Как вы видите, команда получилась звездная, правда без бизнес экспертизы. Но я верю, что в ближайший год они нас удивят. Инвест фонд Lightspeed, который в них вложился, говорит так: "Это очень талантливая команда. Мы думаем, что в мире сейчас всего 70-100 человек с такой глубокой экспертизой в языковых моделях и их оптимизаций."
В отличие от OpenAI, где название не соответствует реальности, Mistral AI говорят “Open source is a core part of our DNA", то есть все свои разработки, включая данные и веса моделей, они планируют выкладывать в публичный доступ, что делает их ближе к Stability AI. Также в интервью TechCrunch они рассказали, что планируют строить свои модели только на публичных датасетах, чтобы избежать судебных исков (тут отсылка к Stability AI, у которых сейчас много проблем из-за данных). Пользователи тоже смогут вносить вклад, добавляя свои датасеты (думаю, примерно так как это сделано в Open Assistant).
Интересно что стартап не планирует выпускать продукты для конечных пользователей (вроде ChatGPT), вместо этого компания будет фокусироваться на enterprise клиентах. Я думаю, при их отрытой модели, это имеет смысл, ведь опен-соурс сообщество само позаботится о продуктах для обычных людей, как например это произошло со Stable Diffusion.
Продолжение в следующем посте.
@ai_newz #моемнение
В апреле я отправился из Цюриха в Париж, чтобы пересечься с коллегами из Meta GenAI, работающими над языковыми моделями. В нашем офисе я встретился c Гийомом Лампле (Guillaume Lample). Мы обсуждали LLaMa, ее дальнейшее развитие, поговорили про оптимизацию больших языковы моделей и трюки, которые можно применять для их ускорения во время инференса. В конце нашей встречи Гийом сказал, что он долго не задержится в Meta и через месяц уходит, чтобы создать свой стратап.
Через месяц после нашей встречи Гийом вместе с двумя друзьями основал в Париже стартап Mistral AI. Они намереваются строить большие и по настоящему открытые языковые модели, и возможно подвинуть OpenAI.
Еще через месяц, Mistral AI подняла seed раунд инвестиций на €105 млн и теперь оценивается в €240 млн. Представьте, компания, существующая всего месяц, не имеющая никакого продукта, и в которой всего 3 сотрудника уже оценивается в €240 млн! Давайте попробуем разобраться, почему так дорого, и почему фаундеры решили отдать целых 44% компании на первом же раунде инвестиций.
Итак, у компании три фаундера:
– CEO: Arthur Mensch. PhD в INRIA, 2 года PostDoc в École normale supérieure в Париже. Затем 2.5 года как Research Scientist в DeepMind, где кроме всего прочего внес вклад в известные модели Flamingo и Chinchilla. Имеет массивную экспертизу в языковых моделях.
– CTO: Timothée Lacroix. Работал Software Engineer в исследовательском отделе Facebook AI Research, один из контрибьютеров LLaMa. Самый инженеристый человек в команде Mistral AI, поэтому и CTO.
– Chief Research Officer (CRO): Guillaume Lample. Сделал PhD в Facebook AI Research и получил full-time позицию как Research Scientist в FAIR, а затем в GenAI, где и создал LLaMa. С Гийомом я пересекался еще в 2019, во время моей стажировки в FAIR, когда мы оба писали PhD. Уже тогда он показался мне невероятно продуктивным исследователем, у которого к защите диссертации было ~3000 цитирований. Основной его фокус это NLP и языковые модели, чем он и занимался, начиная с PhD и до основания стартапа. Самый маститый чел в плане науки и инноваций из трех фаундеров.
Как вы видите, команда получилась звездная, правда без бизнес экспертизы. Но я верю, что в ближайший год они нас удивят. Инвест фонд Lightspeed, который в них вложился, говорит так: "Это очень талантливая команда. Мы думаем, что в мире сейчас всего 70-100 человек с такой глубокой экспертизой в языковых моделях и их оптимизаций."
В отличие от OpenAI, где название не соответствует реальности, Mistral AI говорят “Open source is a core part of our DNA", то есть все свои разработки, включая данные и веса моделей, они планируют выкладывать в публичный доступ, что делает их ближе к Stability AI. Также в интервью TechCrunch они рассказали, что планируют строить свои модели только на публичных датасетах, чтобы избежать судебных исков (тут отсылка к Stability AI, у которых сейчас много проблем из-за данных). Пользователи тоже смогут вносить вклад, добавляя свои датасеты (думаю, примерно так как это сделано в Open Assistant).
Интересно что стартап не планирует выпускать продукты для конечных пользователей (вроде ChatGPT), вместо этого компания будет фокусироваться на enterprise клиентах. Я думаю, при их отрытой модели, это имеет смысл, ведь опен-соурс сообщество само позаботится о продуктах для обычных людей, как например это произошло со Stable Diffusion.
Продолжение в следующем посте.
@ai_newz #моемнение
❤141👏41🔥33👍25🤯8🤣4👎2🥰2
Mistral AI (ч.2)
Для обучения LLM, нужно очень много вычислительных мощностей, которые будут обходиться компании в десятки миллионов $ в год. Кроме того, парни хотят собрать команду "мирового класса" для создания “самых лучших опен-соурсных моделей”, а зарплаты AI спецов такого уровня могут доходить до миллиона долларов. Поэтому для Mistra AI было важно быстро поднять такую большую сумму в €105 миллионов. Это позволит им начать работу над своей задумкой без промедления.
Да, это стоило им 44% компании, что довольно много для seed раунда. Но, во первых, я думаю Франция будет всячески топить за этот национальный стартап и помогать ему, ведь им важно иметь именно домашний французский AI. Во-вторых, я не исключаю варианта, что компания будет куплена через год два более крупным игроком, и быстрое раздувание оценки оправдается ранним экзитом для фаундеров. Для сравнения, в январе 2015 Google купил DeepMind за $400М (поразительно похожая история на сегодняшнюю). Однако, мне кажется, Mistral AI уже так не продешевит.
На скринах - Google Scholar профили фаундеров.
Читать Ч.1.
@ai_newz #моемнение
Для обучения LLM, нужно очень много вычислительных мощностей, которые будут обходиться компании в десятки миллионов $ в год. Кроме того, парни хотят собрать команду "мирового класса" для создания “самых лучших опен-соурсных моделей”, а зарплаты AI спецов такого уровня могут доходить до миллиона долларов. Поэтому для Mistra AI было важно быстро поднять такую большую сумму в €105 миллионов. Это позволит им начать работу над своей задумкой без промедления.
Да, это стоило им 44% компании, что довольно много для seed раунда. Но, во первых, я думаю Франция будет всячески топить за этот национальный стартап и помогать ему, ведь им важно иметь именно домашний французский AI. Во-вторых, я не исключаю варианта, что компания будет куплена через год два более крупным игроком, и быстрое раздувание оценки оправдается ранним экзитом для фаундеров. Для сравнения, в январе 2015 Google купил DeepMind за $400М (поразительно похожая история на сегодняшнюю). Однако, мне кажется, Mistral AI уже так не продешевит.
На скринах - Google Scholar профили фаундеров.
Читать Ч.1.
@ai_newz #моемнение
❤56🔥26👍12👏8🤯4
This media is not supported in your browser
VIEW IN TELEGRAM
Ох, свершилось. Кто-то наконец-то сделал виртуальную примерочную. И не кто-то, а Google.
Над этой проблемой бились долго, и много стартапов полегло. А тут взяли диффузию, на вход – фото человека, вместо текстового промпта – фото целевой одежды, джынь-брынь и готово! На выходе получаем человека, переодетого в заданную одежду.
Попробовать можно прямо в Google Shopping
Кстати, примерно 2.5 года назад гугл выпустил похожий продукт — виртуальную примерку помад.
А вот ещё подборка постов, где я писал про попытки сделать виртуальную примерку а помощью ГАНов (это технология для генерации картинок, которая была актуальна до прихода диффузионок). Можете проследить, как сильно результаты улучшились всего за 2 года:
https://xn--r1a.website/ai_newz/60
https://xn--r1a.website/ai_newz/694
https://xn--r1a.website/ai_newz/733
https://xn--r1a.website/ai_newz/914
Сайт проекта (CVPR 2023)
Блогпост
@ai_newz
Над этой проблемой бились долго, и много стартапов полегло. А тут взяли диффузию, на вход – фото человека, вместо текстового промпта – фото целевой одежды, джынь-брынь и готово! На выходе получаем человека, переодетого в заданную одежду.
Попробовать можно прямо в Google Shopping
Кстати, примерно 2.5 года назад гугл выпустил похожий продукт — виртуальную примерку помад.
А вот ещё подборка постов, где я писал про попытки сделать виртуальную примерку а помощью ГАНов (это технология для генерации картинок, которая была актуальна до прихода диффузионок). Можете проследить, как сильно результаты улучшились всего за 2 года:
https://xn--r1a.website/ai_newz/60
https://xn--r1a.website/ai_newz/694
https://xn--r1a.website/ai_newz/733
https://xn--r1a.website/ai_newz/914
Сайт проекта (CVPR 2023)
Блогпост
@ai_newz
🔥131👍29❤13👎4🤔3❤🔥2😁2
This media is not supported in your browser
VIEW IN TELEGRAM
CVPR 2023
Друзья, прямо сейчас я загружаюсь в самолёт и лечу на крупнейшую конференцию в мире — CVPR 2023 (Conference on Computer Vision and Pattern Recognition). Длится она целую неделю и ожидается порядка 10,000 участников. А в первый раз ее провели в1983 г.
На конференции одна из главных для меня вещей — это общение и знакомства. Для этого компании каждый день организуют свои тусовки. Ну, и конечно я буду посещать избранные доклады и постерные сессии, чтобы поговорить с авторами статей. Кроме того, я буду презентовать и свою статью Avatars Grow Legs!
Сделать канадскую визу для меня как и для многих других было отдельным приключением, и только вчера я смог забрать паспорт с заветной наклейкой.
А тех из вас, кто не попал на конфу, я постараюсь взять с собой виртуально и буду показывать самые интересные моменты с места событий.
Расскажите, чтобы бы вы больше всего хотели увидеть на конференции, и о чем мне рассказать. Напишите в комментах.
Если хотите пересечься в Ванкувере — тоже пишите.
@ai_newz
Друзья, прямо сейчас я загружаюсь в самолёт и лечу на крупнейшую конференцию в мире — CVPR 2023 (Conference on Computer Vision and Pattern Recognition). Длится она целую неделю и ожидается порядка 10,000 участников. А в первый раз ее провели в1983 г.
На конференции одна из главных для меня вещей — это общение и знакомства. Для этого компании каждый день организуют свои тусовки. Ну, и конечно я буду посещать избранные доклады и постерные сессии, чтобы поговорить с авторами статей. Кроме того, я буду презентовать и свою статью Avatars Grow Legs!
Сделать канадскую визу для меня как и для многих других было отдельным приключением, и только вчера я смог забрать паспорт с заветной наклейкой.
А тех из вас, кто не попал на конфу, я постараюсь взять с собой виртуально и буду показывать самые интересные моменты с места событий.
Расскажите, чтобы бы вы больше всего хотели увидеть на конференции, и о чем мне рассказать. Напишите в комментах.
Если хотите пересечься в Ванкувере — тоже пишите.
@ai_newz
🔥258👍45❤32👎3😢3🐳3🌭2
Нетворкинг на CVPR 2023
Друзья, у нас тут намечается критическая масса в Ванкувере. Поэтому я создал чатик для организации встреч. Добавляйтесь, если вы тоже тут.
https://xn--r1a.website/+mjlZoGcsH0dkNGMy
@ai_newz
Друзья, у нас тут намечается критическая масса в Ванкувере. Поэтому я создал чатик для организации встреч. Добавляйтесь, если вы тоже тут.
https://xn--r1a.website/+mjlZoGcsH0dkNGMy
@ai_newz
❤44😢8👍7
Пока я летел до Ванкувера, слушал подкаст с Yoshua Bengio. Это канадский профессор, ещё один отец-основатель Глубокого Обучения, помимо Яна ЛеКуна и Джефа Хинтона.
Иошуа поговорил про большие языковые модели и высокоуровневое мышление. Очень интересно было послушать про ботлнек сознания человека — мы можем активно держать в уме только небольшое количество переменных, что концептуально сильно отличается от того как сейчас работают Deep Learning модели. С одной стороны, это ограничивает мощность человеческого мышления. С другой стороны это очень полезный регуляризатор, который, возможно, и позволил человеческому мозгу так быстро развиться в процессе эволюции и "заставил" человека учиться оперировать высокоуровневыми концептами.
Иошуа рассуждает о том, как было бы круто добавить такой индуктивный байес в обучение нейросетей и подводит к тому, что текущие авторегрессионные модели (как, например GPT-4) — это не совсем то, что может обрести интеллект равный человеческому. Он говорит, что не масштабированием единым мы достигнем AGI, и что нам предстоит ещё много чего концептуально улучшить в текущий моделях.
Ещё он много раз ссылается на свои недавние работы, где он со студентами пытается развивать новый тип моделей — Generative Flow Networks (GFlowNets). Я о них впервые услышал только в том подкасте, думаю стоит разобраться, что за они.
Уровень сложности подкаста — выше среднего. Но все равно очень рекомендую к прослушиванию.
Spotify | YouTube
@ai_newz
Иошуа поговорил про большие языковые модели и высокоуровневое мышление. Очень интересно было послушать про ботлнек сознания человека — мы можем активно держать в уме только небольшое количество переменных, что концептуально сильно отличается от того как сейчас работают Deep Learning модели. С одной стороны, это ограничивает мощность человеческого мышления. С другой стороны это очень полезный регуляризатор, который, возможно, и позволил человеческому мозгу так быстро развиться в процессе эволюции и "заставил" человека учиться оперировать высокоуровневыми концептами.
Иошуа рассуждает о том, как было бы круто добавить такой индуктивный байес в обучение нейросетей и подводит к тому, что текущие авторегрессионные модели (как, например GPT-4) — это не совсем то, что может обрести интеллект равный человеческому. Он говорит, что не масштабированием единым мы достигнем AGI, и что нам предстоит ещё много чего концептуально улучшить в текущий моделях.
Ещё он много раз ссылается на свои недавние работы, где он со студентами пытается развивать новый тип моделей — Generative Flow Networks (GFlowNets). Я о них впервые услышал только в том подкасте, думаю стоит разобраться, что за они.
Уровень сложности подкаста — выше среднего. Но все равно очень рекомендую к прослушиванию.
Spotify | YouTube
@ai_newz
YouTube
S3 E1 Turing Award Winner Yoshua Bengio: Equipping AI with Higher Level Cognition and Creativity
S3 E1: Equipping AI with Higher Level Cognition and Creativity -- Guest: Turing Award Winner Yoshua Bengio (Host: Pieter Abbeel)
What's in this episode:
00:00:00 - Yoshua
00:01:40 - sponsors: Index Ventures, Weights and Biases
00:02:46 - language models…
What's in this episode:
00:00:00 - Yoshua
00:01:40 - sponsors: Index Ventures, Weights and Biases
00:02:46 - language models…
🔥109👍40❤20
This media is not supported in your browser
VIEW IN TELEGRAM
CVPR День первый: воркшопы и туториалы
Держу вас в курсе. Начался первый день конфы.
Я уже посетил Efficient Neutral Network воркшоп от Снепа. Послушал про эффективные архитектуры трансформеров для мобилок и про SnapFusion — ускоренную Stable Diffusion для мобил. Ребята достигли скорости 1.9 сек 🔥 за картинку на iPhone 14.
Сейчас зашёл на туториал по диффузионным моделям. Это по сути развитие туториала с CVPR 2022, о котором я много раз писал. Очень классная штука, советую. Надеюсь, они выложат записи на ютуб.
#конфа
@ai_newz
Держу вас в курсе. Начался первый день конфы.
Я уже посетил Efficient Neutral Network воркшоп от Снепа. Послушал про эффективные архитектуры трансформеров для мобилок и про SnapFusion — ускоренную Stable Diffusion для мобил. Ребята достигли скорости 1.9 сек 🔥 за картинку на iPhone 14.
Сейчас зашёл на туториал по диффузионным моделям. Это по сути развитие туториала с CVPR 2022, о котором я много раз писал. Очень классная штука, советую. Надеюсь, они выложат записи на ютуб.
#конфа
@ai_newz
🔥150👍25❤15❤🔥3🐳3😁1
А вот несколько слайдов с доклада "Efficient Text-to-Image Generation", где Снэп рассказывал про свою работу по ускорению Stable Diffusion.
Плюс демка, где они запускали генерации на телефоне.
Модель уменьшили, ускорили, дистиллировали и сконвертировали в Apple CoreML. Во время инференса использовали 8 шагов с DDIM семплером. Скорость генерации 1.9—2.0 сек / картинка на iPhone 14.
Представьте только. На GPU 50 шагов DDIM оригинальной Stable Diffusion в разрешении 512×512 работает примерно 1.7 сек. А тут сделали на мобиле почти за такое же время и без потери в качестве!
Сайт проекта SnapFusion
#конфа
@ai_newz
Плюс демка, где они запускали генерации на телефоне.
Модель уменьшили, ускорили, дистиллировали и сконвертировали в Apple CoreML. Во время инференса использовали 8 шагов с DDIM семплером. Скорость генерации 1.9—2.0 сек / картинка на iPhone 14.
Представьте только. На GPU 50 шагов DDIM оригинальной Stable Diffusion в разрешении 512×512 работает примерно 1.7 сек. А тут сделали на мобиле почти за такое же время и без потери в качестве!
Сайт проекта SnapFusion
#конфа
@ai_newz
🔥141🤯26👍17❤3👎1
This media is not supported in your browser
VIEW IN TELEGRAM
CVPR День второй: воркшопы и туториалы
Словили Эндрю Ына в коридоре. Он несколько часов со всеми фоткался и отвечал на вопросы. Кажется, благодаря своим курсам по ML/DL, он стал даже более известным чем Хинтон, ЛеКун или Бенжио.
Сегодня моя команда огранизовывала воркшоп Efficient Deep Learning for Computer Vision. Вот пара понравившихся статей оттуда:
— FastComposer. Метод для генерации людей по заданному текстовому промпту и референсным фоткам. Не требует дорогого файнтюнинга, как например Dreambooth и может генерить сразу несколько персон на одном фото.
— DIME-FM: Distilling Multimodal and Efficient Foundation Models. Дистилляция фундаментальных Visual-Language моделей, которая требует меньше данных и в 10 раз меньше ресурсов чем оригинальные модели (например, дистиллировали CLIP).
Ещё заглянул на воркшоп про Egocentric Vision. Послушал доклад от Kristen Grauman: в недавней работе про Ego-exo video alignment они учили энкодер мэтчить кадры между видео от первого лица и видео с внешних камер.
#personal #конфа
@ai_newz
Словили Эндрю Ына в коридоре. Он несколько часов со всеми фоткался и отвечал на вопросы. Кажется, благодаря своим курсам по ML/DL, он стал даже более известным чем Хинтон, ЛеКун или Бенжио.
Сегодня моя команда огранизовывала воркшоп Efficient Deep Learning for Computer Vision. Вот пара понравившихся статей оттуда:
— FastComposer. Метод для генерации людей по заданному текстовому промпту и референсным фоткам. Не требует дорогого файнтюнинга, как например Dreambooth и может генерить сразу несколько персон на одном фото.
— DIME-FM: Distilling Multimodal and Efficient Foundation Models. Дистилляция фундаментальных Visual-Language моделей, которая требует меньше данных и в 10 раз меньше ресурсов чем оригинальные модели (например, дистиллировали CLIP).
Ещё заглянул на воркшоп про Egocentric Vision. Послушал доклад от Kristen Grauman: в недавней работе про Ego-exo video alignment они учили энкодер мэтчить кадры между видео от первого лица и видео с внешних камер.
#personal #конфа
@ai_newz
🔥87👍19❤16❤🔥3
Сегодня был ещё на офигенном воркшопе Visual Pre-Training for Robotics.
Великий исследователь в области визуального восприятия Джеймс Гибсон сказал знаменитую фразу: «Мы видим, чтобы двигаться, и мы двигаемся, чтобы видеть». Но можем ли мы научиться видеть, прежде чем научимся двигаться? И как далеко мы сможем продвинуться, если сначала научимся видеть? — Так описывается этот воркшоп.
Было много классных докладов про применения компьютерного зрения и претренировки моделей на визуальных задачах перед тем как использовать их на задачах робототехники, например для планирования и управления роботами.
Особенно понравился доклад Сергея Левина про то, как они делают претрейн модели с offline RL на видеоданных, собранных с разных роботов (от машинок до квадрокоптера), а затем файнтюнят с помощью online policy learning. В итоге модель обобщается на нового робота и новое окружение всего за 20 мин. Это впечатляюще быстро!
Подробности в статье FastRLAP.
Постараюсь достать запись докладов для вас.
#конфа
@ai_newz
Великий исследователь в области визуального восприятия Джеймс Гибсон сказал знаменитую фразу: «Мы видим, чтобы двигаться, и мы двигаемся, чтобы видеть». Но можем ли мы научиться видеть, прежде чем научимся двигаться? И как далеко мы сможем продвинуться, если сначала научимся видеть? — Так описывается этот воркшоп.
Было много классных докладов про применения компьютерного зрения и претренировки моделей на визуальных задачах перед тем как использовать их на задачах робототехники, например для планирования и управления роботами.
Особенно понравился доклад Сергея Левина про то, как они делают претрейн модели с offline RL на видеоданных, собранных с разных роботов (от машинок до квадрокоптера), а затем файнтюнят с помощью online policy learning. В итоге модель обобщается на нового робота и новое окружение всего за 20 мин. Это впечатляюще быстро!
Подробности в статье FastRLAP.
Постараюсь достать запись докладов для вас.
#конфа
@ai_newz
🔥71👍16❤12🙏1