эйай ньюз
82K subscribers
1.78K photos
942 videos
7 files
2.11K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

Ex-Staff Research Scientist в Meta Generative AI. Сейчас CEO&Founder AI стартапа в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
А вот Лиза Су показывает риал-тайм демку инференса модельки Falcon 40B на MI300X.

Более того, они договорились с HuggingFace, что те возьмутся за оптимизацию многих моделей с HF хаба под видеокарты AMD 🔥

@ai_newz
🔥194👍229👎3🤔3🤯2❤‍🔥1👏1🌚1
Кстати, на днях OpenAI обновили модели и публичный API.

Появилась модель gpt-3.5-turbo-16k с контекстом на 16к токенов.
Для сравнения, из всех моделей OpenAI самый большой размер контекста в 32k токенов есть у версии GPT-4, которой пока нет в публичном доступе.

Цена за токен у gpt-3.5-turbo упала на 25%. А цена за использование модели text-embedding-ada-002, вычисляющей эмбеддинги для текста упала на 75%. Забавный факт: раньше можно было посчитать эмбеддинги для всего текста в интернете примерно за $50 мл, сейчас же это обойдется всего в $12.5 млн

Эмбеддинги можно использовать для поиска релевантых параграфов в документах и кормить в ChatGPT как дополнительный контекст. Напимер, если вы хотите поспрашивать чат-гпт по PDF доке, вы первым делом должны посчитать эмбеддинги для текста этой PDF, а затем для каждого запроса искать наиболее релеватный кусок текста и добавлять его в контекст ChatGPT. По сути эмбеддинг - это сжатое представление текста в векторизованном виде, по которому легко искать.

@ai_newz
🔥66👍208👎5🤯5😱5
This media is not supported in your browser
VIEW IN TELEGRAM
Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation

Моушн-дизайнерам на заметку!

Все, кто пытался стилизовать видео по текстовому запросу с помощью SD + ControlNet знают, что результат такой генерации начинает прыгать как собака, потому что каждый кадр обрабатывается независимо.

В этой статье эту проблемку частично решают. Решение не научное, а скорее инженерное и не требует перетренировки сеток. Предлагают стилизовать ключевые кадры, причем для достижения консистентности по стилю, пробрасывают cross-attention между ключевыми кадрами. Как я понял, сначала стилизуют один ключевой кадр, а потом используют его как контекст во время стилизации всех других.

Затем авторы пропагируют информацию от ключевых кадров к тем, что между ними. Тут для консистентности формы, текстур и цвета используются трюки в latent пространстве LDM: AdaIN для цвета, ворпинг кадров друг на друга (используя optical flow) для формы.

Подробности в статье.
Результаты на сайте проекта просто🔥

@ai_newz
🔥75👍14🤯73👎2
Forwarded from Derp Learning
This media is not supported in your browser
VIEW IN TELEGRAM
Произошел очередной отвал жепы башки на поприще ИИ-ассистентов!

Даем на входе видео с ютуба, скриншот из дискорда, и говорим: я вот дошел до этого шага на видео, покажи на скриншоте, куда мне кликать дальше.

Агенты ищут в видео кусок, описанный юзером, смотрят, что идет дальше, ищут нужный кусок скриншота.

Какой простор для оптимизации техподдержки, 99% работы которой сводится к совместному чтению уже существующих мануалов вместе с юзером.

Hold on to your jobs papers, what a time to be alive intensifies

Магия, да и только!

paper
tweet
🤯124👍30😁32👎2
Французский LLM стартап, который поднял €105 млн через 4 недели после основания (ч.1)

В апреле я отправился из Цюриха в Париж, чтобы пересечься с коллегами из Meta GenAI, работающими над языковыми моделями. В нашем офисе я встретился c Гийомом Лампле (Guillaume Lample). Мы обсуждали LLaMa, ее дальнейшее развитие, поговорили про оптимизацию больших языковы моделей и трюки, которые можно применять для их ускорения во время инференса. В конце нашей встречи Гийом сказал, что он долго не задержится в Meta и через месяц уходит, чтобы создать свой стратап.

Через месяц после нашей встречи Гийом вместе с двумя друзьями основал в Париже стартап Mistral AI. Они намереваются строить большие и по настоящему открытые языковые модели, и возможно подвинуть OpenAI.

Еще через месяц, Mistral AI подняла seed раунд инвестиций на €105 млн и теперь оценивается в €240 млн. Представьте, компания, существующая всего месяц, не имеющая никакого продукта, и в которой всего 3 сотрудника уже оценивается в €240 млн! Давайте попробуем разобраться, почему так дорого, и почему фаундеры решили отдать целых 44% компании на первом же раунде инвестиций.

Итак, у компании три фаундера:
– CEO: Arthur Mensch. PhD в INRIA, 2 года PostDoc в École normale supérieure в Париже. Затем 2.5 года как Research Scientist в DeepMind, где кроме всего прочего внес вклад в известные модели Flamingo и Chinchilla. Имеет массивную экспертизу в языковых моделях.
– CTO: Timothée Lacroix. Работал Software Engineer в исследовательском отделе Facebook AI Research, один из контрибьютеров LLaMa. Самый инженеристый человек в команде Mistral AI, поэтому и CTO.
– Chief Research Officer (CRO): Guillaume Lample. Сделал PhD в Facebook AI Research и получил full-time позицию как Research Scientist в FAIR, а затем в GenAI, где и создал LLaMa. С Гийомом я пересекался еще в 2019, во время моей стажировки в FAIR, когда мы оба писали PhD. Уже тогда он показался мне невероятно продуктивным исследователем, у которого к защите диссертации было ~3000 цитирований. Основной его фокус это NLP и языковые модели, чем он и занимался, начиная с PhD и до основания стартапа. Самый маститый чел в плане науки и инноваций из трех фаундеров.

Как вы видите, команда получилась звездная, правда без бизнес экспертизы. Но я верю, что в ближайший год они нас удивят. Инвест фонд Lightspeed, который в них вложился, говорит так: "Это очень талантливая команда. Мы думаем, что в мире сейчас всего 70-100 человек с такой глубокой экспертизой в языковых моделях и их оптимизаций."

В отличие от OpenAI, где название не соответствует реальности, Mistral AI говорят “Open source is a core part of our DNA", то есть все свои разработки, включая данные и веса моделей, они планируют выкладывать в публичный доступ, что делает их ближе к Stability AI. Также в интервью TechCrunch они рассказали, что планируют строить свои модели только на публичных датасетах, чтобы избежать судебных исков (тут отсылка к Stability AI, у которых сейчас много проблем из-за данных). Пользователи тоже смогут вносить вклад, добавляя свои датасеты (думаю, примерно так как это сделано в Open Assistant).

Интересно что стартап не планирует выпускать продукты для конечных пользователей (вроде ChatGPT), вместо этого компания будет фокусироваться на enterprise клиентах. Я думаю, при их отрытой модели, это имеет смысл, ведь опен-соурс сообщество само позаботится о продуктах для обычных людей, как например это произошло со Stable Diffusion.

Продолжение в следующем посте.

@ai_newz #моемнение
141👏41🔥33👍25🤯8🤣4👎2🥰2
Mistral AI (ч.2)

Для обучения LLM, нужно очень много вычислительных мощностей, которые будут обходиться компании в десятки миллионов $ в год. Кроме того, парни хотят собрать команду "мирового класса" для создания “самых лучших опен-соурсных моделей”, а зарплаты AI спецов такого уровня могут доходить до миллиона долларов. Поэтому для Mistra AI было важно быстро поднять такую большую сумму в €105 миллионов. Это позволит им начать работу над своей задумкой без промедления.

Да, это стоило им 44% компании, что довольно много для seed раунда. Но, во первых, я думаю Франция будет всячески топить за этот национальный стартап и помогать ему, ведь им важно иметь именно домашний французский AI. Во-вторых, я не исключаю варианта, что компания будет куплена через год два более крупным игроком, и быстрое раздувание оценки оправдается ранним экзитом для фаундеров. Для сравнения, в январе 2015 Google купил DeepMind за $400М (поразительно похожая история на сегодняшнюю). Однако, мне кажется, Mistral AI уже так не продешевит.

На скринах - Google Scholar профили фаундеров.

Читать Ч.1.

@ai_newz #моемнение
56🔥26👍12👏8🤯4
This media is not supported in your browser
VIEW IN TELEGRAM
Ох, свершилось. Кто-то наконец-то сделал виртуальную примерочную. И не кто-то, а Google.

Над этой проблемой бились долго, и много стартапов полегло. А тут взяли диффузию, на вход – фото человека, вместо текстового промпта – фото целевой одежды, джынь-брынь и готово! На выходе получаем человека, переодетого в заданную одежду.

Попробовать можно прямо в Google Shopping

Кстати, примерно 2.5 года назад гугл выпустил похожий продукт — виртуальную примерку помад.

А вот ещё подборка постов, где я писал про попытки сделать виртуальную примерку а помощью ГАНов (это технология для генерации картинок, которая была актуальна до прихода диффузионок). Можете проследить, как сильно результаты улучшились всего за 2 года:
https://xn--r1a.website/ai_newz/60
https://xn--r1a.website/ai_newz/694
https://xn--r1a.website/ai_newz/733
https://xn--r1a.website/ai_newz/914


Сайт проекта (CVPR 2023)
Блогпост

@ai_newz
🔥131👍2913👎4🤔3❤‍🔥2😁2
This media is not supported in your browser
VIEW IN TELEGRAM
CVPR 2023

Друзья, прямо сейчас я загружаюсь в самолёт и лечу на крупнейшую конференцию в мире — CVPR 2023 (Conference on Computer Vision and Pattern Recognition). Длится она целую неделю и ожидается порядка 10,000 участников. А в первый раз ее провели в1983 г.

На конференции одна из главных для меня вещей — это общение и знакомства. Для этого компании каждый день организуют свои тусовки. Ну, и конечно я буду посещать избранные доклады и постерные сессии, чтобы поговорить с авторами статей. Кроме того, я буду презентовать и свою статью Avatars Grow Legs!

Сделать канадскую визу для меня как и для многих других было отдельным приключением, и только вчера я смог забрать паспорт с заветной наклейкой.

А тех из вас, кто не попал на конфу, я постараюсь взять с собой виртуально и буду показывать самые интересные моменты с места событий.

Расскажите, чтобы бы вы больше всего хотели увидеть на конференции, и о чем мне рассказать. Напишите в комментах.

Если хотите пересечься в Ванкувере — тоже пишите.

@ai_newz
🔥258👍4532👎3😢3🐳3🌭2
Нетворкинг на CVPR 2023

Друзья, у нас тут намечается критическая масса в Ванкувере. Поэтому я создал чатик для организации встреч. Добавляйтесь, если вы тоже тут.

https://xn--r1a.website/+mjlZoGcsH0dkNGMy

@ai_newz
44😢8👍7
Пока я летел до Ванкувера, слушал подкаст с Yoshua Bengio. Это канадский профессор, ещё один отец-основатель Глубокого Обучения, помимо Яна ЛеКуна и Джефа Хинтона.

Иошуа поговорил про большие языковые модели и высокоуровневое мышление. Очень интересно было послушать про ботлнек сознания человека — мы можем активно держать в уме только небольшое количество переменных, что концептуально сильно отличается от того как сейчас работают Deep Learning модели. С одной стороны, это ограничивает мощность человеческого мышления. С другой стороны это очень полезный регуляризатор, который, возможно, и позволил человеческому мозгу так быстро развиться в процессе эволюции и "заставил" человека учиться оперировать высокоуровневыми концептами.

Иошуа рассуждает о том, как было бы круто добавить такой индуктивный байес в обучение нейросетей и подводит к тому, что текущие авторегрессионные модели (как, например GPT-4) — это не совсем то, что может обрести интеллект равный человеческому. Он говорит, что не масштабированием единым мы достигнем AGI, и что нам предстоит ещё много чего концептуально улучшить в текущий моделях.

Ещё он много раз ссылается на свои недавние работы, где он со студентами пытается развивать новый тип моделей — Generative Flow Networks (GFlowNets). Я о них впервые услышал только в том подкасте, думаю стоит разобраться, что за они.

Уровень сложности подкаста — выше среднего. Но все равно очень рекомендую к прослушиванию.

Spotify | YouTube

@ai_newz
🔥109👍4020
This media is not supported in your browser
VIEW IN TELEGRAM
CVPR День первый: воркшопы и туториалы

Держу вас в курсе. Начался первый день конфы.

Я уже посетил Efficient Neutral Network воркшоп от Снепа. Послушал про эффективные архитектуры трансформеров для мобилок и про SnapFusion — ускоренную Stable Diffusion для мобил. Ребята достигли скорости 1.9 сек 🔥 за картинку на iPhone 14.

Сейчас зашёл на туториал по диффузионным моделям. Это по сути развитие туториала с CVPR 2022, о котором я много раз писал. Очень классная штука, советую. Надеюсь, они выложат записи на ютуб.

#конфа
@ai_newz
🔥150👍2515❤‍🔥3🐳3😁1
А вот несколько слайдов с доклада "Efficient Text-to-Image Generation", где Снэп рассказывал про свою работу по ускорению Stable Diffusion.

Плюс демка, где они запускали генерации на телефоне.

Модель уменьшили, ускорили, дистиллировали и сконвертировали в Apple CoreML. Во время инференса использовали 8 шагов с DDIM семплером. Скорость генерации 1.9—2.0 сек / картинка на iPhone 14.

Представьте только. На GPU 50 шагов DDIM оригинальной Stable Diffusion в разрешении 512×512 работает примерно 1.7 сек. А тут сделали на мобиле почти за такое же время и без потери в качестве!

Сайт проекта SnapFusion

#конфа
@ai_newz
🔥141🤯26👍173👎1
This media is not supported in your browser
VIEW IN TELEGRAM
CVPR День второй: воркшопы и туториалы

Словили Эндрю Ына в коридоре. Он несколько часов со всеми фоткался и отвечал на вопросы. Кажется, благодаря своим курсам по ML/DL, он стал даже более известным чем Хинтон, ЛеКун или Бенжио.

Сегодня моя команда огранизовывала воркшоп Efficient Deep Learning for Computer Vision. Вот пара понравившихся статей оттуда:
FastComposer. Метод для генерации людей по заданному текстовому промпту и референсным фоткам. Не требует дорогого файнтюнинга, как например Dreambooth и может генерить сразу несколько персон на одном фото.
DIME-FM: Distilling Multimodal and Efficient Foundation Models. Дистилляция фундаментальных Visual-Language моделей, которая требует меньше данных и в 10 раз меньше ресурсов чем оригинальные модели (например, дистиллировали CLIP).

Ещё заглянул на воркшоп про Egocentric Vision. Послушал доклад от Kristen Grauman: в недавней работе про Ego-exo video alignment они учили энкодер мэтчить кадры между видео от первого лица и видео с внешних камер.

#personal #конфа
@ai_newz
🔥87👍1916❤‍🔥3
Сегодня был ещё на офигенном воркшопе Visual Pre-Training for Robotics.

Великий исследователь в области визуального восприятия Джеймс Гибсон сказал знаменитую фразу: «Мы видим, чтобы двигаться, и мы двигаемся, чтобы видеть». Но можем ли мы научиться видеть, прежде чем научимся двигаться? И как далеко мы сможем продвинуться, если сначала научимся видеть? — Так описывается этот воркшоп.

Было много классных докладов про применения компьютерного зрения и претренировки моделей на визуальных задачах перед тем как использовать их на задачах робототехники, например для планирования и управления роботами.

Особенно понравился доклад Сергея Левина про то, как они делают претрейн модели с offline RL на видеоданных, собранных с разных роботов (от машинок до квадрокоптера), а затем файнтюнят с помощью online policy learning. В итоге модель обобщается на нового робота и новое окружение всего за 20 мин. Это впечатляюще быстро!

Подробности в статье FastRLAP.

Постараюсь достать запись докладов для вас.

#конфа
@ai_newz
🔥71👍1612🙏1