эйай ньюз
82K subscribers
1.78K photos
942 videos
7 files
2.11K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

Ex-Staff Research Scientist в Meta Generative AI. Сейчас CEO&Founder AI стартапа в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Обещаю, на этом посте пока закончим про image restoration :)

Для сравнения, вот такие результаты выдает на тех же картинках популярные энхансеры
1) cвязка real-ESRGAN + GFPGAN (для face-enhancement).
2) CodeFormer

CodeFormer в целом получше работает на лицах чем real-ESRGAN, что и ожидаемо, ведь CodeFormer тренировался специально для лиц.

Если повреждения изображения можно описать как downscale + jpeg артефакты, то и ESRGAN и СodeFormer работают хорошо (как, например, в предпоследней строке), но если же картинка испорчена посильнее и применены другие деструктивные операции, то результат будет более плачевный чем у DiffBIR.

Но, да, real-ESRGAN и CodeFormer молниеносно быстры по сравнению с диффузией.

- Я запускал real-ESRGAN из этого колаба и апскейлил c 256 до 1024 (при апскейле 512-> 2048 получалось не лучше).
- CodeFormer брал отсюда, запускал в режиме предполагающем, что картинки содержат только лица.

@ai_newz
🔥27🌚97
This media is not supported in your browser
VIEW IN TELEGRAM
Никто: мы опасно близки к AGI. Пора бомбить датацентры!!1!1

Tesla Optimus: ловко и спокойно сортирует кубики лего по цвету.

--

Кроме шуток, не часто увидишь full-body робота, который так плавно манипулирует мелкими объектами, основываясь чисто на зрении. Причем, заявляют что робот управляется одной нейронкой end2end: на вход видеопоток, на выход сигналы для контроля актуаторов. И это тоже довольно круто.

Подозреваю, что гоняют огромный мультимодальный трансформер. Возможно, архитектура отдаленно похожа на Google RT-2 (мой пост про RT-1) или PaLM-E.

@ai_newz
🔥170235👍4🤯3
Anthropic получит до $4 млрд новых инвестиций от Amazon

Anthropic – это один из основных конкурентов OpenAI ChatGPT, который также строит conversational AI. Об их моделе Claud AI я писал в начале года.

— Недавно Anthropic впервые публично выкатили премиум подписку на свою модель Claude 2 с размером контекста в 100к токенов. Стоит $20/мес, но доступ есть только из US и UK.

— Anthropic хотят тренировать следующую версию "Claude-NEXT", которая планируется быть "в 10 раз более способной", чем существующие LLM (серьезная заявочка). Соответственно нужно очень много денег на тренировку и ресерч, поэтому и рейзят у Амазона.

— Для Амазона это возможность застолбить за собой потенциально лидирующую технологию, которую разрабатывает Anthropic и поплотнее подсадить их на AWS. Похожим образом Microsoft вкинул ≈$13 млрд в OpenAI.

— До текущего момента Anthropic уже подняли $2.7 млрд. А последняя оценка компании в мае этого года была $5 млрд.

— Amazon изначально купит в Anthropic миноритарную долю за $1.25 млрд, и договорились, что Amazon может увеличить размер инвестиции до $4 млрд.

— Учитывая размер новых инвестиций от Amazon, сейчас Anthropic должен оцениваться в разы дороже. В компании видят огромный потенциал.

Ну что ж, звучит многообещающе! Хочу купить подписку на Claude Pro (через VPN) и попробовать попользоваться.

@ai_newz
🔥51😱17❤‍🔥85👍1
This media is not supported in your browser
VIEW IN TELEGRAM
👀 ChatGPT теперь умеет видеть, говорить и слушать

Вчера OpenAI показали новую модель ChatGPT-4V(ision). Это мультимодальная модель, которая может понимать и синтезировать голос, а также понимает изображения. Мы получаем более интуитивный интерфейс, который позволяет разговоривать с ChatGPT голосом (Привет, Siri!).

А теперь, лайфхак из блога OpenAI, который СУЩЕСТВЕННО упростит вашу жизнь:
"Когда вы дома, сфотографируйте свой холодильник и кладовую, чтобы определить, что приготовить на ужин (и задать уточняющие вопросы для пошагового рецепта). После ужина помогите своему ребенку с математической задачей, сделав фотографию, выделив задачу и получив подсказки от ChatGPT для вас обоих."

Обещают в течение следующих двух недель дать доступ к voice и vision функциям ChatGPT-4V премуим пользователям Plus и Enterprise. Голос будет только на iOS и Android.

В стиле ClosedAI парни выложили что-то типа тех репорта, без технических деталей, где рассказывают про Safety новой модели и показывают примеры работы.

@ai_newz
🔥126🤯2212🌚12😁7👍4💯2🙏1
Победы в челенджах и научные призы хорошо выделяют ваше резюме из толпы при поиске работы. Я, будучи PhD студентом, пытался помаксимуму насобирать всяких лычек и призов. Например, Яндекс прямо сейчас набирает заявки на премию для учёных и преподавателей в области Machine Learning - Yandex ML Prize.

Если вы (или ваши студенты) публиковали статьи на топовых AI/ML конфах (A или A), то можете подавать заявку. Оцениваются достижения в генеративных моделях, информационном поиске, распознавании и синтезе речи, обработке языка и машинном переводе, а также в компьютерном зрении. Я думаю, что со статьей с CVPR, ICCV или NeurIPS можно изи подаваться.

Приз обещают от 500к до 1 млн рублей, в зависимости от номинации, и еще 500к кредитов на облачные вычисления. Бонусом — лычка в резюме.

Есть пять номинаций: за первую публикацию, исследователям со статьями, молодым и опытным научным руководителям, а также преподавателям ML. Участвовать можно, если вы из Азербайджана, Армении, Беларуси, Казахстана, Кыргызстана, Молдовы, России, Сербии, Таджикистана, Туркменистана или Узбекистана.

@ai_newz
55🤣34🤬18🔥53😁3💯1
Го сегодня смотреть ежегодную презентацию Meta Connect

Ивент начнется в 19:30 по Цюриху с доклада Цука (1 час), где он расскажет про новые AI штучки и VR/AR/MR, Meta Quest 3 в том числе.

Я буду постить тут про самые интересные моменты. Тем более там будет показана и моя работа.

- Стрим будет в fb на странице Мета.
- Расписание докладов тут.

- И в дополнение вот ссылки на мои посты с предыдущих Connect 2021 (тык) и 2022 (тык).

@ai_newz
🔥6315🤣8🌚3🙏2😁1
Mistral.ai, стартап, основанный автором LLaMa, разразился новой открытой моделью Mistral 7B

Про новый парижский стартап я писал длиннопост несколько месяцев назад (часть 1, часть 2)

О модели Mistral 7B:
- Обходит Llama-2 13B и Llama-1 34B на всех бенчмарках
- Подбирается к CodeLlama 7B на генерации кода, не забывая как выполнять задачи на Английском языке
- Apache 2.0 лицензия

Скорость достигается за счёт:
- Grouped-query attention (GQA) for faster inference
- Sliding Window Attention (SWA) для более дешёвого инференса на длинных последовательностях токенов

Больше деталей
Модель на Hugging Face

@ai_newz
🔥1208😍1
🔥Meta Connect 3: Понеслась

Марк рассказывает про Quest 3: "Без кабеля и без батарей". (Привет, аппле).

- Новый, более мощный процессор.
- Более компактный дизайн и др.

- Xbox cloud gaming станет доступен на Quest 3 в декабре. Можно будет играть в сотни Xbox игр в хедсете.
- Mixed Reality (passthrough) фича. Это когда виртуальный мир проецируется на реальный, когда вы смотрите через Quest.
- Assasin's Creed NEXUS нативно поддерживается в Quest 3 и куча других игр.
- Цена $499

Стрим
Рестрим на Ютубе

@ai_newz
🔥63🤣9❤‍🔥42
This media is not supported in your browser
VIEW IN TELEGRAM
А теперь работа нашей команды!

Emu - генерация high-res изображений, которая теперь доступна для пользователей по команде /imagine внутри нашего AI чат бота и через web.

Ускорение этой модели — это то, чем занимался я и наша команда. Работает за ~5 сек на картинку.

Вообще, эффективность и скорость генеративных моделей — это как раз основной фокус нашей тимы.

Попробовать модель можете сами на https://imagine.meta.com

@ai_newz
🔥237❤‍🔥2815🤣3🤯2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
❤️AI Stickers

А вот еще одна модель, которую мы ускоряли и оптимизировали!

Теперь вместо того, чтобы искать подходящий стикер или эмоджи, можно просто ввести описание и быстро сгенерировать несколько вариантов специально по вашему запросу! Бесплатно и без СМС.

Фича доступна в Instagram, Messenger и WhatsApp.

@ai_newz
❤‍🔥136🔥8419👍3🤯3🐳1
This media is not supported in your browser
VIEW IN TELEGRAM
Вот такие AI штуки еще анонсировали. Все, что связано с генерацией и редактирвоанием изображений прошло через мои руки и руки моих коллег из GenAI в Цюрихе.

Больше инфы: https://ai.meta.com/genai

@ai_newz
🔥11319❤‍🔥114
This media is not supported in your browser
VIEW IN TELEGRAM
Вот так выглядит Meta AI бот, с которым можно поболтать как 1:1, так и в групповых чатах.

А также по команде /imagine можно попросить его сгенерировать изображения.

@ai_newz
🔥65❤‍🔥87
AI-персонажи

Еще анонсировали 28 уникальных AI-персонажей, которые тренировались на известных личностях. Например, мой любимый там - это Snoop Dogg.

С ними можно поболтать по фану, попросить что-то посоветовать или рассказать, и каждый будет отвечать в своем стиле. Например, можно спросить как приготовить вкусное блюдо у известного в США шеф-повара Roy Choi.

Конечно, тут и про Safety и Alignment не забыли, и модели будут постоянно улучшаться.

Что дальше?
"Сегодня мы представили AI Studio, платформу, которая поддерживает создание наших AI, и мы планируем сделать ее доступной для людей вне Meta - как для программистов, так и для непрограммистов - чтобы они могли создавать AI. Разработчики смогут создавать сторонние AI для наших мессенджеров с помощью наших API в ближайшие недели, начиная с Messenger и затем расширяясь на WhatsApp.

Также компании смогут создавать AI, отражающие ценности их бренда и улучшающие опыт обслуживания клиентов. Начиная с малых бизнесов, стремящихся масштабироваться, и заканчивая крупными брендами, желающими улучшить коммуникацию, AI могут помочь компаниям взаимодействовать с клиентами через наши приложения. Мы запускаем это в альфа-версии и планируем дальнейшее масштабирование в следующем году."

Подробности и полный список персонажей - в блоге.

@ai_newz
🔥59❤‍🔥1210🐳43😁2👍1🌚1
Media is too big
VIEW IN TELEGRAM
Продолжая тему Meta Connect, вчера еще анонсировали новое поколение умных очков Meta Ray Ban.

Спеки:
- 12 MP ultra-wide камера
- Cнимает видео в 1440x1920, 30 fps
- Система из 5-ти микрофонов
- 32 GB памяти.
- Можно звонить, отправлять голосом сообщения и слушать музыку (в дужки встроены спикеры).
- Батареи будет хватать на 4 часа, либо на 36 часов, если пользоватсья умным футляром, который служит как power bank.
- Куча стилей оправы и линз.
- Цена: $299

Кроме того, Марк обещал, что у очков будет доступ к SOTA языковой модели, у которой можно будет например спросить как долго жарить стейк, или уточнить правила тенниса прямо во время игры. Блин, это действительно новый уровень интеграции AI в повседневную жизнь.

А в следующем году очки получат бесплатное обновление софта и на лету смогут распознавать объекты перед вами и, например, переводить меню и надписи с иностранных языков.

А киллер фича — это лайв стриминг прямо от первого лица! Представляю, как lifestyle блоги обогатятся контентом.

@ai_newz
🔥133❤‍🔥11😱105🤣5👍2🤬2😁1
Некоторым пользователям уже дали доступ к Vision функциям ChatGPT-4V, которую только недавно анонсировали.

Вы только гляньте как глубоко заходит понимание изображения у новой модели. Один твиторский решил скормить ChatGPT дичайшие слайды Пентагона про Афганистан. И модель улавливает детали и основной смысл слайдов, где требуется очень детальное распознание мелкого текста и связей между сущностям.

Конечно, тут самый маленький текст модель не увидела, но надписи покрупнее (которые все равно небольшие) и связи между ними в виде стрелочек модель уловила. Для меня и это удивительно!

При большем вычислительном бюджете, можно было бы позволить модели зумировать участки изображения, так же как делает человек, при рассмотрении картины, где очень много мелких деталей. Но это многократно увеличило бы стоимость таких запросов.

@ai_newz
🔥134🤯3615❤‍🔥3👍1😁1😍1
Media is too big
VIEW IN TELEGRAM
Лех Фридман и Марк Цукерберг записали подкастик в Метаверсе. Да не просто в Метаверсе, а в реалистичной ее версии. Оба сидят в разных городах, но общаются как вживую.

Это ультра-реалистичные 3D аватары. Мимика вашего лица точно считывается шлемом Quest Pro и передается для рендеринга в метаверсе. За счет реализма достигается максимальное погружение.

Технология, которая стоит за этим, называется Codec Avatars (я писал о ней ранее). Для подкаста Марку и Лексу пришлось заранее отсканироваться в фотограмметрической установке, а также записать мимику своих лиц в движении. В будущем, плланируется сделать возможным сканировать себя за 1-2 минуты с телефона и получать таких аватаров. Исследования в этом направлении уже ведутся.

Очень круто видеть, как технология такого уровня выходит из лабы и мы видим реальное демо в дикой природе прямо на подкасте.

> Смотреть подкаст
> Лекция об этой технологиии

@ai_newz
🔥16218🤣10🤯7
Вслед за ChatGPT Enterprise планом, YandexGPT теперь тоже можно будет дообучать на своих данных и интегрировать в сервисы. Пишут, что с июля 800 компаний уже получили к ней доступ и протестировали ее в своих продуктах.

Теперь те же чат-боты могут запоминать контекст диалога. Публичный релиз API планируют в конце года.

@ai_newz
🔥74🤣368👍3🤩21
This media is not supported in your browser
VIEW IN TELEGRAM
К слову, вот такого реалистичного 3D аватара можно создать в лоб с помощью свежего метода Gaussian Splitting, о котором я уже писал тут.

Разница с Codec Avatars в том, что эта бошка не может быть анимирована. Тут запекается статическая поза человека, поэтому это нельзя назвать аватаром. Но для скана объектов и сцен вполне себе классный подход.

Нужен ресерч, который бы позволил анимировать эти сплатики.

Сорс видео

@ai_newz
🔥8310👍2