AI для Всех

CLAP 👏 - как CLIP, но для звуков

Во-первых: контрастное обучение продемонстрировало значительный успех в области изучения мультимодальных представлений. В данной работе предлагается "язык-аудио" для создания аудиопредставлений путем объединения аудиоданных с описаниями на естественном языке. Для достижения этой цели авторы сначала выпустили LAION-Audio-630K, большую коллекцию из 633 526 аудио-текстовых пар из различных источников данных.

Во-вторых, они построили контрастную модель предварительного обучения "язык-аудио", рассматривая различные аудиокодеры и текстовые кодеры. Они включили в модель механизм слияния признаков и дополнения ключевых слов к подписям, что позволило модели обрабатывать аудиоданные различной длины и повысить производительность.

В-третьих, авторы оценивают модель в трех задачах: поиск текста по аудиозаписям, классификация аудиозаписей zero-shot и контролируемая классификация аудиозаписей.

Результаты показывают, что модель достигает превосходной производительности в задаче поиска текста по аудиозаписям. В задачах классификации аудио модель достигает передовой производительности в условиях zero-shot.

📕 Статья
🦑 Модель

🔥28👍6❤5

5.39K viewsedited 14:53

AI для Всех

Forwarded from Сиолошная

Наш любимый HuggingFace 🤗 запускает свой ответ ChatGPT: HuggingChat

💬

В основе лежит затюненнаяя OpenAssistant фейсбучная LLAMA на 30B параметров, про которую я писал раньше. Она, кстати, уже доступна 3 дня как - прям самая большая и мощная, ага!

Доступно тут в привычном интерфейсе https://huggingface.co/chat/

На скриншоте - пример ответа модели на запрос создать игру "Змейка".

UPD: веб-приложение легло под натиском запросов, подождём (ну или можно запускать локально, хе-хе)

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥25👍8❤6

3.36K views18:34

AI для Всех

Прорыв в области аугментации мультимодальных данных: LeMDA

Интеллектуальные системы предназначены для обучения на основе различных типов данных, таких как текст, аудио и изображения. Несмотря на то, что нейронные сети достигли больших успехов в использовании мультимодальных данных, методы аугментации данных (получение дополнительных данных из существующих) в основном ограничиваются одной модальностью за раз.

Аугментация данных для мультимодального обучения - задача сложная, поскольку трудно сохранить общий смысл при дополнении каждой модальности. Например, если каким-то случайным образом изменить изображение, подпись к нему может перестать его точно описывать. Кроме того, сложно придумать подходящие преобразования, которые работают для всех модальностей.

Авторы представляют LeMDA (Learning Multimodal Data Augmentation)! Этот простой в использовании метод автоматически учится дополнять мультимодальные данные в пространстве признаков (закодированное представление данных), без необходимости знать точные модальности или их взаимосвязи. LeMDA имеет три основных преимущества:

* Она значительно повышает производительность мультимодальных архитектур глубокого обучения.
* Она может применяться к комбинациям модальностей, которые ранее не рассматривались.
* Она достигает самых современных результатов в различных приложениях с изображениями, текстом и табличными данными.

LeMDA - это революционное решение для мультимодального дополнения данных, прокладывающее путь к созданию более надежных и универсальных интеллектуальных систем.

📕 Статья
🦑 Код

❤17👍8🔥2

4.37K views01:00

AI для Всех

Stability AI запускает API для увеличения изображений

Компания Stability AI объявила о выпуске своего революционного API для увеличения изображений, который позволяет пользователям увеличивать размер любого изображения без ущерба для его резкости и детализации. Этот инновационный инструмент на базе ИИ станет ценным дополнением к набору API для создания и редактирования изображений.

API увеличения изображения использует две современные модели с открытым исходным кодом, Real-ESRGAN и Stable Diffusion 4x Upscaler. Теперь пользователи могут легко увеличивать изображения, независимо от того, созданы они с использованием Stability AI или нет, получая исключительные результаты.

🦾 Документация
🐕 Анонс

👍30🔥11❤4

4.42K viewsedited 13:45

AI для Всех

Поваренная книга Self-supervised Learning (#SSL) от Meta.

Meta выпустили новую "Поваренную книгу самоконтролируемого обучения" - практическое руководство для исследователей и практиков ИИ о том, как сориентироваться в рецептах SSL (self-supervised learning), понять его различные “ручки и рычаги” и получить ноу-хау, необходимые для экспериментов с SSL.

Self-supervised learning (SSL), которое называют "темной материей интеллекта", является ключевым ингредиентом недавних прорывов в области ИИ.

Оно расширило границы глубокого обучения во многих областях, позволяя обучаться на огромных объемах немаркированных данных, а не полагаться на тщательно аннотированные наборы данных. Сегодня SSL лежит в основе передовых моделей для всех модальностей - язык (например, перевод и большие языковые модели), аудио (например, data2vec) и зрение (например, модель SEER, обученная на одном миллиарде изображений, и DINOv2).

Но обучение SSL похоже на приготовление изысканного блюда - это сложное искусство с высоким барьером для входа. Хотя многие ингредиенты могут быть знакомы, успешный рецепт SSL включает в себя головокружительный набор вариантов, от выбора правильных задач до обучения с тщательно подобранными и выдержанными гиперпараметрами.

Вы также найдете советы и рекомендации от более чем десятка авторов из различных университетов, включая Нью-Йоркский университет, Университет Мэриленда, Калифорнийский университет в Дэвисе, Университет Монреаля, а также ведущих исследователей Meta AI, таких как Янн ЛеКун.

📕 Книга
🐕 Анонс

👍35❤8🔥8

5.36K viewsedited 16:52

Wonder Dymanics демократизирует создание компьютерной графики в кино

Представьте, что вы хотите включить друга робота в свой киберпанк ютуб сериал. До сегодняшнего дня вы бы отказалась от идеи примерно сразу, потому что качественная работа по визуальным эффектам (VFX) обоходится в $20 000 за секунду. {Поэтому реалистичные анимированные персонажи остаются прерогативой высокобюджетных проектов}

Из чего складывается эта сумма. Самый первый шаг - сделать модель, текстуры самого персонажа. Если не хотите анимировать его вручную, вам понадобится студия захвата движения или съемочное оборудование, отражающие шары, зеленые экраны и всякое такое. Из них к каркасу компьютерной графики необходимо применить примитивы движения, а актера заменить персонажем. Интегрированная в сцену 3D-модель должна соответствовать направлению и цвету освещения, оттенку и зернистости пленки и многому другому. Это много ресурсов и дней работы.

Wonder Dynamics стремится изменить это с помощью web платформы, которая позволяет создателям буквально перетаскивать персонажа компьютерной графики в любую сцену, как если бы он был профессионально снят и отредактирован.

Звучит многообещающе, надо поиграться: +1 пункт вейтлистов.

🖥 Присоединиться к закрытому бета-тестированию здесь
▶️ Посмотреть на красивое
🗞 Почитать статью на techcrunch

@GingerSpacetail

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥38❤5👍3😱3

4.49K viewsedited 18:27

AI для Всех

0:17

This media is not supported in your browser

VIEW IN TELEGRAM

WhaleGPT 🐋

Сможет ли ИИ нам помочь разговаривать с китами?

Киты, как и люди, являются социальными существами со сложной системой коммуникации. Их общение состоит из коротких кликов и щелчков, которые используются для различных целей.

Исследователи обратились к искусственному интеллекту (ИИ), чтобы помочь расшифровать язык китов. Проект CETI (Cetacean Translation Initiative) направлен на использование ИИ и методов машинного обучения для анализа и перевода общения китов. Используя передовые методы обработки естественного языка, ученые надеются понять грамматику и смысл издаваемых звуков.

Для достижения этой цели необходимо больше данных. CETI планирует использовать различные технологии, такие как буйковые решетки, записывающие устройства, прикрепленные к китам, водные дроны и воздушные дроны, для сбора аудио- и видеозаписей поведения и общения китов. Собранные данные будут обработаны и проанализированы алгоритмами машинного обучения для обнаружения и классификации коды китов.

Цель проекта CETI - не только понять язык китов, но и общаться с ними. Поскольку исследователи продолжают изучать глубины общения китов, остается только гадать, что думают эти величественные существа о наших начинаниях и сможем ли мы когда-нибудь спросить их об этом.

Видео снял мой друг вчера в Monterey Bay

Ссылка

❤54🔥16🤩4😱3👍2

5.45K viewsedited 16:00

AI для Всех

Связь между self-supervised learning и теорией информации

ИИ может делать удивительные вещи, но ему обычно требуется много помеченных данных. На помощь приходит self-supervised learning (#SSL) - способ, позволяющий ИИ обучаться без меток. В новой статье Яна Лекуна и Равида Швартца авторы глубоко погружаются в мир self-supervised learning и теории информации.

При supervised learning обучении мы сохраняем полезную информацию и выкидываем все остальное. Но в случае self-supervised обучения все сложнее: как сильно мы должны сжать данные, чтобы обучение было эффективным?

Для ответа на этот вопрос необходимо найти баланс между сжатием и максимизацией информации. Авторы вводят "предположение о многоракурсности", чтобы помочь справиться с этой проблемой.

В статье рассматриваются:

* пересечение теории информации, self-supervised learning и глубоких нейронных сетей.
* Единая структура для понимания self-supervised learning
* Роль предположения о многоракурсности и его ограничения
* Современные алгоритмы self-supervised learning
* Измерение информации в нейронных сетях

📕

Статья

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥24👍4❤1😢1

5.11K viewsedited 17:28

AI для Всех

Mojo - новый язык программирования для ML

Крис Латтнер, известный по LLVM и Swift, только что анонсировал новый язык программирования для ML, высокопроизводительный и обратно совместимый с Python (работает с библиотеками Python).

Может быть новый Kotlin, а может и не взлетит. Будем посмотреть, как говорится.

🔥 Про Mojo
📹 Видео-демо
🪪 TLDR видео

🔥45👍6❤3🤯2😱2😢1

6.09K viewsedited 14:56

AI для Всех

Ускоряем инференс моделей на cpu

Обычно я вам что-нибудь рассказываю, но в этот раз попрошу совета.

Расскажите пожалуйста про лучшие практики ускорения инференса обученной модели на cpu? И еще интересуют практики по распараллеливанию инференса

👍13❤1

5.3K viewsedited 16:55

AI для Всех

Google возможно работает над интеграцией Bard в Pixel

Журналисты из 9to5Google декомпилировали приложение виджета домашнего экрана для пикселей и нашли в нём строки, намекающие на интеграцию языковой модели Bard.

На данный момент не ясно, на что именно будет способен Bard и будет ли он вообще интегрирован, но на основе доступного кода журналисты делают вывод, что это будет больше чем просто чат бот для беседы.

10 мая пройдёт Google I/O, где помимо раскладного пикселя, могут быть анонсированы дополнительные детали.

Новость
@karray

🔥13👍6❤3😱3🤩1

5.01K views15:30

AI для Всех

Guanaco - Конкурс LLM

Денежный приз в размере $1 млн.
Стартует 10 июня 2023 года

Первый в мире открытый конкурс сообщества с оценками реальных пользователей. Предложите свою модель и сравните свой рейтинг с другими командами.

Запись в waitlist

🔥20❤1👍1

4.92K views20:55

AI для Всех

Каналы которые я сам читаю

Я читаю довольно много каналов, но позвольте поделиться несколькими которые мне прям нравятся:

@denissexy авторский канал который рассказывает про современные тренды в IT с шутками-прибаутками.

@polnybespilot еще один авторский канал, на этот раз про беспилотники. Там все самое свеженькое про то как и где покататься на беспилотном такси и как у них вообще дела.

@earth_climate_tech канал стенфордского выпускника, про то, как можно использовать нейросети в различном геоинжинеринге (например для разведки геотермальных ресурсов).

@unboxing_america авторский канал про другую сторону машинного обучения, а именно про жизнь в Сан Франциско. Порой совершенно неожиданные там вещи пишут.

А еще есть вот такая чудесная папочка (подписан на многих, но не на всех)

📂 Посмотреть каналы в подборке

❤11🔥4👍3

4.8K viewsedited 15:39

AI для Всех

Forwarded from Earth&Climate Tech

Иногда появляется ощущение, что жизнь вокруг ИИ происходит в режиме быстрой перемотки. Меньше месяца назад Мета выпустила SAM для сегментации любых объектов на изображении, но такое ощущение, что это было всегда. Только за последние 2 дня я уже прочитал около десятка документов, описывающих прототипы использования SAM для изучения недр.

Например, на первых двух картинках (из этого поста) - берем шлиф(срез породы) -> пропускаем через SAM -> выделяем все зерна пород -> автоматически получаем распределение размера зерен (гранулометрия).

На последней картинке я просто кликнул мышкой и выделил все пыльцевые зерна на изображении полученном с помощью электронного микроскопа. Автоматически выделенные зерна можно классифицировать и использовать палеотнологами для определения геологического возраста породы.

#machinelearning #Geo

🔥57👍9😱6🤯5

4.36K views17:42

AI для Всех

Дежа вю у моделей self-supervised learning (#SSL)

Еще одно исследование по SSL от Meta AI, где авторы исследуют проблему оверфиттинга SSL моделей, которую они называют Дежа вю. В исследование обсуждается риски связанные с тем, что SSL модели могут с высокой точностью извлекать или даже визуально реконструировать объекты из обучающей выборки только по фрагменту изображения (например, воду, небо, траву), что создает риски конфиденциальности для изображений с чувствительной информаций.

Дело в том, что для обучения SSL моделей чаще всего создают несколько представлений одного и того же изображения, используя аугментации (например, crop), где лосс минимизирует расстояние между эмбуддингами этих представлений (подробнее об SSL). Таким образом, эмбеддинг фона изображения может находиться близко к эмбеддингу интересующего нас объекта и, имея только фрагмент фона, можно идентифицировать целевой объект (в статье используют фрагмент озера в качестве фона и черного лебедя в качестве целевого объекта).

Поскольку SSL не требует никакой разметки, нет простого способа тестирования таких моделей, как например, Grad-CAM для supervised-learning. В статье авторы описывают способы идентификации оверфиттинга и предлагают набор техник для его минимизации.

📜 Сатья
🖥 Код
@karray

👍32❤5🔥5

4.85K viewsedited 08:01

AI для Всех

CLIP можно учить на ресурсах доступных людям.

CLIP, первая фундаментальная модель, связывающая изображения и текст, позволила совершить множество прорывов в компьютерном зрении (и не только в нем). Однако затраты на ее обучение непомерно высоки, что является серьезным препятствием для ее широкого применения.

В этой статье авторы представляют удивительный факт существования обратного закона масштабирования (inverse scaling law) для обучения CLIP, согласно которому чем больше размер энкодера изображения/текста, тем меньше длина последовательности токенов изображения/текста, которые можно использовать в обучении.

Более того, авторы показали, что стратегия сокращения длины последовательности токенов изображения/текста играет решающую роль в определении качества этого закона масштабирования.

Благодаря этому выводу исследователи показали как можно обучать CLIP даже с использованием академических ресурсов. Например, на сервере A100 с восемью графическими процессорами их модели CLIP zero-shot top-1 accuracy on ImageNet в 63,2% за ~2 дня, 67,8% за ~3 дня и 69,3% за ~4 дня.

Снизив вычислительный барьер, связанный с CLIP, авторы надеются вдохновить академические коллективы на дальнейшие исследования в этой области.

📇 Статья
🐙 Код

🔥37👍6❤3

5.27K viewsedited 01:12

AI для Всех

Ask Me Anything с организаторами Guanaco: LLM Competition

Как я уже писал ранее, стартап Chai Research организовывает хакатон с призовым фондом $1М. Хакатон будет происходить в несколько этапов: supervised finetuning, reward modeling, RLHF, etc.

В первом этапе, который начнётся 10ого июня участникам предстоит подготовить датасет и натренировать диалоговую модель для role-play (RPG-style) с помощью партнера соревнования together.xyz (авторы RedPajama).

Оценивать модели будут >1М активных пользователей приложения.

Так как по поводу соревнования возникло много вопросов, вот вам Ask me anything (AMA) с одним из разработчиков стартапа в комментариях.

Лёша (@goodimpression) готов ответить на любые вопросы:
- откуда столько денег?
- зачем проводить хакатон?
- кому принадлежат модели после сабмита?
- и другие

Оставляйте свои вопросы в комментариях, в течение суток вы получите на них ответы от @goodimpression.

🔥6❤1👍1

5.84K views16:00

AI для Всех

Forwarded from DLStories

Новая работа на тему реконструкции текста на основе сигналов МРТ головного мозга

Ребята из Техасского университета предложили новый метод реконструирования текста, который слышит человек, на основе МРТ-сигнала мозга. Причем декодирование происходит в связный текст, который семантически близок к реальному.

Как обычно, дислеймер: я мало понимаю в методах нейробиологии и том, как оценивать качество таких исследований. Также из-за этого не могу разобраться в некоторых нюансах работы. Если я где-то ошиблась, пишите об этом в комментарии.

Итак, задача реконструкции текста на основе сигналов головного мозга:

Задачу декодирования текста, которую слышит (или даже мысленно произносит) человек, пытались решать и раньше. Подходы тут делятся на два вида по тому, как извлекается сигнал из мозга. Первый вид — инвазивные методы извлечения сигнала. Это когда в голову человеку вживается чип, который считывает сигналы непосредственно с нейронов в мозга. Эти подходы, понятно, дорогие и сложные. Второй вид — неинвазивные методы извлечения сигнала, такие как МРТ, М/ЭЭГ. Эти подходы дешевле и проще, голову никому сверлить не надо.

Но у неинвазивных методов получения сигналов мозга есть большой недостаток. Когда человек подвергается какому-то стимулу (например, слышит слово), этот стимул влияет на показатели МРТ примерно в течение 10 секунд. Человек, который бегло говорит на английском языке, произносит примерно 2 слова в секунду. Получается, если записывать сигнал МРТ во время прослушивания английской речи, каждая МРТ-картинка будет содержать информацию об обработке мозгом примерно двадцати слов.

Из-за этого точно восстановить текст, который слышит человек, по МРТ не получается. И многие прошлые работы по теме восстановления текста по сигналам мозга, полученным неинвазивными методами, умели хорошо восстанавливать только отдельные слова и фразы.

А ребята из Техаса придумали, как по МРТ восстанавливать (почти) связный текст. Этот текст не будет точно таким же, что в реальности слышал человек. Но он будет семантически похож, т.е. будет отражать в целом правильный смысл.

Очень общая идея метода:
Сначала обучаем сеть-энкодер, которая учится по куску текста восстанавливать МРТ-картину могза, соответствующую этому куску текста. Затем берем предобученную языковую модель (например, GPT), и делаем следующее:
Каждые две секунды просим GPT сгенерировать несколько вариантов продолжения текста. Эти несколько вариантов подаем на вход сети-энкодеру, который по ним пытается обратно восстановить текущую МРТ-картину. Тот вариант текста, по которому удалось получить наиболее похожий на реальный МРТ-сигнал, считаем верным.

Таким нехитрым способом авторы получают (почти) связный текст по сигналам МРТ со смыслом, в основном отражающим смысл оригинала. Конечно, есть семантические ошибки, но статистически сгенерированные тексты по нескольким метрикам действительно ближе к оригиналу, чем случайный текст.

Вот пример:
Оригинал: I didn't know whether to scream cry or run away instead I said leave me alone I don't need your help adam disappeared and I cleaned up alone crying
Генерация: Started to scream and cry and then she just said I told you to leave me alone you can't hurt me anymore I'm sorry and then he stormed off thought he had left I started to cry

Если применить эту идею к воображаемой речи, а не к прослушиванию чужих записей, то у такой технологии будет масса применений. Авторы этой статьи даже провели эксперимент по реконструкции воображаемой речи. Опять же, полученные тексты оказались более близкими к оригиналам, чем случайные. Т.е. метод как-то работает.

А еще с помощью подобных моделей можно исследовать функции разных частей мозга. В этой работе МРТ сигнал брался с трез разных частей мозга, которые обрабатывают слышимую речь. Добавляя и убирая сигналы с разных частей мозга из входа модели, можно что-то понимать о том, какую часть информации обрабатывает какая часть мозга. А еще можно сравнивать реконструкции модели-энкодера на основе сигналов из разных частей.

📄 Статья
Инфу о ней прочитала у Дениса

🔥21👍9❤6😢2🤯1

4.68K views19:21

About

Blog

Apps

Platform