CLAP 👏 - как CLIP, но для звуков
Во-первых: контрастное обучение продемонстрировало значительный успех в области изучения мультимодальных представлений. В данной работе предлагается "язык-аудио" для создания аудиопредставлений путем объединения аудиоданных с описаниями на естественном языке. Для достижения этой цели авторы сначала выпустили LAION-Audio-630K, большую коллекцию из 633 526 аудио-текстовых пар из различных источников данных.
Во-вторых, они построили контрастную модель предварительного обучения "язык-аудио", рассматривая различные аудиокодеры и текстовые кодеры. Они включили в модель механизм слияния признаков и дополнения ключевых слов к подписям, что позволило модели обрабатывать аудиоданные различной длины и повысить производительность.
В-третьих, авторы оценивают модель в трех задачах: поиск текста по аудиозаписям, классификация аудиозаписей zero-shot и контролируемая классификация аудиозаписей.
Результаты показывают, что модель достигает превосходной производительности в задаче поиска текста по аудиозаписям. В задачах классификации аудио модель достигает передовой производительности в условиях zero-shot.
📕 Статья
🦑 Модель
Во-первых: контрастное обучение продемонстрировало значительный успех в области изучения мультимодальных представлений. В данной работе предлагается "язык-аудио" для создания аудиопредставлений путем объединения аудиоданных с описаниями на естественном языке. Для достижения этой цели авторы сначала выпустили LAION-Audio-630K, большую коллекцию из 633 526 аудио-текстовых пар из различных источников данных.
Во-вторых, они построили контрастную модель предварительного обучения "язык-аудио", рассматривая различные аудиокодеры и текстовые кодеры. Они включили в модель механизм слияния признаков и дополнения ключевых слов к подписям, что позволило модели обрабатывать аудиоданные различной длины и повысить производительность.
В-третьих, авторы оценивают модель в трех задачах: поиск текста по аудиозаписям, классификация аудиозаписей zero-shot и контролируемая классификация аудиозаписей.
Результаты показывают, что модель достигает превосходной производительности в задаче поиска текста по аудиозаписям. В задачах классификации аудио модель достигает передовой производительности в условиях zero-shot.
📕 Статья
🦑 Модель
🔥28👍6❤5
Forwarded from Сиолошная
Наш любимый HuggingFace 🤗 запускает свой ответ ChatGPT: HuggingChat 💬
В основе лежит затюненнаяя OpenAssistant фейсбучная LLAMA на 30B параметров, про которую я писал раньше. Она, кстати, уже доступна 3 дня как - прям самая большая и мощная, ага!
Доступно тут в привычном интерфейсе https://huggingface.co/chat/
На скриншоте - пример ответа модели на запрос создать игру "Змейка".
UPD: веб-приложение легло под натиском запросов, подождём (ну или можно запускать локально, хе-хе)
В основе лежит затюненнаяя OpenAssistant фейсбучная LLAMA на 30B параметров, про которую я писал раньше. Она, кстати, уже доступна 3 дня как - прям самая большая и мощная, ага!
Доступно тут в привычном интерфейсе https://huggingface.co/chat/
На скриншоте - пример ответа модели на запрос создать игру "Змейка".
UPD: веб-приложение легло под натиском запросов, подождём (ну или можно запускать локально, хе-хе)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25👍8❤6
Прорыв в области аугментации мультимодальных данных: LeMDA
Интеллектуальные системы предназначены для обучения на основе различных типов данных, таких как текст, аудио и изображения. Несмотря на то, что нейронные сети достигли больших успехов в использовании мультимодальных данных, методы аугментации данных (получение дополнительных данных из существующих) в основном ограничиваются одной модальностью за раз.
Аугментация данных для мультимодального обучения - задача сложная, поскольку трудно сохранить общий смысл при дополнении каждой модальности. Например, если каким-то случайным образом изменить изображение, подпись к нему может перестать его точно описывать. Кроме того, сложно придумать подходящие преобразования, которые работают для всех модальностей.
Авторы представляют LeMDA (Learning Multimodal Data Augmentation)! Этот простой в использовании метод автоматически учится дополнять мультимодальные данные в пространстве признаков (закодированное представление данных), без необходимости знать точные модальности или их взаимосвязи. LeMDA имеет три основных преимущества:
* Она значительно повышает производительность мультимодальных архитектур глубокого обучения.
* Она может применяться к комбинациям модальностей, которые ранее не рассматривались.
* Она достигает самых современных результатов в различных приложениях с изображениями, текстом и табличными данными.
LeMDA - это революционное решение для мультимодального дополнения данных, прокладывающее путь к созданию более надежных и универсальных интеллектуальных систем.
📕 Статья
🦑 Код
Интеллектуальные системы предназначены для обучения на основе различных типов данных, таких как текст, аудио и изображения. Несмотря на то, что нейронные сети достигли больших успехов в использовании мультимодальных данных, методы аугментации данных (получение дополнительных данных из существующих) в основном ограничиваются одной модальностью за раз.
Аугментация данных для мультимодального обучения - задача сложная, поскольку трудно сохранить общий смысл при дополнении каждой модальности. Например, если каким-то случайным образом изменить изображение, подпись к нему может перестать его точно описывать. Кроме того, сложно придумать подходящие преобразования, которые работают для всех модальностей.
Авторы представляют LeMDA (Learning Multimodal Data Augmentation)! Этот простой в использовании метод автоматически учится дополнять мультимодальные данные в пространстве признаков (закодированное представление данных), без необходимости знать точные модальности или их взаимосвязи. LeMDA имеет три основных преимущества:
* Она значительно повышает производительность мультимодальных архитектур глубокого обучения.
* Она может применяться к комбинациям модальностей, которые ранее не рассматривались.
* Она достигает самых современных результатов в различных приложениях с изображениями, текстом и табличными данными.
LeMDA - это революционное решение для мультимодального дополнения данных, прокладывающее путь к созданию более надежных и универсальных интеллектуальных систем.
📕 Статья
🦑 Код
❤17👍8🔥2
Stability AI запускает API для увеличения изображений
Компания Stability AI объявила о выпуске своего революционного API для увеличения изображений, который позволяет пользователям увеличивать размер любого изображения без ущерба для его резкости и детализации. Этот инновационный инструмент на базе ИИ станет ценным дополнением к набору API для создания и редактирования изображений.
API увеличения изображения использует две современные модели с открытым исходным кодом, Real-ESRGAN и Stable Diffusion 4x Upscaler. Теперь пользователи могут легко увеличивать изображения, независимо от того, созданы они с использованием Stability AI или нет, получая исключительные результаты.
🦾 Документация
🐕 Анонс
Компания Stability AI объявила о выпуске своего революционного API для увеличения изображений, который позволяет пользователям увеличивать размер любого изображения без ущерба для его резкости и детализации. Этот инновационный инструмент на базе ИИ станет ценным дополнением к набору API для создания и редактирования изображений.
API увеличения изображения использует две современные модели с открытым исходным кодом, Real-ESRGAN и Stable Diffusion 4x Upscaler. Теперь пользователи могут легко увеличивать изображения, независимо от того, созданы они с использованием Stability AI или нет, получая исключительные результаты.
🦾 Документация
🐕 Анонс
👍30🔥11❤4
Поваренная книга Self-supervised Learning (#SSL) от Meta.
Meta выпустили новую "Поваренную книгу самоконтролируемого обучения" - практическое руководство для исследователей и практиков ИИ о том, как сориентироваться в рецептах SSL (self-supervised learning), понять его различные “ручки и рычаги” и получить ноу-хау, необходимые для экспериментов с SSL.
Self-supervised learning (SSL), которое называют "темной материей интеллекта", является ключевым ингредиентом недавних прорывов в области ИИ.
Оно расширило границы глубокого обучения во многих областях, позволяя обучаться на огромных объемах немаркированных данных, а не полагаться на тщательно аннотированные наборы данных. Сегодня SSL лежит в основе передовых моделей для всех модальностей - язык (например, перевод и большие языковые модели), аудио (например, data2vec) и зрение (например, модель SEER, обученная на одном миллиарде изображений, и DINOv2).
Но обучение SSL похоже на приготовление изысканного блюда - это сложное искусство с высоким барьером для входа. Хотя многие ингредиенты могут быть знакомы, успешный рецепт SSL включает в себя головокружительный набор вариантов, от выбора правильных задач до обучения с тщательно подобранными и выдержанными гиперпараметрами.
Вы также найдете советы и рекомендации от более чем десятка авторов из различных университетов, включая Нью-Йоркский университет, Университет Мэриленда, Калифорнийский университет в Дэвисе, Университет Монреаля, а также ведущих исследователей Meta AI, таких как Янн ЛеКун.
📕 Книга
🐕 Анонс
Meta выпустили новую "Поваренную книгу самоконтролируемого обучения" - практическое руководство для исследователей и практиков ИИ о том, как сориентироваться в рецептах SSL (self-supervised learning), понять его различные “ручки и рычаги” и получить ноу-хау, необходимые для экспериментов с SSL.
Self-supervised learning (SSL), которое называют "темной материей интеллекта", является ключевым ингредиентом недавних прорывов в области ИИ.
Оно расширило границы глубокого обучения во многих областях, позволяя обучаться на огромных объемах немаркированных данных, а не полагаться на тщательно аннотированные наборы данных. Сегодня SSL лежит в основе передовых моделей для всех модальностей - язык (например, перевод и большие языковые модели), аудио (например, data2vec) и зрение (например, модель SEER, обученная на одном миллиарде изображений, и DINOv2).
Но обучение SSL похоже на приготовление изысканного блюда - это сложное искусство с высоким барьером для входа. Хотя многие ингредиенты могут быть знакомы, успешный рецепт SSL включает в себя головокружительный набор вариантов, от выбора правильных задач до обучения с тщательно подобранными и выдержанными гиперпараметрами.
Вы также найдете советы и рекомендации от более чем десятка авторов из различных университетов, включая Нью-Йоркский университет, Университет Мэриленда, Калифорнийский университет в Дэвисе, Университет Монреаля, а также ведущих исследователей Meta AI, таких как Янн ЛеКун.
📕 Книга
🐕 Анонс
👍35❤8🔥8
Media is too big
VIEW IN TELEGRAM
Wonder Dymanics демократизирует создание компьютерной графики в кино
Представьте, что вы хотите включить друга робота в свой киберпанк ютуб сериал. До сегодняшнего дня вы бы отказалась от идеи примерно сразу, потому что качественная работа по визуальным эффектам (VFX) обоходится в $20 000 за секунду. {Поэтому реалистичные анимированные персонажи остаются прерогативой высокобюджетных проектов}
Из чего складывается эта сумма. Самый первый шаг - сделать модель, текстуры самого персонажа. Если не хотите анимировать его вручную, вам понадобится студия захвата движения или съемочное оборудование, отражающие шары, зеленые экраны и всякое такое. Из них к каркасу компьютерной графики необходимо применить примитивы движения, а актера заменить персонажем. Интегрированная в сцену 3D-модель должна соответствовать направлению и цвету освещения, оттенку и зернистости пленки и многому другому. Это много ресурсов и дней работы.
Wonder Dynamics стремится изменить это с помощью web платформы, которая позволяет создателям буквально перетаскивать персонажа компьютерной графики в любую сцену, как если бы он был профессионально снят и отредактирован.
Звучит многообещающе, надо поиграться: +1 пункт вейтлистов.
🖥 Присоединиться к закрытому бета-тестированию здесь
▶️ Посмотреть на красивое
🗞 Почитать статью на techcrunch
@GingerSpacetail
Представьте, что вы хотите включить друга робота в свой киберпанк ютуб сериал. До сегодняшнего дня вы бы отказалась от идеи примерно сразу, потому что качественная работа по визуальным эффектам (VFX) обоходится в $20 000 за секунду. {Поэтому реалистичные анимированные персонажи остаются прерогативой высокобюджетных проектов}
Из чего складывается эта сумма. Самый первый шаг - сделать модель, текстуры самого персонажа. Если не хотите анимировать его вручную, вам понадобится студия захвата движения или съемочное оборудование, отражающие шары, зеленые экраны и всякое такое. Из них к каркасу компьютерной графики необходимо применить примитивы движения, а актера заменить персонажем. Интегрированная в сцену 3D-модель должна соответствовать направлению и цвету освещения, оттенку и зернистости пленки и многому другому. Это много ресурсов и дней работы.
Wonder Dynamics стремится изменить это с помощью web платформы, которая позволяет создателям буквально перетаскивать персонажа компьютерной графики в любую сцену, как если бы он был профессионально снят и отредактирован.
Звучит многообещающе, надо поиграться: +1 пункт вейтлистов.
🗞 Почитать статью на techcrunch
@GingerSpacetail
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥38❤5👍3😱3
This media is not supported in your browser
VIEW IN TELEGRAM
WhaleGPT 🐋
Сможет ли ИИ нам помочь разговаривать с китами?
Киты, как и люди, являются социальными существами со сложной системой коммуникации. Их общение состоит из коротких кликов и щелчков, которые используются для различных целей.
Исследователи обратились к искусственному интеллекту (ИИ), чтобы помочь расшифровать язык китов. Проект CETI (Cetacean Translation Initiative) направлен на использование ИИ и методов машинного обучения для анализа и перевода общения китов. Используя передовые методы обработки естественного языка, ученые надеются понять грамматику и смысл издаваемых звуков.
Для достижения этой цели необходимо больше данных. CETI планирует использовать различные технологии, такие как буйковые решетки, записывающие устройства, прикрепленные к китам, водные дроны и воздушные дроны, для сбора аудио- и видеозаписей поведения и общения китов. Собранные данные будут обработаны и проанализированы алгоритмами машинного обучения для обнаружения и классификации коды китов.
Цель проекта CETI - не только понять язык китов, но и общаться с ними. Поскольку исследователи продолжают изучать глубины общения китов, остается только гадать, что думают эти величественные существа о наших начинаниях и сможем ли мы когда-нибудь спросить их об этом.
Видео снял мой друг вчера в Monterey Bay
Ссылка
Сможет ли ИИ нам помочь разговаривать с китами?
Киты, как и люди, являются социальными существами со сложной системой коммуникации. Их общение состоит из коротких кликов и щелчков, которые используются для различных целей.
Исследователи обратились к искусственному интеллекту (ИИ), чтобы помочь расшифровать язык китов. Проект CETI (Cetacean Translation Initiative) направлен на использование ИИ и методов машинного обучения для анализа и перевода общения китов. Используя передовые методы обработки естественного языка, ученые надеются понять грамматику и смысл издаваемых звуков.
Для достижения этой цели необходимо больше данных. CETI планирует использовать различные технологии, такие как буйковые решетки, записывающие устройства, прикрепленные к китам, водные дроны и воздушные дроны, для сбора аудио- и видеозаписей поведения и общения китов. Собранные данные будут обработаны и проанализированы алгоритмами машинного обучения для обнаружения и классификации коды китов.
Цель проекта CETI - не только понять язык китов, но и общаться с ними. Поскольку исследователи продолжают изучать глубины общения китов, остается только гадать, что думают эти величественные существа о наших начинаниях и сможем ли мы когда-нибудь спросить их об этом.
Видео снял мой друг вчера в Monterey Bay
Ссылка
❤54🔥16🤩4😱3👍2
Связь между self-supervised learning и теорией информации
ИИ может делать удивительные вещи, но ему обычно требуется много помеченных данных. На помощь приходит self-supervised learning (#SSL) - способ, позволяющий ИИ обучаться без меток. В новой статье Яна Лекуна и Равида Швартца авторы глубоко погружаются в мир self-supervised learning и теории информации.
При supervised learning обучении мы сохраняем полезную информацию и выкидываем все остальное. Но в случае self-supervised обучения все сложнее: как сильно мы должны сжать данные, чтобы обучение было эффективным?
Для ответа на этот вопрос необходимо найти баланс между сжатием и максимизацией информации. Авторы вводят "предположение о многоракурсности", чтобы помочь справиться с этой проблемой.
В статье рассматриваются:
* пересечение теории информации, self-supervised learning и глубоких нейронных сетей.
* Единая структура для понимания self-supervised learning
* Роль предположения о многоракурсности и его ограничения
* Современные алгоритмы self-supervised learning
* Измерение информации в нейронных сетях
📕 Статья
ИИ может делать удивительные вещи, но ему обычно требуется много помеченных данных. На помощь приходит self-supervised learning (#SSL) - способ, позволяющий ИИ обучаться без меток. В новой статье Яна Лекуна и Равида Швартца авторы глубоко погружаются в мир self-supervised learning и теории информации.
При supervised learning обучении мы сохраняем полезную информацию и выкидываем все остальное. Но в случае self-supervised обучения все сложнее: как сильно мы должны сжать данные, чтобы обучение было эффективным?
Для ответа на этот вопрос необходимо найти баланс между сжатием и максимизацией информации. Авторы вводят "предположение о многоракурсности", чтобы помочь справиться с этой проблемой.
В статье рассматриваются:
* пересечение теории информации, self-supervised learning и глубоких нейронных сетей.
* Единая структура для понимания self-supervised learning
* Роль предположения о многоракурсности и его ограничения
* Современные алгоритмы self-supervised learning
* Измерение информации в нейронных сетях
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24👍4❤1😢1
Mojo - новый язык программирования для ML
Крис Латтнер, известный по LLVM и Swift, только что анонсировал новый язык программирования для ML, высокопроизводительный и обратно совместимый с Python (работает с библиотеками Python).
Может быть новый Kotlin, а может и не взлетит. Будем посмотреть, как говорится.
🔥 Про Mojo
📹 Видео-демо
🪪 TLDR видео
Крис Латтнер, известный по LLVM и Swift, только что анонсировал новый язык программирования для ML, высокопроизводительный и обратно совместимый с Python (работает с библиотеками Python).
Может быть новый Kotlin, а может и не взлетит. Будем посмотреть, как говорится.
🔥 Про Mojo
📹 Видео-демо
🪪 TLDR видео
🔥45👍6❤3🤯2😱2😢1
Google возможно работает над интеграцией Bard в Pixel
Журналисты из 9to5Google декомпилировали приложение виджета домашнего экрана для пикселей и нашли в нём строки, намекающие на интеграцию языковой модели Bard.
На данный момент не ясно, на что именно будет способен Bard и будет ли он вообще интегрирован, но на основе доступного кода журналисты делают вывод, что это будет больше чем просто чат бот для беседы.
10 мая пройдёт Google I/O, где помимо раскладного пикселя, могут быть анонсированы дополнительные детали.
Новость
@karray
Журналисты из 9to5Google декомпилировали приложение виджета домашнего экрана для пикселей и нашли в нём строки, намекающие на интеграцию языковой модели Bard.
На данный момент не ясно, на что именно будет способен Bard и будет ли он вообще интегрирован, но на основе доступного кода журналисты делают вывод, что это будет больше чем просто чат бот для беседы.
10 мая пройдёт Google I/O, где помимо раскладного пикселя, могут быть анонсированы дополнительные детали.
Новость
@karray
🔥13👍6❤3😱3🤩1
Guanaco - Конкурс LLM
Денежный приз в размере $1 млн.
Стартует 10 июня 2023 года
Первый в мире открытый конкурс сообщества с оценками реальных пользователей. Предложите свою модель и сравните свой рейтинг с другими командами.
Запись в waitlist
Денежный приз в размере $1 млн.
Стартует 10 июня 2023 года
Первый в мире открытый конкурс сообщества с оценками реальных пользователей. Предложите свою модель и сравните свой рейтинг с другими командами.
Запись в waitlist
🔥20❤1👍1
Каналы которые я сам читаю
Я читаю довольно много каналов, но позвольте поделиться несколькими которые мне прям нравятся:
@denissexy авторский канал который рассказывает про современные тренды в IT с шутками-прибаутками.
@polnybespilot еще один авторский канал, на этот раз про беспилотники. Там все самое свеженькое про то как и где покататься на беспилотном такси и как у них вообще дела.
@earth_climate_tech канал стенфордского выпускника, про то, как можно использовать нейросети в различном геоинжинеринге (например для разведки геотермальных ресурсов).
@unboxing_america авторский канал про другую сторону машинного обучения, а именно про жизнь в Сан Франциско. Порой совершенно неожиданные там вещи пишут.
А еще есть вот такая чудесная папочка (подписан на многих, но не на всех)
📂 Посмотреть каналы в подборке
Я читаю довольно много каналов, но позвольте поделиться несколькими которые мне прям нравятся:
@denissexy авторский канал который рассказывает про современные тренды в IT с шутками-прибаутками.
@polnybespilot еще один авторский канал, на этот раз про беспилотники. Там все самое свеженькое про то как и где покататься на беспилотном такси и как у них вообще дела.
@earth_climate_tech канал стенфордского выпускника, про то, как можно использовать нейросети в различном геоинжинеринге (например для разведки геотермальных ресурсов).
@unboxing_america авторский канал про другую сторону машинного обучения, а именно про жизнь в Сан Франциско. Порой совершенно неожиданные там вещи пишут.
А еще есть вот такая чудесная папочка (подписан на многих, но не на всех)
📂 Посмотреть каналы в подборке
❤11🔥4👍3
Forwarded from Earth&Climate Tech
Иногда появляется ощущение, что жизнь вокруг ИИ происходит в режиме быстрой перемотки. Меньше месяца назад Мета выпустила SAM для сегментации любых объектов на изображении, но такое ощущение, что это было всегда. Только за последние 2 дня я уже прочитал около десятка документов, описывающих прототипы использования SAM для изучения недр.
Например, на первых двух картинках (из этого поста) - берем шлиф(срез породы) -> пропускаем через SAM -> выделяем все зерна пород -> автоматически получаем распределение размера зерен (гранулометрия).
На последней картинке я просто кликнул мышкой и выделил все пыльцевые зерна на изображении полученном с помощью электронного микроскопа. Автоматически выделенные зерна можно классифицировать и использовать палеотнологами для определения геологического возраста породы.
#machinelearning #Geo
Например, на первых двух картинках (из этого поста) - берем шлиф(срез породы) -> пропускаем через SAM -> выделяем все зерна пород -> автоматически получаем распределение размера зерен (гранулометрия).
На последней картинке я просто кликнул мышкой и выделил все пыльцевые зерна на изображении полученном с помощью электронного микроскопа. Автоматически выделенные зерна можно классифицировать и использовать палеотнологами для определения геологического возраста породы.
#machinelearning #Geo
🔥57👍9😱6🤯5
Дежа вю у моделей self-supervised learning (#SSL)
Еще одно исследование по SSL от Meta AI, где авторы исследуют проблему оверфиттинга SSL моделей, которую они называют Дежа вю. В исследование обсуждается риски связанные с тем, что SSL модели могут с высокой точностью извлекать или даже визуально реконструировать объекты из обучающей выборки только по фрагменту изображения (например, воду, небо, траву), что создает риски конфиденциальности для изображений с чувствительной информаций.
Дело в том, что для обучения SSL моделей чаще всего создают несколько представлений одного и того же изображения, используя аугментации (например, crop), где лосс минимизирует расстояние между эмбуддингами этих представлений (подробнее об SSL). Таким образом, эмбеддинг фона изображения может находиться близко к эмбеддингу интересующего нас объекта и, имея только фрагмент фона, можно идентифицировать целевой объект (в статье используют фрагмент озера в качестве фона и черного лебедя в качестве целевого объекта).
Поскольку SSL не требует никакой разметки, нет простого способа тестирования таких моделей, как например, Grad-CAM для supervised-learning. В статье авторы описывают способы идентификации оверфиттинга и предлагают набор техник для его минимизации.
📜 Сатья
🖥 Код
@karray
Еще одно исследование по SSL от Meta AI, где авторы исследуют проблему оверфиттинга SSL моделей, которую они называют Дежа вю. В исследование обсуждается риски связанные с тем, что SSL модели могут с высокой точностью извлекать или даже визуально реконструировать объекты из обучающей выборки только по фрагменту изображения (например, воду, небо, траву), что создает риски конфиденциальности для изображений с чувствительной информаций.
Дело в том, что для обучения SSL моделей чаще всего создают несколько представлений одного и того же изображения, используя аугментации (например, crop), где лосс минимизирует расстояние между эмбуддингами этих представлений (подробнее об SSL). Таким образом, эмбеддинг фона изображения может находиться близко к эмбеддингу интересующего нас объекта и, имея только фрагмент фона, можно идентифицировать целевой объект (в статье используют фрагмент озера в качестве фона и черного лебедя в качестве целевого объекта).
Поскольку SSL не требует никакой разметки, нет простого способа тестирования таких моделей, как например, Grad-CAM для supervised-learning. В статье авторы описывают способы идентификации оверфиттинга и предлагают набор техник для его минимизации.
📜 Сатья
🖥 Код
@karray
👍32❤5🔥5
CLIP можно учить на ресурсах доступных людям.
CLIP, первая фундаментальная модель, связывающая изображения и текст, позволила совершить множество прорывов в компьютерном зрении (и не только в нем). Однако затраты на ее обучение непомерно высоки, что является серьезным препятствием для ее широкого применения.
В этой статье авторы представляют удивительный факт существования обратного закона масштабирования (inverse scaling law) для обучения CLIP, согласно которому чем больше размер энкодера изображения/текста, тем меньше длина последовательности токенов изображения/текста, которые можно использовать в обучении.
Более того, авторы показали, что стратегия сокращения длины последовательности токенов изображения/текста играет решающую роль в определении качества этого закона масштабирования.
Благодаря этому выводу исследователи показали как можно обучать CLIP даже с использованием академических ресурсов. Например, на сервере A100 с восемью графическими процессорами их модели CLIP zero-shot top-1 accuracy on ImageNet в 63,2% за ~2 дня, 67,8% за ~3 дня и 69,3% за ~4 дня.
Снизив вычислительный барьер, связанный с CLIP, авторы надеются вдохновить академические коллективы на дальнейшие исследования в этой области.
📇 Статья
🐙 Код
CLIP, первая фундаментальная модель, связывающая изображения и текст, позволила совершить множество прорывов в компьютерном зрении (и не только в нем). Однако затраты на ее обучение непомерно высоки, что является серьезным препятствием для ее широкого применения.
В этой статье авторы представляют удивительный факт существования обратного закона масштабирования (inverse scaling law) для обучения CLIP, согласно которому чем больше размер энкодера изображения/текста, тем меньше длина последовательности токенов изображения/текста, которые можно использовать в обучении.
Более того, авторы показали, что стратегия сокращения длины последовательности токенов изображения/текста играет решающую роль в определении качества этого закона масштабирования.
Благодаря этому выводу исследователи показали как можно обучать CLIP даже с использованием академических ресурсов. Например, на сервере A100 с восемью графическими процессорами их модели CLIP zero-shot top-1 accuracy on ImageNet в 63,2% за ~2 дня, 67,8% за ~3 дня и 69,3% за ~4 дня.
Снизив вычислительный барьер, связанный с CLIP, авторы надеются вдохновить академические коллективы на дальнейшие исследования в этой области.
📇 Статья
🐙 Код
🔥37👍6❤3
Ask Me Anything с организаторами Guanaco: LLM Competition
Как я уже писал ранее, стартап Chai Research организовывает хакатон с призовым фондом $1М. Хакатон будет происходить в несколько этапов: supervised finetuning, reward modeling, RLHF, etc.
В первом этапе, который начнётся 10ого июня участникам предстоит подготовить датасет и натренировать диалоговую модель для role-play (RPG-style) с помощью партнера соревнования together.xyz (авторы RedPajama).
Оценивать модели будут >1М активных пользователей приложения.
Так как по поводу соревнования возникло много вопросов, вот вам Ask me anything (AMA) с одним из разработчиков стартапа в комментариях.
Лёша (@goodimpression) готов ответить на любые вопросы:
- откуда столько денег?
- зачем проводить хакатон?
- кому принадлежат модели после сабмита?
- и другие
Оставляйте свои вопросы в комментариях, в течение суток вы получите на них ответы от @goodimpression.
Как я уже писал ранее, стартап Chai Research организовывает хакатон с призовым фондом $1М. Хакатон будет происходить в несколько этапов: supervised finetuning, reward modeling, RLHF, etc.
В первом этапе, который начнётся 10ого июня участникам предстоит подготовить датасет и натренировать диалоговую модель для role-play (RPG-style) с помощью партнера соревнования together.xyz (авторы RedPajama).
Оценивать модели будут >1М активных пользователей приложения.
Так как по поводу соревнования возникло много вопросов, вот вам Ask me anything (AMA) с одним из разработчиков стартапа в комментариях.
Лёша (@goodimpression) готов ответить на любые вопросы:
- откуда столько денег?
- зачем проводить хакатон?
- кому принадлежат модели после сабмита?
- и другие
Оставляйте свои вопросы в комментариях, в течение суток вы получите на них ответы от @goodimpression.
🔥6❤1👍1
Forwarded from DLStories
Новая работа на тему реконструкции текста на основе сигналов МРТ головного мозга
Ребята из Техасского университета предложили новый метод реконструирования текста, который слышит человек, на основе МРТ-сигнала мозга. Причем декодирование происходит в связный текст, который семантически близок к реальному.
Как обычно, дислеймер: я мало понимаю в методах нейробиологии и том, как оценивать качество таких исследований. Также из-за этого не могу разобраться в некоторых нюансах работы. Если я где-то ошиблась, пишите об этом в комментарии.
Итак, задача реконструкции текста на основе сигналов головного мозга:
Задачу декодирования текста, которую слышит (или даже мысленно произносит) человек, пытались решать и раньше. Подходы тут делятся на два вида по тому, как извлекается сигнал из мозга. Первый вид — инвазивные методы извлечения сигнала. Это когда в голову человеку вживается чип, который считывает сигналы непосредственно с нейронов в мозга. Эти подходы, понятно, дорогие и сложные. Второй вид — неинвазивные методы извлечения сигнала, такие как МРТ, М/ЭЭГ. Эти подходы дешевле и проще, голову никому сверлить не надо.
Но у неинвазивных методов получения сигналов мозга есть большой недостаток. Когда человек подвергается какому-то стимулу (например, слышит слово), этот стимул влияет на показатели МРТ примерно в течение 10 секунд. Человек, который бегло говорит на английском языке, произносит примерно 2 слова в секунду. Получается, если записывать сигнал МРТ во время прослушивания английской речи, каждая МРТ-картинка будет содержать информацию об обработке мозгом примерно двадцати слов.
Из-за этого точно восстановить текст, который слышит человек, по МРТ не получается. И многие прошлые работы по теме восстановления текста по сигналам мозга, полученным неинвазивными методами, умели хорошо восстанавливать только отдельные слова и фразы.
А ребята из Техаса придумали, как по МРТ восстанавливать (почти) связный текст. Этот текст не будет точно таким же, что в реальности слышал человек. Но он будет семантически похож, т.е. будет отражать в целом правильный смысл.
Очень общая идея метода:
Сначала обучаем сеть-энкодер, которая учится по куску текста восстанавливать МРТ-картину могза, соответствующую этому куску текста. Затем берем предобученную языковую модель (например, GPT), и делаем следующее:
Каждые две секунды просим GPT сгенерировать несколько вариантов продолжения текста. Эти несколько вариантов подаем на вход сети-энкодеру, который по ним пытается обратно восстановить текущую МРТ-картину. Тот вариант текста, по которому удалось получить наиболее похожий на реальный МРТ-сигнал, считаем верным.
Таким нехитрым способом авторы получают (почти) связный текст по сигналам МРТ со смыслом, в основном отражающим смысл оригинала. Конечно, есть семантические ошибки, но статистически сгенерированные тексты по нескольким метрикам действительно ближе к оригиналу, чем случайный текст.
Вот пример:
Оригинал: I didn't know whether to scream cry or run away instead I said leave me alone I don't need your help adam disappeared and I cleaned up alone crying
Генерация: Started to scream and cry and then she just said I told you to leave me alone you can't hurt me anymore I'm sorry and then he stormed off thought he had left I started to cry
Если применить эту идею к воображаемой речи, а не к прослушиванию чужих записей, то у такой технологии будет масса применений. Авторы этой статьи даже провели эксперимент по реконструкции воображаемой речи. Опять же, полученные тексты оказались более близкими к оригиналам, чем случайные. Т.е. метод как-то работает.
А еще с помощью подобных моделей можно исследовать функции разных частей мозга. В этой работе МРТ сигнал брался с трез разных частей мозга, которые обрабатывают слышимую речь. Добавляя и убирая сигналы с разных частей мозга из входа модели, можно что-то понимать о том, какую часть информации обрабатывает какая часть мозга. А еще можно сравнивать реконструкции модели-энкодера на основе сигналов из разных частей.
📄 Статья
Инфу о ней прочитала у Дениса
Ребята из Техасского университета предложили новый метод реконструирования текста, который слышит человек, на основе МРТ-сигнала мозга. Причем декодирование происходит в связный текст, который семантически близок к реальному.
Как обычно, дислеймер: я мало понимаю в методах нейробиологии и том, как оценивать качество таких исследований. Также из-за этого не могу разобраться в некоторых нюансах работы. Если я где-то ошиблась, пишите об этом в комментарии.
Итак, задача реконструкции текста на основе сигналов головного мозга:
Задачу декодирования текста, которую слышит (или даже мысленно произносит) человек, пытались решать и раньше. Подходы тут делятся на два вида по тому, как извлекается сигнал из мозга. Первый вид — инвазивные методы извлечения сигнала. Это когда в голову человеку вживается чип, который считывает сигналы непосредственно с нейронов в мозга. Эти подходы, понятно, дорогие и сложные. Второй вид — неинвазивные методы извлечения сигнала, такие как МРТ, М/ЭЭГ. Эти подходы дешевле и проще, голову никому сверлить не надо.
Но у неинвазивных методов получения сигналов мозга есть большой недостаток. Когда человек подвергается какому-то стимулу (например, слышит слово), этот стимул влияет на показатели МРТ примерно в течение 10 секунд. Человек, который бегло говорит на английском языке, произносит примерно 2 слова в секунду. Получается, если записывать сигнал МРТ во время прослушивания английской речи, каждая МРТ-картинка будет содержать информацию об обработке мозгом примерно двадцати слов.
Из-за этого точно восстановить текст, который слышит человек, по МРТ не получается. И многие прошлые работы по теме восстановления текста по сигналам мозга, полученным неинвазивными методами, умели хорошо восстанавливать только отдельные слова и фразы.
А ребята из Техаса придумали, как по МРТ восстанавливать (почти) связный текст. Этот текст не будет точно таким же, что в реальности слышал человек. Но он будет семантически похож, т.е. будет отражать в целом правильный смысл.
Очень общая идея метода:
Сначала обучаем сеть-энкодер, которая учится по куску текста восстанавливать МРТ-картину могза, соответствующую этому куску текста. Затем берем предобученную языковую модель (например, GPT), и делаем следующее:
Каждые две секунды просим GPT сгенерировать несколько вариантов продолжения текста. Эти несколько вариантов подаем на вход сети-энкодеру, который по ним пытается обратно восстановить текущую МРТ-картину. Тот вариант текста, по которому удалось получить наиболее похожий на реальный МРТ-сигнал, считаем верным.
Таким нехитрым способом авторы получают (почти) связный текст по сигналам МРТ со смыслом, в основном отражающим смысл оригинала. Конечно, есть семантические ошибки, но статистически сгенерированные тексты по нескольким метрикам действительно ближе к оригиналу, чем случайный текст.
Вот пример:
Оригинал: I didn't know whether to scream cry or run away instead I said leave me alone I don't need your help adam disappeared and I cleaned up alone crying
Генерация: Started to scream and cry and then she just said I told you to leave me alone you can't hurt me anymore I'm sorry and then he stormed off thought he had left I started to cry
Если применить эту идею к воображаемой речи, а не к прослушиванию чужих записей, то у такой технологии будет масса применений. Авторы этой статьи даже провели эксперимент по реконструкции воображаемой речи. Опять же, полученные тексты оказались более близкими к оригиналам, чем случайные. Т.е. метод как-то работает.
А еще с помощью подобных моделей можно исследовать функции разных частей мозга. В этой работе МРТ сигнал брался с трез разных частей мозга, которые обрабатывают слышимую речь. Добавляя и убирая сигналы с разных частей мозга из входа модели, можно что-то понимать о том, какую часть информации обрабатывает какая часть мозга. А еще можно сравнивать реконструкции модели-энкодера на основе сигналов из разных частей.
📄 Статья
Инфу о ней прочитала у Дениса
🔥21👍9❤6😢2🤯1