Связь между self-supervised learning и теорией информации
ИИ может делать удивительные вещи, но ему обычно требуется много помеченных данных. На помощь приходит self-supervised learning (#SSL) - способ, позволяющий ИИ обучаться без меток. В новой статье Яна Лекуна и Равида Швартца авторы глубоко погружаются в мир self-supervised learning и теории информации.
При supervised learning обучении мы сохраняем полезную информацию и выкидываем все остальное. Но в случае self-supervised обучения все сложнее: как сильно мы должны сжать данные, чтобы обучение было эффективным?
Для ответа на этот вопрос необходимо найти баланс между сжатием и максимизацией информации. Авторы вводят "предположение о многоракурсности", чтобы помочь справиться с этой проблемой.
В статье рассматриваются:
* пересечение теории информации, self-supervised learning и глубоких нейронных сетей.
* Единая структура для понимания self-supervised learning
* Роль предположения о многоракурсности и его ограничения
* Современные алгоритмы self-supervised learning
* Измерение информации в нейронных сетях
📕 Статья
ИИ может делать удивительные вещи, но ему обычно требуется много помеченных данных. На помощь приходит self-supervised learning (#SSL) - способ, позволяющий ИИ обучаться без меток. В новой статье Яна Лекуна и Равида Швартца авторы глубоко погружаются в мир self-supervised learning и теории информации.
При supervised learning обучении мы сохраняем полезную информацию и выкидываем все остальное. Но в случае self-supervised обучения все сложнее: как сильно мы должны сжать данные, чтобы обучение было эффективным?
Для ответа на этот вопрос необходимо найти баланс между сжатием и максимизацией информации. Авторы вводят "предположение о многоракурсности", чтобы помочь справиться с этой проблемой.
В статье рассматриваются:
* пересечение теории информации, self-supervised learning и глубоких нейронных сетей.
* Единая структура для понимания self-supervised learning
* Роль предположения о многоракурсности и его ограничения
* Современные алгоритмы self-supervised learning
* Измерение информации в нейронных сетях
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24👍4❤1😢1
Mojo - новый язык программирования для ML
Крис Латтнер, известный по LLVM и Swift, только что анонсировал новый язык программирования для ML, высокопроизводительный и обратно совместимый с Python (работает с библиотеками Python).
Может быть новый Kotlin, а может и не взлетит. Будем посмотреть, как говорится.
🔥 Про Mojo
📹 Видео-демо
🪪 TLDR видео
Крис Латтнер, известный по LLVM и Swift, только что анонсировал новый язык программирования для ML, высокопроизводительный и обратно совместимый с Python (работает с библиотеками Python).
Может быть новый Kotlin, а может и не взлетит. Будем посмотреть, как говорится.
🔥 Про Mojo
📹 Видео-демо
🪪 TLDR видео
🔥45👍6❤3🤯2😱2😢1
Google возможно работает над интеграцией Bard в Pixel
Журналисты из 9to5Google декомпилировали приложение виджета домашнего экрана для пикселей и нашли в нём строки, намекающие на интеграцию языковой модели Bard.
На данный момент не ясно, на что именно будет способен Bard и будет ли он вообще интегрирован, но на основе доступного кода журналисты делают вывод, что это будет больше чем просто чат бот для беседы.
10 мая пройдёт Google I/O, где помимо раскладного пикселя, могут быть анонсированы дополнительные детали.
Новость
@karray
Журналисты из 9to5Google декомпилировали приложение виджета домашнего экрана для пикселей и нашли в нём строки, намекающие на интеграцию языковой модели Bard.
На данный момент не ясно, на что именно будет способен Bard и будет ли он вообще интегрирован, но на основе доступного кода журналисты делают вывод, что это будет больше чем просто чат бот для беседы.
10 мая пройдёт Google I/O, где помимо раскладного пикселя, могут быть анонсированы дополнительные детали.
Новость
@karray
🔥13👍6❤3😱3🤩1
Guanaco - Конкурс LLM
Денежный приз в размере $1 млн.
Стартует 10 июня 2023 года
Первый в мире открытый конкурс сообщества с оценками реальных пользователей. Предложите свою модель и сравните свой рейтинг с другими командами.
Запись в waitlist
Денежный приз в размере $1 млн.
Стартует 10 июня 2023 года
Первый в мире открытый конкурс сообщества с оценками реальных пользователей. Предложите свою модель и сравните свой рейтинг с другими командами.
Запись в waitlist
🔥20❤1👍1
Каналы которые я сам читаю
Я читаю довольно много каналов, но позвольте поделиться несколькими которые мне прям нравятся:
@denissexy авторский канал который рассказывает про современные тренды в IT с шутками-прибаутками.
@polnybespilot еще один авторский канал, на этот раз про беспилотники. Там все самое свеженькое про то как и где покататься на беспилотном такси и как у них вообще дела.
@earth_climate_tech канал стенфордского выпускника, про то, как можно использовать нейросети в различном геоинжинеринге (например для разведки геотермальных ресурсов).
@unboxing_america авторский канал про другую сторону машинного обучения, а именно про жизнь в Сан Франциско. Порой совершенно неожиданные там вещи пишут.
А еще есть вот такая чудесная папочка (подписан на многих, но не на всех)
📂 Посмотреть каналы в подборке
Я читаю довольно много каналов, но позвольте поделиться несколькими которые мне прям нравятся:
@denissexy авторский канал который рассказывает про современные тренды в IT с шутками-прибаутками.
@polnybespilot еще один авторский канал, на этот раз про беспилотники. Там все самое свеженькое про то как и где покататься на беспилотном такси и как у них вообще дела.
@earth_climate_tech канал стенфордского выпускника, про то, как можно использовать нейросети в различном геоинжинеринге (например для разведки геотермальных ресурсов).
@unboxing_america авторский канал про другую сторону машинного обучения, а именно про жизнь в Сан Франциско. Порой совершенно неожиданные там вещи пишут.
А еще есть вот такая чудесная папочка (подписан на многих, но не на всех)
📂 Посмотреть каналы в подборке
❤11🔥4👍3
Forwarded from Earth&Climate Tech
Иногда появляется ощущение, что жизнь вокруг ИИ происходит в режиме быстрой перемотки. Меньше месяца назад Мета выпустила SAM для сегментации любых объектов на изображении, но такое ощущение, что это было всегда. Только за последние 2 дня я уже прочитал около десятка документов, описывающих прототипы использования SAM для изучения недр.
Например, на первых двух картинках (из этого поста) - берем шлиф(срез породы) -> пропускаем через SAM -> выделяем все зерна пород -> автоматически получаем распределение размера зерен (гранулометрия).
На последней картинке я просто кликнул мышкой и выделил все пыльцевые зерна на изображении полученном с помощью электронного микроскопа. Автоматически выделенные зерна можно классифицировать и использовать палеотнологами для определения геологического возраста породы.
#machinelearning #Geo
Например, на первых двух картинках (из этого поста) - берем шлиф(срез породы) -> пропускаем через SAM -> выделяем все зерна пород -> автоматически получаем распределение размера зерен (гранулометрия).
На последней картинке я просто кликнул мышкой и выделил все пыльцевые зерна на изображении полученном с помощью электронного микроскопа. Автоматически выделенные зерна можно классифицировать и использовать палеотнологами для определения геологического возраста породы.
#machinelearning #Geo
🔥57👍9😱6🤯5
Дежа вю у моделей self-supervised learning (#SSL)
Еще одно исследование по SSL от Meta AI, где авторы исследуют проблему оверфиттинга SSL моделей, которую они называют Дежа вю. В исследование обсуждается риски связанные с тем, что SSL модели могут с высокой точностью извлекать или даже визуально реконструировать объекты из обучающей выборки только по фрагменту изображения (например, воду, небо, траву), что создает риски конфиденциальности для изображений с чувствительной информаций.
Дело в том, что для обучения SSL моделей чаще всего создают несколько представлений одного и того же изображения, используя аугментации (например, crop), где лосс минимизирует расстояние между эмбуддингами этих представлений (подробнее об SSL). Таким образом, эмбеддинг фона изображения может находиться близко к эмбеддингу интересующего нас объекта и, имея только фрагмент фона, можно идентифицировать целевой объект (в статье используют фрагмент озера в качестве фона и черного лебедя в качестве целевого объекта).
Поскольку SSL не требует никакой разметки, нет простого способа тестирования таких моделей, как например, Grad-CAM для supervised-learning. В статье авторы описывают способы идентификации оверфиттинга и предлагают набор техник для его минимизации.
📜 Сатья
🖥 Код
@karray
Еще одно исследование по SSL от Meta AI, где авторы исследуют проблему оверфиттинга SSL моделей, которую они называют Дежа вю. В исследование обсуждается риски связанные с тем, что SSL модели могут с высокой точностью извлекать или даже визуально реконструировать объекты из обучающей выборки только по фрагменту изображения (например, воду, небо, траву), что создает риски конфиденциальности для изображений с чувствительной информаций.
Дело в том, что для обучения SSL моделей чаще всего создают несколько представлений одного и того же изображения, используя аугментации (например, crop), где лосс минимизирует расстояние между эмбуддингами этих представлений (подробнее об SSL). Таким образом, эмбеддинг фона изображения может находиться близко к эмбеддингу интересующего нас объекта и, имея только фрагмент фона, можно идентифицировать целевой объект (в статье используют фрагмент озера в качестве фона и черного лебедя в качестве целевого объекта).
Поскольку SSL не требует никакой разметки, нет простого способа тестирования таких моделей, как например, Grad-CAM для supervised-learning. В статье авторы описывают способы идентификации оверфиттинга и предлагают набор техник для его минимизации.
📜 Сатья
🖥 Код
@karray
👍32❤5🔥5
CLIP можно учить на ресурсах доступных людям.
CLIP, первая фундаментальная модель, связывающая изображения и текст, позволила совершить множество прорывов в компьютерном зрении (и не только в нем). Однако затраты на ее обучение непомерно высоки, что является серьезным препятствием для ее широкого применения.
В этой статье авторы представляют удивительный факт существования обратного закона масштабирования (inverse scaling law) для обучения CLIP, согласно которому чем больше размер энкодера изображения/текста, тем меньше длина последовательности токенов изображения/текста, которые можно использовать в обучении.
Более того, авторы показали, что стратегия сокращения длины последовательности токенов изображения/текста играет решающую роль в определении качества этого закона масштабирования.
Благодаря этому выводу исследователи показали как можно обучать CLIP даже с использованием академических ресурсов. Например, на сервере A100 с восемью графическими процессорами их модели CLIP zero-shot top-1 accuracy on ImageNet в 63,2% за ~2 дня, 67,8% за ~3 дня и 69,3% за ~4 дня.
Снизив вычислительный барьер, связанный с CLIP, авторы надеются вдохновить академические коллективы на дальнейшие исследования в этой области.
📇 Статья
🐙 Код
CLIP, первая фундаментальная модель, связывающая изображения и текст, позволила совершить множество прорывов в компьютерном зрении (и не только в нем). Однако затраты на ее обучение непомерно высоки, что является серьезным препятствием для ее широкого применения.
В этой статье авторы представляют удивительный факт существования обратного закона масштабирования (inverse scaling law) для обучения CLIP, согласно которому чем больше размер энкодера изображения/текста, тем меньше длина последовательности токенов изображения/текста, которые можно использовать в обучении.
Более того, авторы показали, что стратегия сокращения длины последовательности токенов изображения/текста играет решающую роль в определении качества этого закона масштабирования.
Благодаря этому выводу исследователи показали как можно обучать CLIP даже с использованием академических ресурсов. Например, на сервере A100 с восемью графическими процессорами их модели CLIP zero-shot top-1 accuracy on ImageNet в 63,2% за ~2 дня, 67,8% за ~3 дня и 69,3% за ~4 дня.
Снизив вычислительный барьер, связанный с CLIP, авторы надеются вдохновить академические коллективы на дальнейшие исследования в этой области.
📇 Статья
🐙 Код
🔥37👍6❤3
Ask Me Anything с организаторами Guanaco: LLM Competition
Как я уже писал ранее, стартап Chai Research организовывает хакатон с призовым фондом $1М. Хакатон будет происходить в несколько этапов: supervised finetuning, reward modeling, RLHF, etc.
В первом этапе, который начнётся 10ого июня участникам предстоит подготовить датасет и натренировать диалоговую модель для role-play (RPG-style) с помощью партнера соревнования together.xyz (авторы RedPajama).
Оценивать модели будут >1М активных пользователей приложения.
Так как по поводу соревнования возникло много вопросов, вот вам Ask me anything (AMA) с одним из разработчиков стартапа в комментариях.
Лёша (@goodimpression) готов ответить на любые вопросы:
- откуда столько денег?
- зачем проводить хакатон?
- кому принадлежат модели после сабмита?
- и другие
Оставляйте свои вопросы в комментариях, в течение суток вы получите на них ответы от @goodimpression.
Как я уже писал ранее, стартап Chai Research организовывает хакатон с призовым фондом $1М. Хакатон будет происходить в несколько этапов: supervised finetuning, reward modeling, RLHF, etc.
В первом этапе, который начнётся 10ого июня участникам предстоит подготовить датасет и натренировать диалоговую модель для role-play (RPG-style) с помощью партнера соревнования together.xyz (авторы RedPajama).
Оценивать модели будут >1М активных пользователей приложения.
Так как по поводу соревнования возникло много вопросов, вот вам Ask me anything (AMA) с одним из разработчиков стартапа в комментариях.
Лёша (@goodimpression) готов ответить на любые вопросы:
- откуда столько денег?
- зачем проводить хакатон?
- кому принадлежат модели после сабмита?
- и другие
Оставляйте свои вопросы в комментариях, в течение суток вы получите на них ответы от @goodimpression.
🔥6❤1👍1
Forwarded from DLStories
Новая работа на тему реконструкции текста на основе сигналов МРТ головного мозга
Ребята из Техасского университета предложили новый метод реконструирования текста, который слышит человек, на основе МРТ-сигнала мозга. Причем декодирование происходит в связный текст, который семантически близок к реальному.
Как обычно, дислеймер: я мало понимаю в методах нейробиологии и том, как оценивать качество таких исследований. Также из-за этого не могу разобраться в некоторых нюансах работы. Если я где-то ошиблась, пишите об этом в комментарии.
Итак, задача реконструкции текста на основе сигналов головного мозга:
Задачу декодирования текста, которую слышит (или даже мысленно произносит) человек, пытались решать и раньше. Подходы тут делятся на два вида по тому, как извлекается сигнал из мозга. Первый вид — инвазивные методы извлечения сигнала. Это когда в голову человеку вживается чип, который считывает сигналы непосредственно с нейронов в мозга. Эти подходы, понятно, дорогие и сложные. Второй вид — неинвазивные методы извлечения сигнала, такие как МРТ, М/ЭЭГ. Эти подходы дешевле и проще, голову никому сверлить не надо.
Но у неинвазивных методов получения сигналов мозга есть большой недостаток. Когда человек подвергается какому-то стимулу (например, слышит слово), этот стимул влияет на показатели МРТ примерно в течение 10 секунд. Человек, который бегло говорит на английском языке, произносит примерно 2 слова в секунду. Получается, если записывать сигнал МРТ во время прослушивания английской речи, каждая МРТ-картинка будет содержать информацию об обработке мозгом примерно двадцати слов.
Из-за этого точно восстановить текст, который слышит человек, по МРТ не получается. И многие прошлые работы по теме восстановления текста по сигналам мозга, полученным неинвазивными методами, умели хорошо восстанавливать только отдельные слова и фразы.
А ребята из Техаса придумали, как по МРТ восстанавливать (почти) связный текст. Этот текст не будет точно таким же, что в реальности слышал человек. Но он будет семантически похож, т.е. будет отражать в целом правильный смысл.
Очень общая идея метода:
Сначала обучаем сеть-энкодер, которая учится по куску текста восстанавливать МРТ-картину могза, соответствующую этому куску текста. Затем берем предобученную языковую модель (например, GPT), и делаем следующее:
Каждые две секунды просим GPT сгенерировать несколько вариантов продолжения текста. Эти несколько вариантов подаем на вход сети-энкодеру, который по ним пытается обратно восстановить текущую МРТ-картину. Тот вариант текста, по которому удалось получить наиболее похожий на реальный МРТ-сигнал, считаем верным.
Таким нехитрым способом авторы получают (почти) связный текст по сигналам МРТ со смыслом, в основном отражающим смысл оригинала. Конечно, есть семантические ошибки, но статистически сгенерированные тексты по нескольким метрикам действительно ближе к оригиналу, чем случайный текст.
Вот пример:
Оригинал: I didn't know whether to scream cry or run away instead I said leave me alone I don't need your help adam disappeared and I cleaned up alone crying
Генерация: Started to scream and cry and then she just said I told you to leave me alone you can't hurt me anymore I'm sorry and then he stormed off thought he had left I started to cry
Если применить эту идею к воображаемой речи, а не к прослушиванию чужих записей, то у такой технологии будет масса применений. Авторы этой статьи даже провели эксперимент по реконструкции воображаемой речи. Опять же, полученные тексты оказались более близкими к оригиналам, чем случайные. Т.е. метод как-то работает.
А еще с помощью подобных моделей можно исследовать функции разных частей мозга. В этой работе МРТ сигнал брался с трез разных частей мозга, которые обрабатывают слышимую речь. Добавляя и убирая сигналы с разных частей мозга из входа модели, можно что-то понимать о том, какую часть информации обрабатывает какая часть мозга. А еще можно сравнивать реконструкции модели-энкодера на основе сигналов из разных частей.
📄 Статья
Инфу о ней прочитала у Дениса
Ребята из Техасского университета предложили новый метод реконструирования текста, который слышит человек, на основе МРТ-сигнала мозга. Причем декодирование происходит в связный текст, который семантически близок к реальному.
Как обычно, дислеймер: я мало понимаю в методах нейробиологии и том, как оценивать качество таких исследований. Также из-за этого не могу разобраться в некоторых нюансах работы. Если я где-то ошиблась, пишите об этом в комментарии.
Итак, задача реконструкции текста на основе сигналов головного мозга:
Задачу декодирования текста, которую слышит (или даже мысленно произносит) человек, пытались решать и раньше. Подходы тут делятся на два вида по тому, как извлекается сигнал из мозга. Первый вид — инвазивные методы извлечения сигнала. Это когда в голову человеку вживается чип, который считывает сигналы непосредственно с нейронов в мозга. Эти подходы, понятно, дорогие и сложные. Второй вид — неинвазивные методы извлечения сигнала, такие как МРТ, М/ЭЭГ. Эти подходы дешевле и проще, голову никому сверлить не надо.
Но у неинвазивных методов получения сигналов мозга есть большой недостаток. Когда человек подвергается какому-то стимулу (например, слышит слово), этот стимул влияет на показатели МРТ примерно в течение 10 секунд. Человек, который бегло говорит на английском языке, произносит примерно 2 слова в секунду. Получается, если записывать сигнал МРТ во время прослушивания английской речи, каждая МРТ-картинка будет содержать информацию об обработке мозгом примерно двадцати слов.
Из-за этого точно восстановить текст, который слышит человек, по МРТ не получается. И многие прошлые работы по теме восстановления текста по сигналам мозга, полученным неинвазивными методами, умели хорошо восстанавливать только отдельные слова и фразы.
А ребята из Техаса придумали, как по МРТ восстанавливать (почти) связный текст. Этот текст не будет точно таким же, что в реальности слышал человек. Но он будет семантически похож, т.е. будет отражать в целом правильный смысл.
Очень общая идея метода:
Сначала обучаем сеть-энкодер, которая учится по куску текста восстанавливать МРТ-картину могза, соответствующую этому куску текста. Затем берем предобученную языковую модель (например, GPT), и делаем следующее:
Каждые две секунды просим GPT сгенерировать несколько вариантов продолжения текста. Эти несколько вариантов подаем на вход сети-энкодеру, который по ним пытается обратно восстановить текущую МРТ-картину. Тот вариант текста, по которому удалось получить наиболее похожий на реальный МРТ-сигнал, считаем верным.
Таким нехитрым способом авторы получают (почти) связный текст по сигналам МРТ со смыслом, в основном отражающим смысл оригинала. Конечно, есть семантические ошибки, но статистически сгенерированные тексты по нескольким метрикам действительно ближе к оригиналу, чем случайный текст.
Вот пример:
Оригинал: I didn't know whether to scream cry or run away instead I said leave me alone I don't need your help adam disappeared and I cleaned up alone crying
Генерация: Started to scream and cry and then she just said I told you to leave me alone you can't hurt me anymore I'm sorry and then he stormed off thought he had left I started to cry
Если применить эту идею к воображаемой речи, а не к прослушиванию чужих записей, то у такой технологии будет масса применений. Авторы этой статьи даже провели эксперимент по реконструкции воображаемой речи. Опять же, полученные тексты оказались более близкими к оригиналам, чем случайные. Т.е. метод как-то работает.
А еще с помощью подобных моделей можно исследовать функции разных частей мозга. В этой работе МРТ сигнал брался с трез разных частей мозга, которые обрабатывают слышимую речь. Добавляя и убирая сигналы с разных частей мозга из входа модели, можно что-то понимать о том, какую часть информации обрабатывает какая часть мозга. А еще можно сравнивать реконструкции модели-энкодера на основе сигналов из разных частей.
📄 Статья
Инфу о ней прочитала у Дениса
🔥21👍9❤5😢2🤯1
Forwarded from Сиолошная
OpenAI спустя всего 6 месяцев сделали iOS приложения для доступа к ChatGPT, чтобы не нужно было бегать в браузер. Пока — только в США, но другие страны, если верить анонсу, на подходе; то же верно и для Android-версии.
Существенное отличие по сути одно: к языковой модели сбоку пришили Whisper — нейронку от тех же OpenAI, которая переводит речь в текст. Так что по сути это Siri на максималках, вот! Жаль, что одновременно с этим не презентовали text-to-speech, был бы очень интересный коллаб.
Если у вас американский аккаунт, то скачать можно тут.
Существенное отличие по сути одно: к языковой модели сбоку пришили Whisper — нейронку от тех же OpenAI, которая переводит речь в текст. Так что по сути это Siri на максималках, вот! Жаль, что одновременно с этим не презентовали text-to-speech, был бы очень интересный коллаб.
Если у вас американский аккаунт, то скачать можно тут.
🤩19❤5👍5😁1
Forwarded from TechSparks
Intel последнее время как-то чуть ушел в тень: все увлеклись ИИ и железом для машинного обучения. Но именно на эти темы Intel и сделал только что крутые анонсы.
Собственная генеративная модель на триллион параметров Aurora genAI заточена под нужды научного сообщества, обучаться будет не только на текстах общего назначения, но и на научных (причем не только текстах, но и даных и коде для научных исследований).
Диапазон применений планируется впечатляюще широкий: from the design of molecules and materials to the synthesis of knowledge across millions of sources to suggest new and interesting experiments in systems biology, polymer chemistry and energy materials, climate science, and cosmology.
А железо для всего этого — суперкомпьютер Aurora, на основе интеловских же процессоров: 21 248 шт. Xeon CPU и 63 744 GPU.
https://wccftech.com/intel-aurora-genai-chatgpt-competitor-generative-ai-model-with-1-trillion-parameters/
Собственная генеративная модель на триллион параметров Aurora genAI заточена под нужды научного сообщества, обучаться будет не только на текстах общего назначения, но и на научных (причем не только текстах, но и даных и коде для научных исследований).
Диапазон применений планируется впечатляюще широкий: from the design of molecules and materials to the synthesis of knowledge across millions of sources to suggest new and interesting experiments in systems biology, polymer chemistry and energy materials, climate science, and cosmology.
А железо для всего этого — суперкомпьютер Aurora, на основе интеловских же процессоров: 21 248 шт. Xeon CPU и 63 744 GPU.
https://wccftech.com/intel-aurora-genai-chatgpt-competitor-generative-ai-model-with-1-trillion-parameters/
Wccftech
Intel Announces Aurora genAI, Generative AI Model With 1 Trillion Parameters
In addition to today's Aurora Supercomputer announcement, Intel also announced its Aurora genAI, a brand new Generative AI Model for science.
👍31🔥22❤5🤯4😢1
Преобразование речи в текст, текста в речь и многое другое для 1100+ языков
Оснащение машин способностью распознавать и воспроизводить речь может сделать информацию доступной для гораздо большего числа людей, включая тех, кто полностью полагается на голос при получении информации. Однако для создания качественных моделей машинного обучения для этих задач требуется большое количество размеченных данных - многие тысячи часов аудиозаписей вместе с транскрипцией. Для большинства языков таких данных просто не существует.
В новой работе Massively Multilingual Speech (MMS) исследователи из Meta преодолевают некоторые из этих проблем, объединив wav2vec 2.0 и новый набор данных, который предоставляет размеченные данные для более чем 1100 языков и не размеченные данные для почти 4000 языков. Некоторые из них, такие как язык татуйо, насчитывают всего несколько сотен носителей, и для большинства этих языков не существует вообще никаких речевых технологий.
Результаты показывают, что модели Massively Multilingual Speech превосходят существующие модели и охватывают в 10 раз больше языков.
✌️ Блог
🗞️ Статья
🐙 Код
Оснащение машин способностью распознавать и воспроизводить речь может сделать информацию доступной для гораздо большего числа людей, включая тех, кто полностью полагается на голос при получении информации. Однако для создания качественных моделей машинного обучения для этих задач требуется большое количество размеченных данных - многие тысячи часов аудиозаписей вместе с транскрипцией. Для большинства языков таких данных просто не существует.
В новой работе Massively Multilingual Speech (MMS) исследователи из Meta преодолевают некоторые из этих проблем, объединив wav2vec 2.0 и новый набор данных, который предоставляет размеченные данные для более чем 1100 языков и не размеченные данные для почти 4000 языков. Некоторые из них, такие как язык татуйо, насчитывают всего несколько сотен носителей, и для большинства этих языков не существует вообще никаких речевых технологий.
Результаты показывают, что модели Massively Multilingual Speech превосходят существующие модели и охватывают в 10 раз больше языков.
✌️ Блог
🗞️ Статья
🐙 Код
🔥32👍6❤2
This media is not supported in your browser
VIEW IN TELEGRAM
Комбинированная генерация с помощью Composable Diffusion (CoDi)
Пока все активно обсуждают новый Adobe Firefly и Windows Copilot я расскажу вам про Composable Diffusion (CoDi).
Это новая модель, которая может генерировать любую комбинацию модальностей вывода, таких как текст, изображение, видео или аудио, из любой комбинации модальностей ввода.
Простым языком: допустим у меня есть фото панды 🐼 и текст "обедает за столом". 🍽 Подаем эти два ингридиента в модель и вуаля: модель смешивает входные параметры в видео 🐼🍽
Модель построена в интегративный способ: сначала latent diffusion model (LDM) обучена производить один тип выходной модальности (например звук) из одной или многих вводных (например текст и видео). Второй этап обучения позволяет обрабатывать стратегии генерации «многие ко многим».
Разработчики говорят, что CoDi — первая модель ИИ с такой возможностью.
Авторы честно предупреждают о возможных новых дипфейках из-за их работы 🤔
🌐страница проекта
📖читать статью
💻код
@innovationitsme
Пока все активно обсуждают новый Adobe Firefly и Windows Copilot я расскажу вам про Composable Diffusion (CoDi).
Это новая модель, которая может генерировать любую комбинацию модальностей вывода, таких как текст, изображение, видео или аудио, из любой комбинации модальностей ввода.
Простым языком: допустим у меня есть фото панды 🐼 и текст "обедает за столом". 🍽 Подаем эти два ингридиента в модель и вуаля: модель смешивает входные параметры в видео 🐼🍽
Модель построена в интегративный способ: сначала latent diffusion model (LDM) обучена производить один тип выходной модальности (например звук) из одной или многих вводных (например текст и видео). Второй этап обучения позволяет обрабатывать стратегии генерации «многие ко многим».
Разработчики говорят, что CoDi — первая модель ИИ с такой возможностью.
Авторы честно предупреждают о возможных новых дипфейках из-за их работы 🤔
🌐страница проекта
📖читать статью
💻код
@innovationitsme
🔥27❤7👍2🤩2🤯1
Больше промптов хороших и разных!
В дополнение к предыдущему посту. Нашел интересную страницу на GitHub с гайдом по промпт инжинирингу и решил поделиться с вами.
Можете его освоить и подаваться на вакансию описанную выше 😉
💻 GitHub
@innovationitsme
В дополнение к предыдущему посту. Нашел интересную страницу на GitHub с гайдом по промпт инжинирингу и решил поделиться с вами.
Можете его освоить и подаваться на вакансию описанную выше 😉
💻 GitHub
@innovationitsme
❤11🔥6👍3
Microsoft анонсировала Windows Copilot - личный ассистент для Windows 11
Windows Copilot — это новый ассистент, интегрированный на уровне системы, который обещает изменить взаимодействие с Windows. Он будет отображаться в боковой панели и будет иметь доступ к системным настройкам и всем приложениям, выступая в роли личного помощника.
Кроме того, он сможет переписывать, резюмировать или объяснять текст. Microsoft обещает, что он сможет отвечать на вопросы и даже планировать поездки. Также заявлена поддержка плагинов Bing и ChatGPT.
🌐 Источник
@karray
Windows Copilot — это новый ассистент, интегрированный на уровне системы, который обещает изменить взаимодействие с Windows. Он будет отображаться в боковой панели и будет иметь доступ к системным настройкам и всем приложениям, выступая в роли личного помощника.
Кроме того, он сможет переписывать, резюмировать или объяснять текст. Microsoft обещает, что он сможет отвечать на вопросы и даже планировать поездки. Также заявлена поддержка плагинов Bing и ChatGPT.
🌐 Источник
@karray
👍21🔥14❤5😱5