AI для Всех
15K subscribers
1.31K photos
180 videos
11 files
1.51K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Преобразование речи в текст, текста в речь и многое другое для 1100+ языков

Оснащение машин способностью распознавать и воспроизводить речь может сделать информацию доступной для гораздо большего числа людей, включая тех, кто полностью полагается на голос при получении информации. Однако для создания качественных моделей машинного обучения для этих задач требуется большое количество размеченных данных - многие тысячи часов аудиозаписей вместе с транскрипцией. Для большинства языков таких данных просто не существует.

В новой работе Massively Multilingual Speech (MMS) исследователи из Meta преодолевают некоторые из этих проблем, объединив wav2vec 2.0 и новый набор данных, который предоставляет размеченные данные для более чем 1100 языков и не размеченные данные для почти 4000 языков. Некоторые из них, такие как язык татуйо, насчитывают всего несколько сотен носителей, и для большинства этих языков не существует вообще никаких речевых технологий.

Результаты показывают, что модели Massively Multilingual Speech превосходят существующие модели и охватывают в 10 раз больше языков.

✌️ Блог
🗞️ Статья
🐙 Код
🔥32👍62
This media is not supported in your browser
VIEW IN TELEGRAM
Комбинированная генерация с помощью Composable Diffusion (CoDi)

Пока все активно обсуждают новый Adobe Firefly и Windows Copilot я расскажу вам про Composable Diffusion (CoDi).

Это новая модель, которая может генерировать любую комбинацию модальностей вывода, таких как текст, изображение, видео или аудио, из любой комбинации модальностей ввода.

Простым языком: допустим у меня есть фото панды 🐼 и текст "обедает за столом". 🍽 Подаем эти два ингридиента в модель и вуаля: модель смешивает входные параметры в видео 🐼🍽

Модель построена в интегративный способ: сначала latent diffusion model (LDM) обучена производить один тип выходной модальности (например звук) из одной или многих вводных (например текст и видео). Второй этап обучения позволяет обрабатывать стратегии генерации «многие ко многим».

Разработчики говорят, что CoDi — первая модель ИИ с такой возможностью.

Авторы честно предупреждают о возможных новых дипфейках из-за их работы 🤔

🌐страница проекта
📖читать статью
💻код

@innovationitsme
🔥277👍2🤩2🤯1
Больше промптов хороших и разных!

В дополнение к предыдущему посту. Нашел интересную страницу на GitHub с гайдом по промпт инжинирингу и решил поделиться с вами.

Можете его освоить и подаваться на вакансию описанную выше 😉

💻 GitHub

@innovationitsme
11🔥6👍3
Microsoft анонсировала Windows Copilot - личный ассистент для Windows 11

Windows Copilot — это новый ассистент, интегрированный на уровне системы, который обещает изменить взаимодействие с Windows. Он будет отображаться в боковой панели и будет иметь доступ к системным настройкам и всем приложениям, выступая в роли личного помощника.

Кроме того, он сможет переписывать, резюмировать или объяснять текст. Microsoft обещает, что он сможет отвечать на вопросы и даже планировать поездки. Также заявлена поддержка плагинов Bing и ChatGPT.

🌐 Источник

@karray
👍21🔥145😱5
Сэм Алтман (CEO Open AI - самой горячей ИИ в мире):

Наконец то посмотрел Ex: Machina прошлой ночью. Классное кино, но я не могу понять почему мне все сказали посмотреть его
😁626🎉6
Скайнет стал еще чуть ближе 🦾

Представьте ИИ, который может воспринимать информацию напрямую из файлов, не требуя преобразования данных в изображения или звуки. Вот именно такой принцип лежит в основе новой модели под названием ByteFormer. На удивление статья написана исследователями из Apple (которые не так уж и часто что-то публикуют в открытый доступ).

Благодаря работе с байтами, ByteFormer способен понимать изображения и звуки лучше, чем некоторые другие модели. Это открывает огромные возможности для внедрения ИИ в различные сферы жизни.

Еще одно преимущество ByteFormer - возможность работать с закодированными или частично скрытыми данными, не теряя в точности. Это значит, что мы можем создать системы, которые уважают приватность, но при этом остаются эффективными.

Возможности ByteFormer впечатляют и заставляют нас переосмыслить, как ИИ может взаимодействовать с данными. Сегодня ИИ стал еще мощнее и ближе к нашему повседневному миру.

🫣 Статья
🐙 Код
🔥48👍12🤯116
Новый антибиотик 🦠

Новый антибиотик, открытый с помощью искусственного интеллекта, демонстрирует потенциал в борьбе с смертельными супербактериями, согласно исследованию, опубликованному в Nature Chemical Biology.

Ученые из Макмастерского университета и MIT применили машинное обучение для скрининга около 7,500 молекул, которые ингибировали рост бактерии Acinetobacter baumannii - микроорганизма, который Всемирная организация здравоохранения определила как "критическую" угрозу для здоровья человека.

Данные этого скрининга были использованы для обучения глубокой нейронной сети, целью которой было предсказать структурно новые молекулы с активностью против A. baumannii. Использование искусственного интеллекта позволило исследователям быстро исследовать "химическое пространство" (латентное пространство молекул), на предмет новых химических соединений с антибактериальной активностью.

Модель затем ранжировала молекулы по их прогнозируемым оценкам. Молекулы, оценка которых превышала 0.2, считались предварительными кандидатами для экспериментальной проверки. В результате этого процесса был выявлен новый антибиотик, абауцин.

Это исследование подчеркивает важность использования машинного обучения в поисках новых антибиотиков и может стать отправной точкой для разработки новых, эффективных противомикробных лекарств.

🐡 Статья
🔥70👍125😢1
Forwarded from Институт AIRI
Осталось чуть больше 24 часов для подачи заявки на школу по искусственному интеллекту «Лето с AIRI»

Участников будут ждать две недели науки с ведущими учеными из научно-исследовательских организаций и ВУЗов: лекции, семинары, а также постеры и проекты от партнеров Школы.

Самое время запрыгнуть в последний вагон и заполнить форму по ссылке до 4 июня включительно.

До встречи! 🍀
Please open Telegram to view this post
VIEW IN TELEGRAM
👍75🔥4😱3😁2
This media is not supported in your browser
VIEW IN TELEGRAM
Будущее уже здесь 🤖

Наконец мне удалось прокатиться на беспилотном такси!

В Сан - Франциско довольно часто можно увидеть беспилотное такси, с пассажирами и без, но пока оно для пользования доступно не всем.

Эти автомобили оснащены датчиками, радарами, камерами и другими системами, которые позволяют им воспринимать окружающую среду и принимать решения на основе собранных данных.

🚘Машина идет плавно. Только один раз за 20-минутную поездку машина резко дернулась, резко объехав яму на дороге. А так, едешь супер комфортно.

Одним словом - восторг! :)
🔥50👍11😱21
ControlNet для QR кодов

😳 Интересная идея обрабатывать QR коды, жаль не... Наведите и перейдете на одну и ту же ссылку.

☺️ Невероятно круто. Ссылка на реддит. Процесс создания(сайт на китайском, но отлично переводится).

😶‍🌫️ Модели для ContolNet пока нет в открытом доступе, ожидаем...

P.S. на реддите есть настройки, чтобы попробовать уже сейчас обработать QR код через SD.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯33🔥12👍71
Forwarded from Experimental chill
Сегодня прям праздник статей!

Я тут писал про оптимизации хеширования и сортировок с помощью Reinforcement Learning, Deepmind выложили статью, я в acknowledgements.

AlphaDev discovers faster sorting and hashing algorithms
https://www.deepmind.com/blog/alphadev-discovers-faster-sorting-algorithms

Faster sorting algorithms discovered using deep reinforcement learning
https://www.nature.com/articles/s41586-023-06004-9

Из очень хорошего, работать мне с ними понравилось. Из интересного -- результаты не самые революционные, но какие-то циклы серверов сэкономили.
🔥9👍32🤯2
This media is not supported in your browser
VIEW IN TELEGRAM
Гугловый Бард совершенствуется в логике и рассуждениях

Отличные новости для пользователей Барда! Сегодня запускаются два интересных улучшения, которые обещают улучшить его производительность в математических задачах и работе с кодом.

Новая техника под названием "неявное выполнение кода" позволяет Bard обнаруживать вычислительные промпты и выполнять код в фоновом режиме, что приводит к более точным ответам на сложные рассуждения и математические задачи.

Как это работает? Большие языковые модели (LLM), такие как Bard, предсказывают наиболее вероятное следующее слово в ответе, что очень хорошо для творческих задач. Но когда дело доходит до таких областей, как рассуждения и математика, такого подхода недостаточно.

Именно здесь на помощь приходит неявное выполнение кода, сочетающее возможности традиционных вычислений с предсказательной силой LLM для улучшения производительности Bard.

Опираясь на идеи, изложенные в книге Дэниела Канемана "Думай медленно, решай быстро", Бард теперь может балансировать между быстрым, интуитивным мышлением "Системы 1" и медленным, обдуманным мышлением "Системы 2".

Точность ответов Барда на вычислительные промпты в ходе тестирования повысилась примерно на 30%.

А еще, если вы попросите Bard "создать таблицу для регистрации волонтеров в моем приюте для животных" - они сразу будут экспортированы прямо в Sheets.

🎸 Новость
🔥28👍126
This media is not supported in your browser
VIEW IN TELEGRAM
Materialistic: Selecting Similar Materials in Images

MIT совместно с Adobe разработали метод сегментации похожих материалов. Этот метод хорошо работает с различными условиями освещения и тенями, и не полагается на семантическую сегментацию.

В этом подходе используется предварительно обученная self-supervised (#SSL) модель DINOv1 от Меты. Несмотря на свои впечатляющие возможности, эмбеддинги в DINO не инвариантны и поэтому не могут быть использованы для сегментации материалов. Для решения этой проблемы, авторы добавили к DINO энкодер материалов, который сопоставляет эмбеддинги из DINO с материалом и преобразует пространственно неточные представления в более точные попиксельные представления. Cross-Similarity модуль позволяет пользователю выбирать материал, который будет сцементирован по всему изображению.

📜 Статья
🌐 Примеры

@karray
👍103🔥3