AI для Всех
14.9K subscribers
1.32K photos
181 videos
11 files
1.51K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
Ask Me Anything с организаторами Guanaco: LLM Competition

Как я уже писал ранее, стартап Chai Research организовывает хакатон с призовым фондом $1М. Хакатон будет происходить в несколько этапов: supervised finetuning, reward modeling, RLHF, etc.

В первом этапе, который начнётся 10ого июня участникам предстоит подготовить датасет и натренировать диалоговую модель для role-play (RPG-style) с помощью партнера соревнования together.xyz (авторы RedPajama).

Оценивать модели будут >1М активных пользователей приложения.

Так как по поводу соревнования возникло много вопросов, вот вам Ask me anything (AMA) с одним из разработчиков стартапа в комментариях.

Лёша (@goodimpression) готов ответить на любые вопросы:
- откуда столько денег?
- зачем проводить хакатон?
- кому принадлежат модели после сабмита?
- и другие

Оставляйте свои вопросы в комментариях, в течение суток вы получите на них ответы от @goodimpression.
🔥61👍1
Forwarded from DLStories
Новая работа на тему реконструкции текста на основе сигналов МРТ головного мозга

Ребята из Техасского университета предложили новый метод реконструирования текста, который слышит человек, на основе МРТ-сигнала мозга. Причем декодирование происходит в связный текст, который семантически близок к реальному.

Как обычно, дислеймер: я мало понимаю в методах нейробиологии и том, как оценивать качество таких исследований. Также из-за этого не могу разобраться в некоторых нюансах работы. Если я где-то ошиблась, пишите об этом в комментарии.

Итак, задача реконструкции текста на основе сигналов головного мозга:

Задачу декодирования текста, которую слышит (или даже мысленно произносит) человек, пытались решать и раньше. Подходы тут делятся на два вида по тому, как извлекается сигнал из мозга. Первый вид — инвазивные методы извлечения сигнала. Это когда в голову человеку вживается чип, который считывает сигналы непосредственно с нейронов в мозга. Эти подходы, понятно, дорогие и сложные. Второй вид — неинвазивные методы извлечения сигнала, такие как МРТ, М/ЭЭГ. Эти подходы дешевле и проще, голову никому сверлить не надо.

Но у неинвазивных методов получения сигналов мозга есть большой недостаток. Когда человек подвергается какому-то стимулу (например, слышит слово), этот стимул влияет на показатели МРТ примерно в течение 10 секунд. Человек, который бегло говорит на английском языке, произносит примерно 2 слова в секунду. Получается, если записывать сигнал МРТ во время прослушивания английской речи, каждая МРТ-картинка будет содержать информацию об обработке мозгом примерно двадцати слов.

Из-за этого точно восстановить текст, который слышит человек, по МРТ не получается. И многие прошлые работы по теме восстановления текста по сигналам мозга, полученным неинвазивными методами, умели хорошо восстанавливать только отдельные слова и фразы.

А ребята из Техаса придумали, как по МРТ восстанавливать (почти) связный текст. Этот текст не будет точно таким же, что в реальности слышал человек. Но он будет семантически похож, т.е. будет отражать в целом правильный смысл.

Очень общая идея метода:
Сначала обучаем сеть-энкодер, которая учится по куску текста восстанавливать МРТ-картину могза, соответствующую этому куску текста. Затем берем предобученную языковую модель (например, GPT), и делаем следующее:
Каждые две секунды просим GPT сгенерировать несколько вариантов продолжения текста. Эти несколько вариантов подаем на вход сети-энкодеру, который по ним пытается обратно восстановить текущую МРТ-картину. Тот вариант текста, по которому удалось получить наиболее похожий на реальный МРТ-сигнал, считаем верным.

Таким нехитрым способом авторы получают (почти) связный текст по сигналам МРТ со смыслом, в основном отражающим смысл оригинала. Конечно, есть семантические ошибки, но статистически сгенерированные тексты по нескольким метрикам действительно ближе к оригиналу, чем случайный текст.

Вот пример:
Оригинал: I didn't know whether to scream cry or run away instead I said leave me alone I don't need your help adam disappeared and I cleaned up alone crying
Генерация: Started to scream and cry and then she just said I told you to leave me alone you can't hurt me anymore I'm sorry and then he stormed off thought he had left I started to cry

Если применить эту идею к воображаемой речи, а не к прослушиванию чужих записей, то у такой технологии будет масса применений. Авторы этой статьи даже провели эксперимент по реконструкции воображаемой речи. Опять же, полученные тексты оказались более близкими к оригиналам, чем случайные. Т.е. метод как-то работает.

А еще с помощью подобных моделей можно исследовать функции разных частей мозга. В этой работе МРТ сигнал брался с трез разных частей мозга, которые обрабатывают слышимую речь. Добавляя и убирая сигналы с разных частей мозга из входа модели, можно что-то понимать о том, какую часть информации обрабатывает какая часть мозга. А еще можно сравнивать реконструкции модели-энкодера на основе сигналов из разных частей.

📄 Статья
Инфу о ней прочитала у Дениса
🔥21👍96😢2🤯1
Forwarded from Сиолошная
OpenAI спустя всего 6 месяцев сделали iOS приложения для доступа к ChatGPT, чтобы не нужно было бегать в браузер. Пока — только в США, но другие страны, если верить анонсу, на подходе; то же верно и для Android-версии.

Существенное отличие по сути одно: к языковой модели сбоку пришили Whisper — нейронку от тех же OpenAI, которая переводит речь в текст. Так что по сути это Siri на максималках, вот! Жаль, что одновременно с этим не презентовали text-to-speech, был бы очень интересный коллаб.

Если у вас американский аккаунт, то скачать можно тут.
🤩195👍5😁1
Forwarded from TechSparks
Intel последнее время как-то чуть ушел в тень: все увлеклись ИИ и железом для машинного обучения. Но именно на эти темы Intel и сделал только что крутые анонсы.
Собственная генеративная модель на триллион параметров Aurora genAI заточена под нужды научного сообщества, обучаться будет не только на текстах общего назначения, но и на научных (причем не только текстах, но и даных и коде для научных исследований).
Диапазон применений планируется впечатляюще широкий: from the design of molecules and materials to the synthesis of knowledge across millions of sources to suggest new and interesting experiments in systems biology, polymer chemistry and energy materials, climate science, and cosmology.
А железо для всего этого — суперкомпьютер Aurora, на основе интеловских же процессоров: 21 248 шт. Xeon CPU и 63 744 GPU.
https://wccftech.com/intel-aurora-genai-chatgpt-competitor-generative-ai-model-with-1-trillion-parameters/
👍31🔥225🤯4😢1
Преобразование речи в текст, текста в речь и многое другое для 1100+ языков

Оснащение машин способностью распознавать и воспроизводить речь может сделать информацию доступной для гораздо большего числа людей, включая тех, кто полностью полагается на голос при получении информации. Однако для создания качественных моделей машинного обучения для этих задач требуется большое количество размеченных данных - многие тысячи часов аудиозаписей вместе с транскрипцией. Для большинства языков таких данных просто не существует.

В новой работе Massively Multilingual Speech (MMS) исследователи из Meta преодолевают некоторые из этих проблем, объединив wav2vec 2.0 и новый набор данных, который предоставляет размеченные данные для более чем 1100 языков и не размеченные данные для почти 4000 языков. Некоторые из них, такие как язык татуйо, насчитывают всего несколько сотен носителей, и для большинства этих языков не существует вообще никаких речевых технологий.

Результаты показывают, что модели Massively Multilingual Speech превосходят существующие модели и охватывают в 10 раз больше языков.

✌️ Блог
🗞️ Статья
🐙 Код
🔥32👍62
This media is not supported in your browser
VIEW IN TELEGRAM
Комбинированная генерация с помощью Composable Diffusion (CoDi)

Пока все активно обсуждают новый Adobe Firefly и Windows Copilot я расскажу вам про Composable Diffusion (CoDi).

Это новая модель, которая может генерировать любую комбинацию модальностей вывода, таких как текст, изображение, видео или аудио, из любой комбинации модальностей ввода.

Простым языком: допустим у меня есть фото панды 🐼 и текст "обедает за столом". 🍽 Подаем эти два ингридиента в модель и вуаля: модель смешивает входные параметры в видео 🐼🍽

Модель построена в интегративный способ: сначала latent diffusion model (LDM) обучена производить один тип выходной модальности (например звук) из одной или многих вводных (например текст и видео). Второй этап обучения позволяет обрабатывать стратегии генерации «многие ко многим».

Разработчики говорят, что CoDi — первая модель ИИ с такой возможностью.

Авторы честно предупреждают о возможных новых дипфейках из-за их работы 🤔

🌐страница проекта
📖читать статью
💻код

@innovationitsme
🔥277👍2🤩2🤯1
Больше промптов хороших и разных!

В дополнение к предыдущему посту. Нашел интересную страницу на GitHub с гайдом по промпт инжинирингу и решил поделиться с вами.

Можете его освоить и подаваться на вакансию описанную выше 😉

💻 GitHub

@innovationitsme
11🔥6👍3
Microsoft анонсировала Windows Copilot - личный ассистент для Windows 11

Windows Copilot — это новый ассистент, интегрированный на уровне системы, который обещает изменить взаимодействие с Windows. Он будет отображаться в боковой панели и будет иметь доступ к системным настройкам и всем приложениям, выступая в роли личного помощника.

Кроме того, он сможет переписывать, резюмировать или объяснять текст. Microsoft обещает, что он сможет отвечать на вопросы и даже планировать поездки. Также заявлена поддержка плагинов Bing и ChatGPT.

🌐 Источник

@karray
👍21🔥145😱5
Сэм Алтман (CEO Open AI - самой горячей ИИ в мире):

Наконец то посмотрел Ex: Machina прошлой ночью. Классное кино, но я не могу понять почему мне все сказали посмотреть его
😁626🎉6
Скайнет стал еще чуть ближе 🦾

Представьте ИИ, который может воспринимать информацию напрямую из файлов, не требуя преобразования данных в изображения или звуки. Вот именно такой принцип лежит в основе новой модели под названием ByteFormer. На удивление статья написана исследователями из Apple (которые не так уж и часто что-то публикуют в открытый доступ).

Благодаря работе с байтами, ByteFormer способен понимать изображения и звуки лучше, чем некоторые другие модели. Это открывает огромные возможности для внедрения ИИ в различные сферы жизни.

Еще одно преимущество ByteFormer - возможность работать с закодированными или частично скрытыми данными, не теряя в точности. Это значит, что мы можем создать системы, которые уважают приватность, но при этом остаются эффективными.

Возможности ByteFormer впечатляют и заставляют нас переосмыслить, как ИИ может взаимодействовать с данными. Сегодня ИИ стал еще мощнее и ближе к нашему повседневному миру.

🫣 Статья
🐙 Код
🔥48👍12🤯116
Новый антибиотик 🦠

Новый антибиотик, открытый с помощью искусственного интеллекта, демонстрирует потенциал в борьбе с смертельными супербактериями, согласно исследованию, опубликованному в Nature Chemical Biology.

Ученые из Макмастерского университета и MIT применили машинное обучение для скрининга около 7,500 молекул, которые ингибировали рост бактерии Acinetobacter baumannii - микроорганизма, который Всемирная организация здравоохранения определила как "критическую" угрозу для здоровья человека.

Данные этого скрининга были использованы для обучения глубокой нейронной сети, целью которой было предсказать структурно новые молекулы с активностью против A. baumannii. Использование искусственного интеллекта позволило исследователям быстро исследовать "химическое пространство" (латентное пространство молекул), на предмет новых химических соединений с антибактериальной активностью.

Модель затем ранжировала молекулы по их прогнозируемым оценкам. Молекулы, оценка которых превышала 0.2, считались предварительными кандидатами для экспериментальной проверки. В результате этого процесса был выявлен новый антибиотик, абауцин.

Это исследование подчеркивает важность использования машинного обучения в поисках новых антибиотиков и может стать отправной точкой для разработки новых, эффективных противомикробных лекарств.

🐡 Статья
🔥70👍125😢1
Forwarded from Институт AIRI
Осталось чуть больше 24 часов для подачи заявки на школу по искусственному интеллекту «Лето с AIRI»

Участников будут ждать две недели науки с ведущими учеными из научно-исследовательских организаций и ВУЗов: лекции, семинары, а также постеры и проекты от партнеров Школы.

Самое время запрыгнуть в последний вагон и заполнить форму по ссылке до 4 июня включительно.

До встречи! 🍀
Please open Telegram to view this post
VIEW IN TELEGRAM
👍75🔥4😱3😁2
This media is not supported in your browser
VIEW IN TELEGRAM
Будущее уже здесь 🤖

Наконец мне удалось прокатиться на беспилотном такси!

В Сан - Франциско довольно часто можно увидеть беспилотное такси, с пассажирами и без, но пока оно для пользования доступно не всем.

Эти автомобили оснащены датчиками, радарами, камерами и другими системами, которые позволяют им воспринимать окружающую среду и принимать решения на основе собранных данных.

🚘Машина идет плавно. Только один раз за 20-минутную поездку машина резко дернулась, резко объехав яму на дороге. А так, едешь супер комфортно.

Одним словом - восторг! :)
🔥50👍11😱21
ControlNet для QR кодов

😳 Интересная идея обрабатывать QR коды, жаль не... Наведите и перейдете на одну и ту же ссылку.

☺️ Невероятно круто. Ссылка на реддит. Процесс создания(сайт на китайском, но отлично переводится).

😶‍🌫️ Модели для ContolNet пока нет в открытом доступе, ожидаем...

P.S. на реддите есть настройки, чтобы попробовать уже сейчас обработать QR код через SD.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯33🔥12👍71