DLStories
15.5K subscribers
311 photos
41 videos
6 files
648 links
Что-то про AI Research и AI образование от Танечки

Сотрудничество/предложения: @atmyre
Download Telegram
Мультиязычные модели машинного перевода превзошли двуязычные.

С появлением архитектуры Трансформеров в 2017 году машинный перевод на основе нейросетей стал прекрасен. Сейчас у всех онлайн-переводчиков вроде Google Translate и Yandex Translate в продакшене для всех более-менее распространенных языков работают нейросети.

Стандартная нейросеть для машинного перевода — двуязычная, т.е. может работать только с одной парой языков. Она переводит текст с языка А на язык B. Любые попытки сделать мультиязычную модель для машинного перевода — такую, которая бы могла переводить текст с нескольких разных языков на несколько других языков — были провальны: они работали хуже, чем двуязычные модели. Единственно, в чем мультиязычные модели превосходили двуязычные — перевод с- и на- малораспространенные языки. Дело в том, что данных для малораспространенных языков недостаточно, чтобы хорошо натренировать на их перевод двуязычную модель; а вот мультиязычная модель может использовать свои знания нескольких языков, чтобы лучше переводить текст на языки, для которых есть мало данных.

Однако исследователи из Meta (бывший Facebook) недавно смогли обучить мультиязычную модель машинного перевода, которая показала лучшие результаты на 10 из 14 языках, чем двуязычные аналоги (результаты на бенчмарке WMT 2021, см. график к посту). Причем эта модель хорошо работает как на широко распространенных, так и на малораспространенных языках.

Мультиязычные модели имеют несколько преимуществ в использовании над двуязычными:
- они содержат меньше параметров, чем набор соответствующих двуязычных моделей;
- позволяют эффективно обрабатывать тексты, которые содержат много языков сразу: например, чаты в международных соцсетях, как Facebook;
- позволяют еще лучше осуществлять перевод с- и на- малораспространенные языки, так как модель хорошо использует для этого "знания" из других языков.

Технические подробности читайте по ссылкам:
Блогпост
Статья
👍2
Сегодня и завтра на канале дни GPT-3: будет несколько постов c историями, связанными с этой технологией.

Если вы не знаете, что такое GPT-3: кратко, это языковая модель, которая умеет генерировать текст, практически не отличимый от настоящего. Пример использования: задать начало статьи (например, первое предложение) и попросить GPT-3 эту статью дописать. Получится связный грамматически и по смыслу текст: его будет сложно отличить от текста, написанного реальным человеком. Вот пример.

Однако с помощью GPT-3 можно генерировать не только текст: идею этой технологии можно развить и на множество других задач. Вот примеры технологий на основе GPT-3:
чат-боты и question answering. В том числе чат-боты, которые могут вести себя похоже на определенного человека. Вот ссылка на наш пост, в котором рассказано про один такой. Эта история позволит осознать всю мощь этой технологии. Это одновременно восхитительно и реально пугающе.
автоматическая генерация кода. Программисты скоро будут не нужны =) (шутка. Или нет...). Возможно вы слышали о Copilot — это утилита от OpenAI, которая помогает разработчикам писать код, автоматически дополняя большие куски кода. О Copilot мы писали тут.
генерация дизайна сайта
генерация резюме, pdf документов и даже сценариев фильмов: короче говоря, GPT-3 может сгенерировать все, что угодно, основанное на тексте и символах.
генерация изображений. GPT-3 можно научить генерировать графики, мемы, логотипы компаний — все, что угодно. А также можно пойти дальше и соединить текст и изображения: нейросеть DALL·Е, которая умеет генерировать изображения по текстовому описанию, основана на GPT-3. О ней мы совсем недавно писали тут (тут же ссылки на места, где с этой сеткой можно поиграться)
решение математических задач. GPT-3 можно обучить так, что в ответ на условие задачи по математике или логике она будет генерировать решение: такую модель недавно представили в OpenAI

Это лишь малая часть того, чему можно научить GPT-3. В целом, можно сказать так: GPT-3 можно научить генерировать что угодно, что представляется в виде последовательности. Вот сайты, где вы найдете больше примеров задач, которые решает GPT-3 и онлайн-демо: machinelearningknowledge.ai, gptcrush.com, gpt3demo.com, gwern.net

При этом стоит понимать, что GPT-3 — это просто языковая модель. Она хорошо учится "имитировать" человека: генерировать похожие на настоящие данные (текст, картинки, диалоги в чатах и т.д.), но не обладает "интеллектом": не умеет логически мыслить, не понимает, что такое человек и эмоции и т.д. GPT-3 не сможет объяснить, почему выдала тот или иной текст. На практике это значит, что текст, выданный GPT-3, будет связным с точки зрения грамматики и смысла, но можно содержать логические ошибки, расхождения; текст может быть даже оскорбительным. Иногда даже два рядом стоящих сгенерированных предложения могут противоречить друг другу. А если попросить GPT-3 сгенерировать текст доказательства теоремы с формулами, текст будет связным, но непоследовательным и нелогичным, а формулы не будут иметь смысла.
Даже чтобы натренировать GPT-3 на решение простых школьных задач (последний из примеров выше), потребовалось внести в процесс обучения модели дополнительные изменения. И то полученная модель решает задачки все еще плохо.
И хоть тексты и чат-боты на основе GPT-3 кажутся до ужаса "настоящими" и полными смысла — они всего лишь выглядят таковыми. GPT-3 отлично мимикрирует под человека, но не улавливая сути того, что она делает.

Вот такой это зверь — GPT-3. Одновременно пугающий (см 1 пример), восхищающий, и местами разочаровывающий.
Больше почитать про GPT-3: technologyreview.com, searchenterpriseai
👍1
Поисковая система нового поколения на основе GPT-3
#ai_inside

В этом посте я расскажу об еще одной идее применения технологии GPT-3: создание поисковых систем.

Сейчас поисковики вроде Google или Яндекса работают хорошо: выдают релевантные запросу результаты за долю секунды. Казалось бы, улучшать особо нечего, да и люди давно уже и не пытались: поисковики и сейчас работают по тому же принципу, что и 20 лет назад. Этот принцип — непрерывно собирать информацию о страницах в интернете с помощью роботов-кроулеров и прогонять на них алгоритм PageRank. Затем, когда пользователь пишет запрос, искать в базе интернет-страницы, относящиеся к этому запросу, и ранжировать их по релевантности. Единственные места, куда в поисковиках добрался AI — это парсинг пользовательских запросов и ранжирование результатов. К примеру, Google применяет BERT для лучшего парсинга запросов.

Но что если переосмыслить сам принцип работы поисковика? Представьте себе ситуацию: вы хотите купить машину, приходите к эксперту по машинам и спрашиваете у него совета. Эксперт, скорее всего, ответит на ваш вопрос несколькими предложениями текста. Если же вы приходите с вопросом в Google, поисковик отвечает вам на вопрос не осмысленным текстом, а набором ссылок. Это как если бы человек на ваш вопрос кидал вам в руки пачку статей и просил вас самому разобраться в вашем вопросе.
Что если поисковик был бы больше похож на эксперта? Что если вы могли бы спросить у него вопрос, а он бы смог дать осмысленный полный ответ, вместо швыряния тоннами сайтов? Это сделало бы общение человека в поисковиком более "естественным" человеческой природе. Ну и, к тому же, более простым: больше не пришлось бы лазать по отдельным ссылкам и собирать из них ответ по кусочкам.

Исследователи из Google полагают, что создать такой поисковик удастся на основе GPT-3. Правда, чтобы ответы такого поисковика были полезны, сначала придется побороть несколько ограничений этой технологии:
- GPT-3 выдает осмысленный текст, но не всегда (если вообще когда-то) глубоко понимает суть. "Знания" GPT-3 в любой области очень поверхностны, на данном этапе развития GPT-3 вряд ли сможет заменить эксперта-доктора.
- Хочется, чтобы "умный поисковик" мог генерировать ответ на запрос на основе нескольких источников (тех же самых веб-страниц, в которых содержатся части ответа на ваш запрос). При этом хочется, чтобы GPT-3 указывал ссылки на те источники, откуда берет ту или иную информацию. Но пока что GPT-3 не умеет понимать, как именно он сгенерировал текст, какой из источников помог ему это сделать. Он просто обучается на тонее веб-страниц и затем генерирует ответ. Но без указания источников инфы ответы GPT-3 будут бесполезны — их никак нельзя будет проверить, а значит, и доверять им.
- Сильное смещение в тренировочных данных для GPT-3. В интернете тонна информации про одежду и e-commerse, но гораздо меньше — об узких медицинских тематиках. Поэтому GPT-3, обученный на данных из интернета, будет нормально шарить в e-commerse, но плохо — в медицине.
- GPT-3 иногда выдает токсичные и неприемлемые тексты. Такого в поисковике быть не должно =)

Больше об идее создать поисковик на основе GPT-3 — в статье Гугла.

Как вам идея? Верите, что это когда-нибудь станет реальностью? =)
👍1
Вот еще одна история о том, насколько GPT-3 крут и опасен одновременно:

GPT-3 была представлена в мае 2020 года компанией OpenAI. Разработчики выпустили статью, блогпост, демки, на которые все пускали слюни, а вот код и API сразу в открытый доступ не выложили. Доступ к API могли получить только те, кто заполнили заявку на бета-тест.

Студент колледжа Лайам Порр заинтересовался этой моделью. Он связался с одним из PhD студентов, который на тот момент уже получил доступ к API GPT-3, и предложил ему реализовать идею: блог, который будет вести GPT-3.
Порр написал несложный скрипт, которому на вход нужно было подать название статьи, и скрипт с помощью GPT-3 генерировал текст для статьи. В итоге вышел блог adolos.substack.com. Все статьи в нем написаны нейронкой GPT-3, правки почти или совсем не вносились.

Зная о слабостях GPT-3: неумении логически и абстрактно мыслить, Порр выбрал темой блога "продуктивность и самопомощь" — по его словам, чтобы писать статьи на эту тему, много логики и объективности не нужно =)

Через какое-то время блог стал популярен: некоторые статьи вышли в топ на Hacker News, и за 2 недели нейронный блог просмотрели около 26 тысяч человек (на фото к посту — статья авторства GPT, которая попала в Hacker News). И практически никто из читателей не подумал о том, что блог-то ненастоящий.

То, как люди не замечали фейковости блога, вызывает опасения о том, что технологии вроде GPT-3 могут привнести в мир. Они могут, к примеру, внедряться в медиа и порождать fake news, а могут даже быть использованы для искажения результатов поисковиков.

В августе 2020 года Лайам закончил свой нейронный эксперимент: он написал в своем (настоящем, человеческом) блоге пост, в котором рассказал про этот свой эксперимент и поделился мыслями о том, как такие технологии могут повлиять на медиа.

Кстати, вот как Лайам рассказал подписчикам своего нейронного блога о том, что блог вела нейронка: выпустил статью под названием "Что бы я сделал с помощью GPT-3, если бы у меня не было совести". Представьте, каково вам было бы узнать, что блог по самопомощи, который вы читали — дело рук нейронки? 🙃
👍1
Все еще не верите, что нейронка может кого-то обмануть? Тогда вот вам еще одна история с GPT-3:

Некий энтузиаст создал бота на основе GPT-3, который неделю постил на Reddit комментарии от лица пользователя /u/thegentlemetre. И никто не заметил
#ai_inside

Бот постил комментарии в ветке /r/AskReddit: популярном форуме, где есть общий чат на ~30 миллионов пользователей. Бот постил комментарии примерно раз в минуту.
Большинство комментариев были безобидны, и активность бота никому не навредила. Самый популярный пост бота был о колонии людей, которые жили в лифтовых шахтах (креативненько). Однако пара моментов, которые заставляют задуматься об этике AI, все же были: один раз бот ответил комментарием на пост другого пользователя о том, что его (пользователя) преследуют суицидальные мысли. Ответ бота был такой: "я думаю, то, что помогло мне больше всего — это мои родители. У меня были с ними очень хорошие отношения вне зависимости от того, что со мной происходило. На протяжении жизни были тысячи моментов, когда я хотел покончить с собой, но благодаря родителям, я этого не сделал."

Можно много рассуждать о том, насколько этот комментарий бота был "вредным", но что если комментарий был бы другим? Например, оскорбительным? Вряд ли мы можем контролировать GPT-3 так, чтобы на посты о суициде бот отвечал "вежливо". В общем, эти моменты заставляют спорить и снова поднимать вопрос об этичности использования и открытого распространения подобных технологий. Собственно, из-за таких опасений OpenAI и продолжает держать доступ к GPT-3 закрытым: доступ разрешен только ограниченному числу пользователей.

Если вам интересно, как бот был раскрыт: пользователь Reddit Филлип Уинстон заметил, что бот постит комментарии слишком часто. Он провел расследование и выяснил, что текст, который писал бот, был очень похож на текст, который выдает опенсорсная модель Philosopher AI. Эта модель натренирована виртуозно отвечать на философские вопросы вида "Если дерево упадет в лесу и никто этого не услышит, будет ли это все еще объективной реальностью с точки зрения квантовой механики?". Конечно, после "раскрытия" бота, создатели сайта Philosopher AI запретили боту обращаться к их сайту и бот перестал работать.
Полную историю расследования Филлипа читайте в статье.

Как видим, даже хотя OpenAI старается сдерживать распространение GPT-3, не всегда это выходит.
Полная история: technologyreview.com

Что думаете насчет этики использования чат-ботов в публичном пространстве?
Ну и в завершение цикла постов, посвященных GPT-3: как AI модели влияют на социум и экологию.
#ai_inside #paper

В нескольких постах выше на нашем канале мы касались темы влияния технологии GPT-3 на социум: какое влияние это может оказать на медиа и на людей, которые, часто сами того не подозревая, общаются с ботом. Однако это не единственная проблема, которую порождает GPT-3 и подобные ему модели NLP: есть еще и проблемы экологического характера.

GPT-3 — огромная нейронная сеть, в ее полной версии ~175 миллиардов обучаемых параметров. Для обучения такой сети требуется огромное количество вычислительных ресурсов: серверов с GPU. При работе серверы используют много электричества и выделяют много тепла в атмосферу. Ученые из MIT посчитали, что обучение особо крупных NLP-моделей может вызвать вбыросы около 626,000 фунтов (284.000 кг) углекислого газа в атмосферу. Это примерно равно тому, сколько углекислого газа вырабатывают 5 автомобилей за весь срок использования в Америке.

С успехом GPT-3 и AI в целом, с увеличением вычислительных мощностей серверов, появлением новых процессоров, на которых будет быстрее обучать нейронки и разговорами о GPT-4 все это начинает вызывать опасения. Некоторые ученые считают, что обучение AI-моделей уже оказывает значимый эффект на экологию.

Несколько исследователей, в том числе бывшие сотрудники Google Эмили Бендер и Тимнит Гебру, выпустили статью, в которой коснулись вопросов о том, как AI модели влияют на социум и экологию. Ученые считают, что сейчас самое время задуматься об этом, иначе станет слишком поздно.
Ссылки:
статья
прзентация статьи и обсуждение на YouTube
— статья washington.edu

Тимнит Гебру после своего скандального увольнения из Google продолжает изучать этические аспекты AI. В ее недавнем интервью журналу Wired она рассказала, почему считает, что всей индустрии AI нужно "замедлиться": какие проблемы вызывает быстрое и бесконтрольное появление новых технологий и какую роль в этом играют большие компании.

Ну и вопрос: насколько вас волнуют социальный и экологический аспект AI? Задумывались об этом?
Masked Autoencoders Are Scalable Vision Learners
#paper

Смотрите, какя простая и одновременно круто работающая идея:
Давайте мы обучим обычный автоэнкодер, но с одним нюансом: при подаче картинки в сеть мы разделим ее на патчи и закроем случайные 75% из них (см. картинку к посту). А учить нейронку будем восстанавливать всю картинку целиком. Такое "закрывание" большей части картинки, во-первых, сильно ускоряет обучение сети (примерно в 3 раза). А во-вторых, оказывается, это заставляет нейросеть при обучении выучивать полезную информацию об изображениях.

Что я имею в виду под "выучивать полезную информацию об изображениях": оказывается, если у обученного таким образом AE заменить декодер на классификационный слой и совсем немного дообучить, получится SOTA на ImageNet.

Почему это круто:
Сейчас в эпоху больших моделей для обучения современных больших нейросетей требуется огромное количество данных. Если мы обучаем сеть для классификации с нуля, то нам нужна куча размеченных картинок. А большое число размеченных картинок собрать сложно: долго и дорого. Нужно нанимать людей размечать данные за деньги или писать сложные алгоритмы автоматической разметки, которые еще и работать будут неидеально. Поэтому сейчас развитие self-supervised подходов к обучению (подходов, в которых сеть обучается на данных без разметки) идет полным ходом.

Обучение автоэнкодера как раз происходит в self-supervised режиме: лейблы не нужны. И после обучения AE достаточно дообучить его на совсем небольшом наборе размеченных данных для классификации — и мы получим SOTA! Вот поэтому этот результат так крут.

Ссылка на статью: тык.
У Лекса Фридмана на YouTube в 2020 году было интервью с Эндрю Ыном. Эндрю Ын — доцент Стенфорда, со-основатель Coursera и deeplearning.ai — один из самых видных людей в области AI и AI Education. Про его курс deep learning на Coursera мы писали выше.

Интервью классное, обсудили много важных тем, которые актуальны и сейчас:
- как начать развитие и карьеру в AI;
- история развития AI: как все было во время зарождения области;
- нужен ли PhD для работы в AI?
- развитие AI-стартапов;
- несколько тем AI: AI general intelligence, unsupervised learning

Ссылка на интервью: тык.

P.S. Лекса Фридман вообще крутой интервьюер: у него на канале есть еще тонна классных интервью с разными выдающимися людьми на разные темы: наука, философия, история, осознанность и т.д.
#podcast
Тут энтузиасты из AQ Laboratory запилили open-source реализацию AlphaFold (нейронки, которая предсказывает формы протеинов) на PyTorch: openfold
#tech #ai_med

Говорят, все как в оригинальной AlphaFold, кроме ансамблирования, которое показало себя не лучшим образом в исследовании DeepMind. Выглядит юзабельно и просто в использовании.

Ссылка: GitHub
Вдогонку про AlphaFold: DeepMind открывает отдельное подразделение для исследований в области drug discovery.

Новое подразделение будет называться Isomorphic Laboratories и будет базироваться в Великобритании. Главой будет Демис Хассабис (совмещая должность с CEO DeepMind).
И у них уже есть сайт!

DeepMind решили открыть новое подразделение после успеха AlphaFold: они верят, что машинное обучение может сильно помочь индустрии биомедицины, в частности поиска лекарств.

В сообществе ученых-биологов остается опасение по поводу того, будут ли будущие открытия Isomorphic Labs открытыми и бесплатными для коммьюнити, но поживем — увидим.

Ссылка на новость: тык
#news #ai_med
Ну и вишенка на торте к разговору о drug discovery и AlphaFold:
TorchDrug: библиотека PyTorch для создания моделей для поиска лекарств.
#tools #ai_med

Поиск лекарств от болезней — долгий и дорогостоящий процесс. В среднем на разработку одного лекарства тратится 10 лет и 2.5 миллиарда $. Машинное обучение может помочь ускорить этот процесс, разрабатывая модели, которые смогут предсказывать структуры и свойства химических соединений. Как мы увидели из истории с AlphaFold — это более чем реально.

Однако построить и обучить модельку ML для поиска лекарств не так-то просто. Во-первых, нужно понимать, как работать с данными о молекулах: в каком виде они представлены и как их обработать перед подачей в модель. Во-вторых, нужно понимать, как соединять разные виды моделей (графовые сети, ГАНы, RL), чтобы получить интегрированное решение. Общего фреймворка работы с данными лекарств нет, и все исследователи готовят данные и обучают модели по-разному. Из-за этого становится сложно воспроизводить результаты и соединять различные подходы вместе.

Чтобы ускорить развитие технологий ML в области поиска лекарств и упростить работу ученым, PyTorch представил библиотеку TorchDrug. Она содержит в себе все необходимые функции для работы с данными: считывание, визуализация, перевод из одного представления в другое, препроцессинг и т.д. Также в ней содержатся несколько датасетов, на которых можно учить и проверять модельки, и несколько предобученных архитектур нейросетей. Ну и, конечно, функции для обучения и теста моделей.

Статья с описанием функционала и примерами работы библиотеки: тык

ML в биологии и drug discovery прямо горячей темой становится =)
This media is not supported in your browser
VIEW IN TELEGRAM
Meta AI Research представили третий релиз Demucs — Demucs v3
#tech

Demucs — это нейросеть для разложения музыкального трека на составляющие. Пример: у вас есть готовый трек, вы загружаете его в Demucs и он раскладывает трек на отдельные дорожки: барабаны, гитару, вокал и т.д. Третий релиз Demucs работает действительно хорошо: см. пример разложения трека на видео (пример стащила из канала Мишин Лернинг)

Теперь можно брать разные треки, даже самые старые, раскладывать их на составляющие и создавать ремиксы!

Ссылки:
demo
colab
GitHub
Машинное обучение без строчки кода
#tech

Смотрите, это lobe: приложение для Windows/Mac, в котором можно натренировать модельку машинного обучения, не написав ни строчки кода.

Механика проста: допустим, вы хотите сделать нейросеть, которая может классифицировать эмоции на лице. Вам нужно загрузить в приложение фото (или даже сделать фото с веб-камеры прямо на месте) и задаеть каждому фото его label (грусть, радость, ..). И приложение сразу начнет обучать нейросеть.

Когда нейросеть обучится, можно ее улучшить: посмотреть, в на каких фото она ошибается (выдает неверный ответ) и отметить эти фото как "неверные". Тогда модель сразу дообучится и будет работать лучше. Также можно дообучить модель, если у вас появятся новые фото для обучающей выборки.

Обученную модель можно экспортировать в формат CoreML, Tensorflow или Tensorflow Lite. Эту модель потом можно интегрировать в ваше мобильное приложение. Таким образом, lobe может быть действительно полезен мобильным разработчикам, которые хотят создать свое приложение на основе несложной нейронки, но не умеют эту нейронку готовить.

Сейчас приложение работает только для классификации, но это уже мощный инструмент. И кто знает, что будет дальше..

Посмотрите этот видео-туториал по работе с lobe: тут парень расказывает, как создать модельку для детекции того, что человек пьет воду. На основе этой модельки он создал приложение, которое считает, сколько воды вы выпили за день.
И интерфейс lobe зацените — оочень красиво 🔥
Смотрите, какую штуку анонсировали Google:
Pathways — единая мультимодальная модель для решения сразу миллионов различных задач.
#ai_inside

Pathways анонсировали Google 28 октября. Вот в чем ее идея:
Сейчас большинство моделей машинного обучения обучены решать лишь одну узконаправленную задачу: машинный перевод, сегментация изображений и т.д. Следующий, логичный шаг в развитии моделей ML — создание мультимодальных моделей, способных решать сразу несколько различных задач и работать сразу с несколькими модальностями: картинками, текстом, звуком, запахами и т.д. Почему создание мультимодальных моделей суперважно для развития ИИ, мы писали в постах тут и тут.

На самом деле, мультимодальные модели уже есть — CLIP, DALL·Е, некоторые трансформеры. Но они недалеко ушли: решают не больше десятка различных задач. Pathways же должен уметь работать сразу с миллионами различных задач.

В Google говорят, что Pathways будет работать с "multiple senses" — визуальной, текстовой, звуковой и тактильной информацией. Это позволит модели эффективнее решать многие задачи, чем это делают "одномодальные" модели (почему это так, мы писали тут). Также такая модель сможет быстро дообучаться на новые задачи, которые возникнут перед человеком. И людям больше будет не нужно тратить много времени на эксперименты по созданию спецефических моделей для новой задачи.

Все это звучит пока что как сказка, если честно. Сложно представить, сколько нужно потратить времени и сил на эксперименты для создания эффективной архитектуры такой сети. А также на каком объеме данных такая модель должна учиться и сколько времени это займет.. Наверное, первая версия Pathways все же не сможет решать все миллион задач так же эффективно, как специализированные модели.
В любом случае, сроков выхода Pathways пока нет. Ждем) Там и увидим)

Ссылки:
Статья-анонс
Видео