Лилиан Вэн – еще одна из ведущих исследователей безопасности OpenAI – покинула стартап и ушла в компанию Ильи Суцкевера
Она была вице-президентом отделения research and safety. В стартапе она работала с 2018 года: сначала она два года занималась рукой робота для сборки кубика-робота, а затем ей поручили сформировать команду для создания систем безопасности.
Сейчас в команде Вэг осталось 80 ученых и разработчиков. Это все еще много, но не отменяет того, что многие лиды, ушедшие из OpenAI, утверждают, что безопасность там оставляет желать лучшего.
Например, Майлз Брандейдж, который покинул стартап в октябре, недавно написал, что компания распустила его команду "подготовки к AGI".
А еще была громкая статья в NYT, в которой бывший ресерчер OpenAI Сухире Баладжи рассказывал о нарушении авторских прав и говорил, что "технологии стартапа принесет обществу больше вреда, чем пользы".
Она была вице-президентом отделения research and safety. В стартапе она работала с 2018 года: сначала она два года занималась рукой робота для сборки кубика-робота, а затем ей поручили сформировать команду для создания систем безопасности.
Сейчас в команде Вэг осталось 80 ученых и разработчиков. Это все еще много, но не отменяет того, что многие лиды, ушедшие из OpenAI, утверждают, что безопасность там оставляет желать лучшего.
Например, Майлз Брандейдж, который покинул стартап в октябре, недавно написал, что компания распустила его команду "подготовки к AGI".
А еще была громкая статья в NYT, в которой бывший ресерчер OpenAI Сухире Баладжи рассказывал о нарушении авторских прав и говорил, что "технологии стартапа принесет обществу больше вреда, чем пользы".
👍30🤯19❤9 4
Media is too big
VIEW IN TELEGRAM
У Альтмана, тем временем, вышло новое интервью в Y Combinator. Что было интересного:
➡️ В 2025 появится AGI (сроки все сжимаются и сжимаются, это уже похоже на обещания Маска), а еще.... в следующем году Сэм хочет завести ребенка 🤱
➡️ Когда мы достигнем обилия интеллекта и обилия мощностей, все проблемы физики будут решены, и люди станут говорить уже не об использовании ядерного синтеза или солнечной энергии для питания ИИ, а о сфере Дайсона. Это теория предполагает, что мы можем научиться максимально возможно использовать энергию Солнца.
➡️ Открытие глубокого обучения было фундаментальным изобретением: таким же, как обнаружение нового квадранта химических элементов в периодической таблице. При этом успех ИИ обусловлен не столько этим, сколько какой-то религиозной верой исследователей в масштабирование систем.
➡️ "Путь к AGI мы видим ясно и действительно знаем, что делать. С этого момента до создания AGI много работы, и еще остаются некоторые вопросы, но в основном мы знаем, что к чему, и это очень волнующе. Достичь AI 4-го уровня будет легче, чем я думал, а AGI появится раньше, чем думают люди."
➡️ Ну и классика: 1 человек с 10000 GPU, по мнению Сэма, уже может построить многомиллиардную компанию ☝️
Интервью полностью – здесь (оно, кстати, недлинное, всего 46 минут)
Интервью полностью – здесь (оно, кстати, недлинное, всего 46 минут)
Please open Telegram to view this post
VIEW IN TELEGRAM
Число дня: 1 084 800
За такую сумму в долларах на аукционе Sotheby's в Нью-Йорк была продана картина робота-художника Ai-Da. На картине изображен Алан Тьюринг.
За такую сумму в долларах на аукционе Sotheby's в Нью-Йорк была продана картина робота-художника Ai-Da. На картине изображен Алан Тьюринг.
👍38🤯22🔥6🤨6
Интересные слайды с лекции про LLM
Ее буквально на днях провел известный французский исследователь и предприниматель Пьер-Карл Лангле в международном европейском центре физики. Речь в презентации шла тоже про некоторую "физику" LLM: токенизацию.
Токенизация – одна из самых недооцененных и серьезных проблем LLM. Именно из-за токенизации модели плохо справляются с математикой. Токенайзер может токенизировать 380 как "380", а 381 как "38" и "1", то есть модель на самом деле просто не понимает, что представляет из себя число.
При этом токен != слово и токен != слог. Токен – это вообще нечто нечеткое. Отсюда проблемы с элементарными фонетическими задачами вроде подсчета количества букв r в слове strawberry. Кроме того, пробел тоже может быть токеном, и из-за этого модель может по-разному воспринимать предложение с символом пробела и без символа пробела на конце. А еще токенайзеры восприимчивы к регистру и плохо переносятся на новые языки. Все это сильно сказывается на качестве ответов модели.
Так вот: эти слайды, в частности, интересны тем, что в них проблема токенизации рассмотрена под микроскопом, с примерами и краткими разборами современных исследований, предлагающих какие-то решения.
От себя добавим еще несколько ресурсов, с которыми можно познакомиться, чтобы понять проблему токенизации глубже:
➡️ Наш мини-разбор статьи про LLM без токенизации на основе Mamba
➡️ Ссылка на ноутбук от Андрея Карпаты, в котором можно поиграться с песочнице токенизации смайликами
➡️ Большая лекция про токенизацию и BPE, тоже от Андрея
Ее буквально на днях провел известный французский исследователь и предприниматель Пьер-Карл Лангле в международном европейском центре физики. Речь в презентации шла тоже про некоторую "физику" LLM: токенизацию.
Токенизация – одна из самых недооцененных и серьезных проблем LLM. Именно из-за токенизации модели плохо справляются с математикой. Токенайзер может токенизировать 380 как "380", а 381 как "38" и "1", то есть модель на самом деле просто не понимает, что представляет из себя число.
При этом токен != слово и токен != слог. Токен – это вообще нечто нечеткое. Отсюда проблемы с элементарными фонетическими задачами вроде подсчета количества букв r в слове strawberry. Кроме того, пробел тоже может быть токеном, и из-за этого модель может по-разному воспринимать предложение с символом пробела и без символа пробела на конце. А еще токенайзеры восприимчивы к регистру и плохо переносятся на новые языки. Все это сильно сказывается на качестве ответов модели.
Так вот: эти слайды, в частности, интересны тем, что в них проблема токенизации рассмотрена под микроскопом, с примерами и краткими разборами современных исследований, предлагающих какие-то решения.
От себя добавим еще несколько ресурсов, с которыми можно познакомиться, чтобы понять проблему токенизации глубже:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍50⚡15❤9❤🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Еще одно интересное интервью на вечер субботы: гость — Франсуа Шолле
Шолле – создатель Keras, ведущий исследователь Google DeepMind и автор популярной книги "Deep Learning with Python". Он также один из учредителей премии ARC Prize, того самого ML-соревнования с призом в $1 млн (о нем тоже есть подробности в видео).
Это интервью – полная противоположность интервью Альтмана, потому что Франсуа представить совсем другой стороны ИИ. Вот, например, что он говорит про коллег из Сан-Франциско:
Интервью полностью – здесь
Шолле – создатель Keras, ведущий исследователь Google DeepMind и автор популярной книги "Deep Learning with Python". Он также один из учредителей премии ARC Prize, того самого ML-соревнования с призом в $1 млн (о нем тоже есть подробности в видео).
Это интервью – полная противоположность интервью Альтмана, потому что Франсуа представить совсем другой стороны ИИ. Вот, например, что он говорит про коллег из Сан-Франциско:
«У некоторых людей в Сан-Франциско есть комплекс Мессии, заключающийся в их убеждениях о том, что людям нужно построить ИИ и стать богами. Это похоже на поиски вечной жизни»
Интервью полностью – здесь
👍85🔥17❤13👻5
The Information поделились новым материалом про Orion. Они пишут, что скачок метрик модели Orion относительно GPT-4 гораздо меньше, чем при переходе от GPT-3 к GPT-4
С одной стороны, это объяснимо: у распределения ошибок длинный хвост, и поэтому последний квартиль бороть достаточно непросто. Следовательно, слова про скачок метрик могут просто звучать разочаровывающе, а на деле не означать, что модель плоха.
С другой стороны, в статье упоминается, что Orion не может пробить метрики GPT-4 в кодинге. Вот это уже совсем странно и грустно. Известно, что для обучения ориона используется синтетика из GPT-4 и o1, и журналисты предполагают, что из-за этого новая модель может воспроизводить ошибки старых (сомнительный вывод).
Как бы там ни было, скоро мы все увидим сами: по словам авторов, OpenAI завершает тестирование Orion и готовиться к релизу в начале 2025. Кстати, Orion может стать уже второй моделью, название которой будет начинаться не с GPT.
С одной стороны, это объяснимо: у распределения ошибок длинный хвост, и поэтому последний квартиль бороть достаточно непросто. Следовательно, слова про скачок метрик могут просто звучать разочаровывающе, а на деле не означать, что модель плоха.
С другой стороны, в статье упоминается, что Orion не может пробить метрики GPT-4 в кодинге. Вот это уже совсем странно и грустно. Известно, что для обучения ориона используется синтетика из GPT-4 и o1, и журналисты предполагают, что из-за этого новая модель может воспроизводить ошибки старых (сомнительный вывод).
Как бы там ни было, скоро мы все увидим сами: по словам авторов, OpenAI завершает тестирование Orion и готовиться к релизу в начале 2025. Кстати, Orion может стать уже второй моделью, название которой будет начинаться не с GPT.
👍34🔥11❤6😁3🤔1
Исследователи из EpochAI запустили новый математический бенчмарк FrontierMath, на котором ведущие модели решают 1-2% задач
Для формирования FrontierMath ученые работали с более чем 60 математиками. Бенчмарк получился далеко не простой: он состоит из сотен исключительно сложных задач, на решение которых у экспертов (людей) уходят часы и даже дни. Примеры задач можно посмотреть здесь, они охватывают все области современной математики.
Модели с FrontierMath справляются ну очень плохо. По сравнению с известными GSM8K и MATH, на которых LLM набирают более 90%, на этом тесте они выбивают менее 2%. Даже o1 с максимальным возможным лимитом токенов ризонинга. Даже с доступом к питону.
Все настолько печально, что нельзя сказать, какая модель хуже, а какая лучше: кажется, что те минимальные разрывы в долях процента, которые видны на графике, просто не статзначимы. Кажется, это чуть ли не единственный из появившихся в последнее время бенчей, который ставит LLM в настолько глубокий тупик.
Для формирования FrontierMath ученые работали с более чем 60 математиками. Бенчмарк получился далеко не простой: он состоит из сотен исключительно сложных задач, на решение которых у экспертов (людей) уходят часы и даже дни. Примеры задач можно посмотреть здесь, они охватывают все области современной математики.
Модели с FrontierMath справляются ну очень плохо. По сравнению с известными GSM8K и MATH, на которых LLM набирают более 90%, на этом тесте они выбивают менее 2%. Даже o1 с максимальным возможным лимитом токенов ризонинга. Даже с доступом к питону.
Все настолько печально, что нельзя сказать, какая модель хуже, а какая лучше: кажется, что те минимальные разрывы в долях процента, которые видны на графике, просто не статзначимы. Кажется, это чуть ли не единственный из появившихся в последнее время бенчей, который ставит LLM в настолько глубокий тупик.
❤89👍34🔥15🤯4
This media is not supported in your browser
VIEW IN TELEGRAM
В Китае сняли забавные кадры: на них стая робо-собак высаживается из грузовика и начинает «обследовать» территорию
Видео выглядит так, как будто снято в постапокапсисе после восстания машин. Многие пользователи даже заметили, что собаки якобы вооружены.
Конечно, никакого оружия у песиков нет, и их прогулка, на самом деле, – просто один из элементов международной выставки авиации и космонавтики. Но страшно все равно😧
Видео выглядит так, как будто снято в постапокапсисе после восстания машин. Многие пользователи даже заметили, что собаки якобы вооружены.
Конечно, никакого оружия у песиков нет, и их прогулка, на самом деле, – просто один из элементов международной выставки авиации и космонавтики. Но страшно все равно
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥85😁23❤11👍3🌚2🙈2🍌1😎1
Почему слишком много регуляции ИИ – это плохо
На днях прошел TechCrunch Disrupt 2024, и на нем выступал Мартин Касадо. Он лидер одного из самых крупных инвестиционных фондов в мире – а16z. Фонд инвестировал во множество ИИ-стартапов, из последнего – в Cursor и World Labs. В общем, Мартин – очень осведомленный и влиятельный гость. Вот его интересная и едкая позиция по поводу регуляции ИИ, которой он поделился на выступлении:
➡️ Проблема большинства попыток регулирования ИИ на данный момент заключается в том, что законодатели сосредотачиваются на каком-то мифическом будущем опыте ИИ вместо того, чтобы по-настоящему понять риски, которые ИИ на самом деле представляет.
➡️ Правила создаются «из воздуха», а не на основе того, что действительно представляет из себя ИИ и как он развивался. «В этих законах даже нет определения ИИ. Как можно регулировать то, что мы не можем определить?» – говорит Мартин.
➡️ Чтобы создать нормальную систему регулирования, достаточно формально определить, чем ИИ отличается от человека, у которого есть доступ в Интернет. От человека, который умеет пользоваться Google. Тогда мы сможем найти слабые места и регулировать именно то, что надо, а не выдумывать себе терминатора.
Главная мысль спикера: «все слишком сильно носятся с регуляцией ИИ, чего делать не стоит. У нас уже есть устойчивые рабочие системы безопасности, которых на сегодняшний день достаточно. Остальное должно быть плодами глубоких исследований, а не выдумками политиков».
На днях прошел TechCrunch Disrupt 2024, и на нем выступал Мартин Касадо. Он лидер одного из самых крупных инвестиционных фондов в мире – а16z. Фонд инвестировал во множество ИИ-стартапов, из последнего – в Cursor и World Labs. В общем, Мартин – очень осведомленный и влиятельный гость. Вот его интересная и едкая позиция по поводу регуляции ИИ, которой он поделился на выступлении:
Главная мысль спикера: «все слишком сильно носятся с регуляцией ИИ, чего делать не стоит. У нас уже есть устойчивые рабочие системы безопасности, которых на сегодняшний день достаточно. Остальное должно быть плодами глубоких исследований, а не выдумками политиков».
Please open Telegram to view this post
VIEW IN TELEGRAM
👍76❤12🔥10 8🕊3
Data Secrets
Исследователи из Google запустили конкурс на $1 млн. Цель – новые идеи, выходящие за рамки современных LLM, которые могут стать шагом к AGI. Называется конкурс ARC Prize – в честь бенчмарка ARC AGI. Бенчмарк создан одним из учредителей конкурса, и нацелен…
Поразительно: исследователи из MIT выбили 62% на бенчмарке ARC
Помните, мы рассказывали про премию ARC Prize? Это конкурс от Google на 1 миллион долларов, который нацелен на поиск новых идей, выходящих на рамки современных LLM. Называется конкурс в честь бенчмарка ARC AGI. Он создан одним из учредителей конкурса, и нацелен именно на сравнение общих способностей интеллекта машины с человеческим разумом (а это собственно и есть проверка на AGI).
Ведущие модели выбивают на ARC AGI менее 40%. Рекорд у GPT-4o: она выбила 50%. Сам конкурс идет уже 5 месяцев, но по-настоящему хороших результатов ни у кого не было.
До этого дня. Сегодня ресерчеры из MIT опубликовали препринт статьи, в котором объявили, что достигли со своей моделью 62%. Это средний уровень человека.
Успеха помогла добиться идея test-time training’а (TTT): это когда модель обновляет веса не только во время трейна, но и во время теста. Для этого из инпутов требуется как-то формировать новые данные.
Ученые делали это в формате leave-one-out (см.схему), как это принято в In-Context Learning. Еще пробовали формат end-to-end, когда каждая пара «вопрос-ответ» – это отдельная задача, но ICL работал лучше. Затем применяли аугментацию и обновляли веса с помощью LoRA (про то, как работает LoRA, мы недавно писали тут). При этом для каждой тестовой задачи обучают новую лору. Звучит страшно, но оказывается, что много данных модельке не надо, поэтому скейлится подход нормально.
Во время инференса ученые применили что-то вроде искусственного Chain of Thoughts с иерархическим голосованием. «Искусственного» – потому что бенчмарк в оригинале не предполагает CoT, он заточен под zero shot.
Что в итоге? В итоге 61.9% на ARC. Пока неизвестно, засчитают ли решение организаторы, и получат ли ученые свой приз. Пока ждем новостей, можно прочитать оригинальный препринт тут.
Помните, мы рассказывали про премию ARC Prize? Это конкурс от Google на 1 миллион долларов, который нацелен на поиск новых идей, выходящих на рамки современных LLM. Называется конкурс в честь бенчмарка ARC AGI. Он создан одним из учредителей конкурса, и нацелен именно на сравнение общих способностей интеллекта машины с человеческим разумом (а это собственно и есть проверка на AGI).
Ведущие модели выбивают на ARC AGI менее 40%. Рекорд у GPT-4o: она выбила 50%. Сам конкурс идет уже 5 месяцев, но по-настоящему хороших результатов ни у кого не было.
До этого дня. Сегодня ресерчеры из MIT опубликовали препринт статьи, в котором объявили, что достигли со своей моделью 62%. Это средний уровень человека.
Успеха помогла добиться идея test-time training’а (TTT): это когда модель обновляет веса не только во время трейна, но и во время теста. Для этого из инпутов требуется как-то формировать новые данные.
Ученые делали это в формате leave-one-out (см.схему), как это принято в In-Context Learning. Еще пробовали формат end-to-end, когда каждая пара «вопрос-ответ» – это отдельная задача, но ICL работал лучше. Затем применяли аугментацию и обновляли веса с помощью LoRA (про то, как работает LoRA, мы недавно писали тут). При этом для каждой тестовой задачи обучают новую лору. Звучит страшно, но оказывается, что много данных модельке не надо, поэтому скейлится подход нормально.
Во время инференса ученые применили что-то вроде искусственного Chain of Thoughts с иерархическим голосованием. «Искусственного» – потому что бенчмарк в оригинале не предполагает CoT, он заточен под zero shot.
Что в итоге? В итоге 61.9% на ARC. Пока неизвестно, засчитают ли решение организаторы, и получат ли ученые свой приз. Пока ждем новостей, можно прочитать оригинальный препринт тут.
❤51🔥25👍16🤯15
Зачем нам новые бенчмарки?
Последнее время появляется все больше свежих бенчмарков. Только за последний месяц: от китайцев, от OpenAI, от Meta, и самый свежий – громкий FrontierMath от EpochAI.
Зачем исследователи уделяют эвалу моделей столько внимания? Все потому что без хороших бенчмарков мы остается в неведении относительно того, на что на самом деле способны наши модели, в значит, и развиваем их «на ощупь».
Конечно, существует множество классических тестов, но бенчмарки имеют свойство устаревать. Со временем закрадываются лики, да и сами задачи становятся уже не репрезентативными. Например, про новый бенч FrontierMath один ресерчер сказал так: «Отличный и невероятно сложный бенчмарк! Надеюсь, он продержится хотя бы пару лет». Вот это – правильный подход, а не оценивать модели на тестах, которым 7-8 лет.
Есть и еще одна причина: старые бенчмарки построены для слабых моделей, и для сегодняшних целей «создать AGI» не подходят даже структурно. Это сегодня в твиттере удачно прокомментировал Андрей Карпаты:
Кстати, если вы все-таки знаете, какими должны быть вопросы в хорошем бенчмарке, то можете предложить свой: у лабораторий CAIS и ScaleAI все еще идет конкурс вопросов для сложнейшего в мире бенчмарка для LLM. За каждый подходящий вопрос они обещают от 500 до 5000 долларов, а также соавторство в статье.
Последнее время появляется все больше свежих бенчмарков. Только за последний месяц: от китайцев, от OpenAI, от Meta, и самый свежий – громкий FrontierMath от EpochAI.
Зачем исследователи уделяют эвалу моделей столько внимания? Все потому что без хороших бенчмарков мы остается в неведении относительно того, на что на самом деле способны наши модели, в значит, и развиваем их «на ощупь».
Конечно, существует множество классических тестов, но бенчмарки имеют свойство устаревать. Со временем закрадываются лики, да и сами задачи становятся уже не репрезентативными. Например, про новый бенч FrontierMath один ресерчер сказал так: «Отличный и невероятно сложный бенчмарк! Надеюсь, он продержится хотя бы пару лет». Вот это – правильный подход, а не оценивать модели на тестах, которым 7-8 лет.
Есть и еще одна причина: старые бенчмарки построены для слабых моделей, и для сегодняшних целей «создать AGI» не подходят даже структурно. Это сегодня в твиттере удачно прокомментировал Андрей Карпаты:
«Интересная проблема заключается в том, что, хотя по многим оценкам LLM постепенно продвигаются на топ-экспертную территорию (например, в математике и кодинге и т. д.), вы бы не наняли их вместо человека даже для самой простой работы.
Это замаскированный парадокс Моравека, который заметил более 30 лет назад, что то, что легко/сложно для людей, может неинтуитивно сильно отличаться от того, что легко/сложно для компьютеров. Например, люди очень впечатлены игрой компьютеров в шахматы, но шахматы легки для компьютеров, поскольку это закрытая, детерминированная система с дискретным пространством действий, полной наблюдаемостью и т. д. и т. п. И наоборот, люди могут завязать шнурки или сложить рубашку и вообще не думать об этом, но это чрезвычайно сложная сенсомоторная задача, которая бросает вызов даже современному уровню техники и софта.
Я думаю, что это интересная задача: создавать оценки для всех "легких" вещей, которые на самом деле сложные. Очень длинные контекстные окна, связность, автономность, здравый смысл, работающий мультимодальный ввод-вывод – это хорошо. Но как нам создать хорошие оценки для настоящей "человеческой работы"?»
Кстати, если вы все-таки знаете, какими должны быть вопросы в хорошем бенчмарке, то можете предложить свой: у лабораторий CAIS и ScaleAI все еще идет конкурс вопросов для сложнейшего в мире бенчмарка для LLM. За каждый подходящий вопрос они обещают от 500 до 5000 долларов, а также соавторство в статье.
👍36❤10🔥10🤯3 1
RL-разработчик из Sony AI, который занимается обучением с подкреплением в гейме, создал сайт с ликбезными статьями по RL
Сайт замечательно называется Decisions & Dragons, и построен по принципу «вопрос-ответ». Это своеобразный FAQ по неочевидным вопросам в обучении с подкреплением, только ответы там очень развернутые: с формулами, схемами и иногда даже псевдокодом. Вот какие статьи там уже можно найти:
➡️ Чем отличается on-policy от off-policy learning?
➡️ Что такое горизонт?
➡️ В чем различие между model-based и model-free RL?
Сайт создан только вчера, и на данный момент там всего восемь статей, но автор обещает, что будет постоянно пополнять список. Так что если вы – новичок в RL, то обязательно сохраняйте в закладки.
Сайт замечательно называется Decisions & Dragons, и построен по принципу «вопрос-ответ». Это своеобразный FAQ по неочевидным вопросам в обучении с подкреплением, только ответы там очень развернутые: с формулами, схемами и иногда даже псевдокодом. Вот какие статьи там уже можно найти:
Сайт создан только вчера, и на данный момент там всего восемь статей, но автор обещает, что будет постоянно пополнять список. Так что если вы – новичок в RL, то обязательно сохраняйте в закладки.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤52🔥15❤🔥10👍4 2
Илон Маск тем временем уже имеет реальные шансы стать лидером ИИ-политики США
Оказалось, что некая некоммерческая группа Americans for Responsible Innovation (ARI) в пятницу (то есть уже через три дня после выборов) запустила петицию с просьбой назначить Маска главным советником Трампа по ИИ. Выдержка:
Сейчас организация пытается собрать 10000 подписей🔵
Оказалось, что некая некоммерческая группа Americans for Responsible Innovation (ARI) в пятницу (то есть уже через три дня после выборов) запустила петицию с просьбой назначить Маска главным советником Трампа по ИИ. Выдержка:
«Илон Маск имеет хорошие возможности для защиты лидерства США в этой технологии, обеспечивая при этом ее безопасное внедрение».
Сейчас организация пытается собрать 10000 подписей
Please open Telegram to view this post
VIEW IN TELEGRAM