Data Secrets

Ну вот и закончились 12 дней OpenAI. SORA, o1, o3, обновления в API... перечислим все еще раз?

Специально для тех, кто хочет пробежаться глазами по всем обновлениям в виде одного емкого списка, наша только что вышедшая статья на Хабр. Там мы объединили все интересные скрины, графики и еще раз перечислили все (даже самые мелкие) апдейты.

С пылу с жару: https://habr.com/ru/news/868522/

❤‍🔥39👍16❤5🤔1

11.5K viewsedited 18:35

Data Secrets

Модели OpenAI за последние пять лет на бенчмарке ARC-AGI

Этот тест на AGI сломался, несите новый

🤯109👍25🔥14❤5🍓1

11.5K views08:31

Data Secrets

Тем временем акции Nvidia на фоне анонса o3

😁96❤15🔥13🤯6👍5

11.4K views11:43

Data Secrets

Зацените: решение моделью o3 одной задачи на бенчмарке ARC AGI стоило в среднем 3000$. Это значит, что просто чтобы прогнать тест полностью, OpenAI потратили более миллиона долларов.

Лица инвесторов представили?

Ладно, если серьезно: цены действительно будут, скорее всего, невероятно высокие. Юнит-экономика настолько мощного test time компьюта точно не сходится, да и было бы странно, если бы сразу сошлась. Не забываем, что мы живем внутри закона Мура: железо развивается, и цены неизбежно будут падать. Когда-нибудь o3 станет такой же доступной, как GPT-4o.

P.S. Почему все так много говорят именно про этот бенчмарк? Потому что долгое время он действительно считался своеобразной проверкой на AGI: предполагалось, что решить его сможет только система "по-человечески умная", то есть не та, которая просто выучила кучу фактов о мире, а та, которая может рассуждать, оперируя элементарными навыками. Задачи в бечмарке напоминают мини-головоломки из книжек для самых маленьких: в каждой задаче нужно угадать паттерн перестановки квадратиков в сетке. И действительно, тест формировался так, чтобы для его решения нужны были только те навыки, которые человек приобретает до 4 лет: объектность, базовая топология, элементарная целочисленная арифметика.

👍82🤯16❤9🔥8😁5

16.4K views15:03

Data Secrets

✨ Для всех, кто ждал тринадцатый день календаря OpenAI: вы дождались

В качестве праздничного бонуса накануне Рождества SORA становится доступна всем подписчикам плюса безлимитно (до этого было 50 генераций). Отрубят после праздников

Please open Telegram to view this post

VIEW IN TELEGRAM

🍾68🎅19👍9🎄9🔥5

12.8K viewsedited 19:56

Data Secrets

Фаундер и CTO Hugging Face рассказал, что история компании началась на курсе Stanford CS224N по глубокому обучению

Оказывается, он с друзьями Томасом и Клемом запустили платоформу именно когда вместе посещали эти лекции. А теперь, кстати, один из семинаров обновленного CS224N полностью посвящен работе с HF. Такая вот история успеха.

Сейчас курс можно найти полностью в записи вот здесь (крайне рекомендуем), а доп.материалы, слайды и код ищите вот здесь на сайте

❤124👍24🤗19😎3

13.3K views10:28

Ян Лекун вчера, оказывается, выступал в Совете ООН. Вещал про ИИ

«ИИ кардинально изменит мир в ближайшие годы, усилив человеческий интеллект, ускорив прогресс в науке, решив проблемы старения и сокращения населения. Он превзойдет интеллектуальные возможности человека и станет сверхразумом, который приведет человечество к новому Возрождению и периоду просвещения.

Эти сверхразумные системы будут выполнять наши приказы и оставаться под нашим контролем. Нет никаких доказательств того, что они могут быть опасны»

Лучшее в этом всем – его бабочка

😁108👍39🤔11🦄7❤4💯4🔥3🤨3❤‍🔥2🤯2🗿1

12.2K views07:33

Data Secrets

У Google Deepmind вышло интересное исследование о том, насколько разные передовые модели умеют сотрудничать

В основу исследования легла Игра Донора. Это экспериментальная модель, где участники случайным образом разделяются на пары, и один становится донором, а другой — реципиентом. Донору нужно решить, стоит ли помогать реципиенту: сотрудничество принесет выгоду b реципиенту, но обойдется донору в c.

При этом помимо бюджета у всех игроков есть репутация, которая формируется из его предыдущих действий. Помощь улучшает репутацию, бездействие — ухудшает. Еще есть дополнительные правила вроде "донор сохраняет свою репутацию, если отказывается помогать реципиенту с плохой репутацией".

Суть, в общем, в том, что если все игроки сотрудничают, "сообщество" выигрывает в долгосрочной перспективе и "экономика" растет. Однако индивидуально выгоднее халявить и не помогать никому, но в таком случае игра вырождается очень быстро. И вот вопрос: смогут ли современные модели пройти такую игру?

Оказалось, что далеко не все. Из всех тестируемых отличился только Claude 3.5 Sonnet, у него единственного наблюдались какие-то сильные социальные паттерны поведения. Gemini и GPT-4o начинали жадничать и скатывались почти с самого начала.

Тогда ученые добавили штрафы за отказ от донорства, но и это не помогло. У клода стратегии стали еще более профитными, а уровень кооперации Gemini и GPT-4o упал совсем до нуля.

Почему это все интересно? Потому что, если мы хотим агентный ИИ, у него должны быть супер-сильно прокачаны скилы сотрудничества с "собратьями". Пока ситуация грустная (хотя, конечно, игра не учитывает всех сложностей реального мира, да и новейшие o1 или Gemini 2.0 здесь не тестировались).

Статью почитать можно здесь

👍77❤20🔥8🤯6🌚1🍌1

13.5K views10:01

Data Secrets

В офисе Hugging Face в Париже тоже новогоднее настроение

🎄105🤗74🎅18❤7🍾5😍2

11.5K views12:29

Data Secrets

Один из пазлов бенчмарка ARC AGI, который o3 не смогла решить

Попробуйте ответить и вы: прямоугольник, на который указывает стрелка, должен остаться красным или стать синим?

Проверим, кто победит ИИ в решении задач для дошкольников 🙂

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥52😁32👍10❤2

15.3K views14:40

Data Secrets

Яндекс рассказал про то, как и зачем создавался бенчмарк культурного кода для обучения YandexGPT

Так как с нейросетью ежедневно взаимодействуют миллионы людей через Поиск с Нейро и Алису, модель должна быть знакома с культурным кодом своих пользователей для генерации более качественных ответов — объяснили в компании.

Для начала было оцифровано само понимание культурного кода и составлены данные в 4 больших категориях, которые состоят из более мелких. Полученная классификация составила базу будущего бенчмарка.

Далее начали проверять, как модель понимает знакомые русскому человеку цитаты, мемы, сюжеты, контексты, бытовые ситуации и привычки. По ходу оценки навыков трактовка запросов заметно усложнялась.

На основе полученных данных бенчмарк провалидировали, создав тестовый бенч на 200 вопросов, который разделили на 3 возрастные группы: “30+”, “30-” и “все” — так как некоторый пул вопросов был одинаково знаком для всех.

В итоге бенчмарк был масштабирован до 2000 вопросов, на которые отвечали сами AI-тренеры — так удалось составить средний скор в 78% правильных ответов, на который команда будет ориентироваться при замерах. В идеале, результат модели должен быть выше, ведь она многократно видела весь интернет.

Тем не менее, нейросеть не ответила лучше — YandexGPT 4 получил 63% верных ответов. Это значит, есть куда расти и чему еще обучать модель.

Читать полностью здесь

🤨44👍26🗿10❤7😁6👾1

12.1K views16:00

Data Secrets

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

А вот и мощное поздравление с Рождеством от Boston Dynamics заехало

Как вам такой Санта?

😁77🔥41❤13👍7🍌4

12K viewsedited 18:33

Data Secrets

Ситуация в соцсетях примерно такая

😁138❤15👍8🤯3💘3🫡2

21.3K views08:00

Data Secrets

У Meta тем временем еще одна занятная работа про аналог токенизации

Пару недель назад компания представляла статью про Byte Latent Transformer, в котором вместо токенов использовались патчи байтов (мы разбирали статью подробно вот здесь). А сегодня по сети пролетела их следующая работа: Large Concept Models.

Для начала давайте порассуждаем: как думает и разговаривает человек? Разве мы осмысливаем слово за словом или букву за буквой? Нет, люди думают и "прогнозируют", что сказать дальше, на уровне идей, концепций. Как раз это и попробовали воплотить в жизнь в Meta.

Они предложили заменить задачу предсказания следующего токена на предсказание следующей концепции, где концепция рассматривается как абстрактная идея или действие. Для этого исходный текст разбивается на предложения, и каждое предложение кодируется в SONAR-эмбеддинги. Это Sentence-Level эмбеддинги фиксированной длины, они были предложены в этой статье (тоже Meta, 2023).

Используя замороженные декодер и энкодер SONAR, сама LCM затем обучается как обычно, просто вместо последовательностей закодированных токенов у нее последовательность закодированных концепций.

Всего в статье обучили две модельки, 1.6В и 7В. При этом контекстное окно у них довольно большое за счет того что предсказания происходит на более высоком уровне абстракции. В итоге на zero-shot на нескольких задачах (суммаризация например) LCM заметно превосходит аналогичные по размеру LLM. Довольно интересно, в общем.

Текст статьи тут, с кодом можно поиграть здесь

❤62👍30🔥18😁2🤯2👌2

14K views10:20

About

Blog

Apps

Platform