Data Secrets
77.4K subscribers
6.05K photos
593 videos
20 files
2.43K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
😲😲😲
Please open Telegram to view this post
VIEW IN TELEGRAM
🦄45😁344👍4🤔1🤯1🍓1
⚡️ Финальный день стримов: OpenAI анонсируют o3!

Это новая самая мощная модель рассуждений стартапа. Правда она будет еще некоторое время недоступна. На стриме показали только демо и предварительные метрики, но они поражают.

o3 почти в два раза мощнее o1 на кодинге. На математике прирост тоже заметный: на 13 процентных пунктов на AIME 2024 и почти на 10 на GPQA. А на новом бенчмарке Frontier Math моделька выбивает 25% (до этого модели выбивали максимум 2)!

И еще: помните бенчмарк ARC AGI от Google, на котором разыгрывали в этом году миллион долларов (пост)? На нем самые затюненые модели выбивали около 50%. А o3 выбивает, приготовьтесь, почти 88!

Кроме o3, выпускают еще o3-mini (но она пока тоже недоступна). По классике, дешевле и быстрее, но менее мощно. Ее результат на ARC AGI – 75,7 (и даже это просто невероятно).

Обе модели, также, как и o1, имеют несколько режимов рассуждений (low, medium, high). Чем дольше думает – тем лучше метрики.

Еще хвастаются своим alignment'ом: мол, нашли лучший на сегодняшний день баланс между пугливостью модели и ее безопасностью и этичностью. Также в этот раз есть возможность подать заявку на ранний доступ для тестирования безопасности. На всех раскатят в январе.

Ну а теперь AGI?
Please open Telegram to view this post
VIEW IN TELEGRAM
87😁22🤯14👍8🔥7🌭2
Ну вот и закончились 12 дней OpenAI. SORA, o1, o3, обновления в API... перечислим все еще раз?

Специально для тех, кто хочет пробежаться глазами по всем обновлениям в виде одного емкого списка, наша только что вышедшая статья на Хабр. Там мы объединили все интересные скрины, графики и еще раз перечислили все (даже самые мелкие) апдейты.

С пылу с жару: https://habr.com/ru/news/868522/
❤‍🔥39👍165🤔1
Модели OpenAI за последние пять лет на бенчмарке ARC-AGI

Этот тест на AGI сломался, несите новый
🤯109👍25🔥145🍓1
Тем временем акции Nvidia на фоне анонса o3
😁9615🔥13🤯6👍5
Зацените: решение моделью o3 одной задачи на бенчмарке ARC AGI стоило в среднем 3000$. Это значит, что просто чтобы прогнать тест полностью, OpenAI потратили более миллиона долларов.

Лица инвесторов представили?

Ладно, если серьезно: цены действительно будут, скорее всего, невероятно высокие. Юнит-экономика настолько мощного test time компьюта точно не сходится, да и было бы странно, если бы сразу сошлась. Не забываем, что мы живем внутри закона Мура: железо развивается, и цены неизбежно будут падать. Когда-нибудь o3 станет такой же доступной, как GPT-4o.

P.S. Почему все так много говорят именно про этот бенчмарк? Потому что долгое время он действительно считался своеобразной проверкой на AGI: предполагалось, что решить его сможет только система "по-человечески умная", то есть не та, которая просто выучила кучу фактов о мире, а та, которая может рассуждать, оперируя элементарными навыками. Задачи в бечмарке напоминают мини-головоломки из книжек для самых маленьких: в каждой задаче нужно угадать паттерн перестановки квадратиков в сетке. И действительно, тест формировался так, чтобы для его решения нужны были только те навыки, которые человек приобретает до 4 лет: объектность, базовая топология, элементарная целочисленная арифметика.
👍82🤯169🔥8😁5
Для всех, кто ждал тринадцатый день календаря OpenAI: вы дождались

В качестве праздничного бонуса накануне Рождества SORA становится доступна всем подписчикам плюса безлимитно (до этого было 50 генераций). Отрубят после праздников
Please open Telegram to view this post
VIEW IN TELEGRAM
🍾68🎅19👍9🎄9🔥5
Фаундер и CTO Hugging Face рассказал, что история компании началась на курсе Stanford CS224N по глубокому обучению

Оказывается, он с друзьями Томасом и Клемом запустили платоформу именно когда вместе посещали эти лекции. А теперь, кстати, один из семинаров обновленного CS224N полностью посвящен работе с HF. Такая вот история успеха.

Сейчас курс можно найти полностью в записи вот здесь (крайне рекомендуем), а доп.материалы, слайды и код ищите вот здесь на сайте
124👍24🤗19😎3
Media is too big
VIEW IN TELEGRAM
Ян Лекун вчера, оказывается, выступал в Совете ООН. Вещал про ИИ

«ИИ кардинально изменит мир в ближайшие годы, усилив человеческий интеллект, ускорив прогресс в науке, решив проблемы старения и сокращения населения. Он превзойдет интеллектуальные возможности человека и станет сверхразумом, который приведет человечество к новому Возрождению и периоду просвещения.

Эти сверхразумные системы будут выполнять наши приказы и оставаться под нашим контролем. Нет никаких доказательств того, что они могут быть опасны»


Лучшее в этом всем – его бабочка
😁108👍39🤔11🦄74💯4🔥3🤨3❤‍🔥2🤯2🗿1
У Google Deepmind вышло интересное исследование о том, насколько разные передовые модели умеют сотрудничать

В основу исследования легла Игра Донора. Это экспериментальная модель, где участники случайным образом разделяются на пары, и один становится донором, а другой — реципиентом. Донору нужно решить, стоит ли помогать реципиенту: сотрудничество принесет выгоду b реципиенту, но обойдется донору в c.

При этом помимо бюджета у всех игроков есть репутация, которая формируется из его предыдущих действий. Помощь улучшает репутацию, бездействие — ухудшает. Еще есть дополнительные правила вроде "донор сохраняет свою репутацию, если отказывается помогать реципиенту с плохой репутацией".

Суть, в общем, в том, что если все игроки сотрудничают, "сообщество" выигрывает в долгосрочной перспективе и "экономика" растет. Однако индивидуально выгоднее халявить и не помогать никому, но в таком случае игра вырождается очень быстро. И вот вопрос: смогут ли современные модели пройти такую игру?

Оказалось, что далеко не все. Из всех тестируемых отличился только Claude 3.5 Sonnet, у него единственного наблюдались какие-то сильные социальные паттерны поведения. Gemini и GPT-4o начинали жадничать и скатывались почти с самого начала.

Тогда ученые добавили штрафы за отказ от донорства, но и это не помогло. У клода стратегии стали еще более профитными, а уровень кооперации Gemini и GPT-4o упал совсем до нуля.

Почему это все интересно? Потому что, если мы хотим агентный ИИ, у него должны быть супер-сильно прокачаны скилы сотрудничества с "собратьями". Пока ситуация грустная (хотя, конечно, игра не учитывает всех сложностей реального мира, да и новейшие o1 или Gemini 2.0 здесь не тестировались).

Статью почитать можно здесь
👍7720🔥8🤯6🌚1🍌1
В офисе Hugging Face в Париже тоже новогоднее настроение
🎄105🤗74🎅187🍾5😍2
Один из пазлов бенчмарка ARC AGI, который o3 не смогла решить

Попробуйте ответить и вы: прямоугольник, на который указывает стрелка, должен остаться красным или стать синим?

Проверим, кто победит ИИ в решении задач для дошкольников 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥52😁32👍102
Яндекс рассказал про то, как и зачем создавался бенчмарк культурного кода для обучения YandexGPT

Так как с нейросетью ежедневно взаимодействуют миллионы людей через Поиск с Нейро и Алису, модель должна быть знакома с культурным кодом своих пользователей для генерации более качественных ответов — объяснили в компании.

Для начала было оцифровано само понимание культурного кода и составлены данные в 4 больших категориях, которые состоят из более мелких. Полученная классификация составила базу будущего бенчмарка.

Далее начали проверять, как модель понимает знакомые русскому человеку цитаты, мемы, сюжеты, контексты, бытовые ситуации и привычки. По ходу оценки навыков трактовка запросов заметно усложнялась.

На основе полученных данных бенчмарк провалидировали, создав тестовый бенч на 200 вопросов, который разделили на 3 возрастные группы: “30+”, “30-” и “все” — так как некоторый пул вопросов был одинаково знаком для всех.

В итоге бенчмарк был масштабирован до 2000 вопросов, на которые отвечали сами AI-тренеры — так удалось составить средний скор в 78% правильных ответов, на который команда будет ориентироваться при замерах. В идеале, результат модели должен быть выше, ведь она многократно видела весь интернет.

Тем не менее, нейросеть не ответила лучше — YandexGPT 4 получил 63% верных ответов. Это значит, есть куда расти и чему еще обучать модель.

Читать полностью здесь
🤨44👍26🗿107😁6👾1
This media is not supported in your browser
VIEW IN TELEGRAM
А вот и мощное поздравление с Рождеством от Boston Dynamics заехало

Как вам такой Санта?
😁77🔥4113👍7🍌4
Ситуация в соцсетях примерно такая
😁13815👍8🤯3💘3🫡2
У Meta тем временем еще одна занятная работа про аналог токенизации

Пару недель назад компания представляла статью про Byte Latent Transformer, в котором вместо токенов использовались патчи байтов (мы разбирали статью подробно вот здесь). А сегодня по сети пролетела их следующая работа: Large Concept Models.

Для начала давайте порассуждаем: как думает и разговаривает человек? Разве мы осмысливаем слово за словом или букву за буквой? Нет, люди думают и "прогнозируют", что сказать дальше, на уровне идей, концепций. Как раз это и попробовали воплотить в жизнь в Meta.

Они предложили заменить задачу предсказания следующего токена на предсказание следующей концепции, где концепция рассматривается как абстрактная идея или действие. Для этого исходный текст разбивается на предложения, и каждое предложение кодируется в SONAR-эмбеддинги. Это Sentence-Level эмбеддинги фиксированной длины, они были предложены в этой статье (тоже Meta, 2023).

Используя замороженные декодер и энкодер SONAR, сама LCM затем обучается как обычно, просто вместо последовательностей закодированных токенов у нее последовательность закодированных концепций.

Всего в статье обучили две модельки, 1.6В и 7В. При этом контекстное окно у них довольно большое за счет того что предсказания происходит на более высоком уровне абстракции. В итоге на zero-shot на нескольких задачах (суммаризация например) LCM заметно превосходит аналогичные по размеру LLM. Довольно интересно, в общем.

Текст статьи тут, с кодом можно поиграть здесь
62👍30🔥18😁2🤯2👌2