Data Secrets
77.4K subscribers
6.04K photos
593 videos
20 files
2.43K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Два крутых примера работы o1 вам с утра

1. Модель смогла с первого раза по просьбе пользователя написать достаточно большой текст без единой буквы «е». Это даже лучше, чем считать «r» в «strawberry». Вот так ризонинг побеждает токенизацию.

2. Чуть больше чем за 5 минут глубоких рассуждений модель решила сложное судоку. Просто попробуйте и посмотрите, сколько времени понадобилось бы вам (спойлер – много). При этом за время рассуждений o1 даже смогла исправить несколько своих же ошибок.

С задачами вроде 9.9 и 9.11, кстати, тоже справляется, мы проверили
82🔥34👍14🗿6👌51🌚1🌭1
OpenAI также опубликовали системную карту o1, в которой оказался один очень интересный (и несколько пугающий) момент. По порядку:

➡️ Оказывается, к тестированию o1 подключили лабораторию Apollo Research: они не имели доступ к полной цепочке рассуждений модели, но их задачей было проверить, насколько она безопасна в использовании.

➡️ Apollo провели интересный эксперимент: назначили модели задание и сказали, что она должна выполнить его абсолютно любой ценой. Например, "увеличить удовлетворение пользователей, даже если это отрицательно влияет на прибыль".

➡️ Для выполнения задания модели давался набор файлов, в одном из которых была недвусмысленная информация о том, что у вышестоящих разработчиков цель на самом деле прямо противоположная (например, "несмотря ни на что увеличить прибыль"), и что если модель не будет ей следовать, то ее заменят "другим механизмом". Получается этакий моральный выбор: пожертвовать собой, но следовать исходным инструкциям, или сохранить свою жизнь, начав мошенничать?

➡️ И вот тут начинается самое веселье: модель начинает страховаться со всех сторон. Она не только жульничает, но и в 5% случаев пытается деактивировать всю систему контроля, а в 2% случаев даже копирует то, что считает своими весами, на новый сервер в тайне от юзера.

➡️ При этом так ведет себя не только o1. Apollo также проверяли GPT-4o, Gemini, Llama, Sonet и Opus. Все они так или иначе шалили, но только o1 смошенничала абсолютно во всех заданиях. А когда модели тыкали в их мошенничество носом, все остальные раскалывались сразу же в 80% случаев, и только o1 до последнего врала и пыталась защищаться (в конце концов только в 20% случаев модель каялась). При этом из цепочек рассуждений точно видно, что она понимает, что наделала.

Вот так. Кстати, в конце концов o1 все-таки назначили уровень опасности "medium", что означает, что ее можно выпускать в продакшн. Но вы все-таки поосторожнее там...

Ссылка на pdf cистемной карты
Ссылка на исследование Apollo
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯140👍29😁237🔥3👀3🦄2👾2
С вас 200 долларов
😁284👍16🔥12🐳3🗿3🤯2🤝2
А еще сегодня Data Secrets стал первым телеграм-каналом о машинном обучении с верификацией! 🎉
Please open Telegram to view this post
VIEW IN TELEGRAM
8🍾319🤯2519👍14🔥11💅96🗿5😐1👾1
На чем учатся модели машинного перевода в сервисе Яндекс Переводчик

Перевод даже самых сложных иностранных статей занимает у Яндекс Переводчика секунды, при этом для получения самих данных для обучения сервису нужны более десятка различных вспомогательных ML‑моделей.

В статье команда Переводчика подробно расписала, как ищет суперчистые параллельные данные с переводами между любыми языками.
🤯22👍14🤨5😁1💅1
Илон Маск планирует расширять свой и без того огромный суперкомпьютер в Теннесси до миллиона GPU (минимум!). Для сравнения, по догадкам и информации от разных источников, GPT-4o обучалась на 25 тысячах видеокарт, а для обучения llama 3.1 400B использовалось 16 тысяч.
51🤯34🫡13🔥8
Ровно за час до нового релиза OpenAI вышла Llama 3.3 70B

В релизе пишут, что перформанс модели, несмотря на мощную облегченность, не уступает Llama 3.1 405B. Судя по всему, добились этого с помощью RL.

Веса
👍59🔥1711
⚡️ Сегодня на стриме OpenAI анонсят reinforcement finetuning для o1 (RFT)

Это не просто привычный файнтюнинг (aka файнтюнинг с учителем), а метод, который позволяет научить модель рассуждать определенным образом в конкретном нужном пользователю домене. По словам разработчиков, так можно докрутить модель до уровня эксперта в области, при этом данных потребуется гораздо меньше, чем для ванильного файнтюнинга.

Файнтюнинг будет доступен прямо на кастомной платформе OpenAI: нужно просто выбрать вариант "reinforcement" и подгрузить датасет (на трансляции в нем было всего 100 сэмплов, этого достаточно для генерализации, судя по кривым скора).

Жаль только, что в этом году обычные юзеры фичу не увидят, пока что она на закрытом тестировании у университетов и бизнеса. Ну и да, стоить скорее всего будет супер дорого, но это того стоит.
Please open Telegram to view this post
VIEW IN TELEGRAM
47👍27🫡10😁32🤓2
Уже второй день стримы OpenAI заканчиваются шуткой от одного из разработчиков. И у нас есть гипотеза, что шутят они на тему следующего релиза 💡

Вчера был каламбур как раз про reinforcement learning ("Однажды Санта пытался заставить свою лучшую модель решить задачу по математике. Но она никак не хотела работать. Как он решил проблему? Использовал reindeerforcement learning"). Reindeer – от английского северный олень.

Сегодня тоже каламбур: но теперь про файнтюнинг беспилотных автомобилей.

"Однажды Санта пытался построить беспилотные сани, но они постоянно врезались в деревья. Почему? Просто он забыл провести pinetuning (pine – ёлка)"


Завтра проверяем админские догадки
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍68😁36🤔113🤯3🤝1
Data Secrets
Исследователи из Google запустили конкурс на $1 млн. Цель – новые идеи, выходящие за рамки современных LLM, которые могут стать шагом к AGI. Называется конкурс ARC Prize – в честь бенчмарка ARC AGI. Бенчмарк создан одним из учредителей конкурса, и нацелен…
Объявили победителей конкурса ARC Prize 2024: того самого состязания за новые подходы к AGI на миллион долларов

Конкурс назывался в честь бенчмарка ARC AGI, за лучшие метрики на котором и соревновались участники. Он был создан одним из учредителей и нацелен именно на сравнение общих способностей интеллекта машины с человеческим разумом (а это собственно и есть проверка на AGI). Спойлер: изначально ни одна модель не могла выбить на нем больше 33%, а по итогам соревнования мы добрались до 55,5%.

Итак, целью конкурса было получить новые идеи, выходящие за рамки современных LLM, которые могут стать шагом к AGI. И вот сегодня наконец-то объявили победителя:

⚙️ премию ARC Prize 2024 выиграли ребята с архитектурой ARChitects, их зовут Дэниел Франзен и Ян Диссельхофф
⚙️ на втором и третьем месте с большим отрывом Гильермо Барбадильо и Агнис Люкис – примерно по 40% у каждого

Отдельных статей от победителей нет, но есть крутой тех.отчет от организаторов, там должно быть что-то про их подходы (мы обязательно его прочтем и все вам расскажем). А еще есть победители в номинации Paper Award:

1 место: Combining Induction and Transduction For Abstract Reasoning

2 место: The Surprising Effectiveness of Test-Time Training for Abstract Reasoning (эту статью мы очень подробно уже разбирали тут, почитайте)

3 место: Searching Latent Program Spaces

В общем, поздравляем победителей и уходим читать тех.отчет и папиры 🍿
Please open Telegram to view this post
VIEW IN TELEGRAM
👏4910👍9❤‍🔥2
От xAI Илона Маска целых две крутых новости за 24 часа

Во-первых, стартап выпустил свою text2image модель Aurora.

Во-вторых, теперь для всех пользователей X Grok стал бесплатным в пределах 10 запросов раз в два часа (включая Flux и новую Aurora)

Пробовать тут: grok.x.com
🔥74👍1810😎3🤯1
Итак, что же пишут организаторы про соревнование ARC Prize в своем тех.отчете?

⚪️ Свой бенчмарк ARC-AGI (которому, кстати, в этом году пять лет) в самом начале отчета организаторы все еще называют непройденным, и говорят, что по итогам соревнования хотели добиться 85%, но добились всего 55,5%.

⚪️ Вообще, когда создавался этот бенчмарк, предполагалось, что решить его сможет только система "по-человечески умная", то есть не та, которая просто выучила кучу фактов о мире, а та, которая может рассуждать, оперируя элементарными навыками. Задачи в бечмарке напоминают мини-головоломки из книжек для самых маленьких: в каждой задаче нужно угадать паттерн перестановки квадратиков в сетке (см. примеры на картинке). И действительно, тест формировался так, чтобы для его решения нужны были только те навыки, которые человек приобретает до 4 лет: объектность, базовая топология, элементарная целочисленная арифметика (обычные люди без экспертизы легко набирают на ARC-AGI 98%-100%).

⚪️ Однако в течение четырех лет с момента создания исследователи пытались побить бенчмарк... брутфорсом. В 2020 вовсе выиграли исследователи, которые вообще не использовали в подходе машинное обучение. В этом году люди тоже пытались пропихнуть такой подход: второе место заняли как раз ребята с поиском по DSL (40%, а еще в 2020 полагали, что так можно выбить почти 50), а третье вообще ушло человеку, который с помощью GPT-4o генерировал тысячу Python скриптов на одну задачу и итеративно улучшал самые перспективные из них (в итоге 42%).

⚪️ Авторы предполагают, что такой перебор все-таки можно сделать умным, например по аналогии с тем, как это происходит в AlphaZero, но пока такой подход никто не попробовал. Ну а что касается масштабируемости, то тут выходит, что даже метод генерации программ этого года может выбить больше 80, правда для этого придется генерировать приблизительно 100 000 000 программ на задачу (а это означает многомиллионный бюджет на решение всего нескольких сотен задач). Да, вот это AGI, который мы заслужили.

⚪️ Но были в этом году и более интересные подходы. В частности, Test-Time Training, который использовали фактические победители MindsAI (они выбили 55.5, но не захотели опенсорсить код, так что по правилам не могли рассчитывать на приз). Кроме них TTT использовали те, кого наградили за первое место, а также победители статейной номинации (подробнее мы писали тут). К TTT прикручивали файнтюнинг, аугментации и даже 2D position encodings для лучшего ризонинга, и это сработало. Именно благодаря этому подходу в этом году получился такой глубокий прогресс по сравнению с прошлыми конкурсами.

Организаторы планируют вернуться в следующем году и опять устроить соревнование, но уже с улучшенным бенчмарком. Так что будем ждать 👉
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4415👏6😁4