Forwarded from ⚡️Лобушкин молнит
Forwarded from ⚡️Лобушкин молнит
Forwarded from Михаил Пожидаев
Когда все уже расслабились от «глупостей» ChatGPT и GPT-4, в процессе разработки моделей произошёл интересный поворот. В целом, ожидаемый, но от этого не менее интригующий. Интересен он тем, что модели впервые пытаются научить «думать» (ниже будут подробности, что не совсем впервые, конечно).
История началась с оценок математических возможностей ChatGPT и GPT-4. Мне попадались оценки успешности решения математических задач в диапазоне от 2% до 78%. Очень много зависит от того, как формируется тестовый набор, т.е. что принимается за 100%. Поэтому цифры были в целом не так важны.
Традиционная схема работы генеративной модели, при которой модель генерирует ответ в рамках одной итерации, реализует стратегию, называемую outcome supervision. Разработчики начали предпринимать попытки развить её в новую схему, называемую process supervision. В новом варианте модель должна пройти для генерации ответа несколько шагов обработки, на каждом из которых получает отдельное «вознаграждение» (rewarding).
Многих людей это дело немало порадовало, потому что эта схема уже начинает напоминать процесс размышления у человека. Результат будет получен после того, как обработается цепочка вывода с критической оценкой промежуточного результата на каждом шаге. Давно хотелось заставить модели «думать», но ничего не получалось. Всё решат, конечно, фактические результаты, которых удастся достичь. Будем наблюдать, но уместны некоторые оговорки.
Подобная идея далеко не нова. В архаическом ИИ был целый пласт исследований, направленных на развитие логического поиска и вывода. Прежде всего вспомним алгоритм A*, который может проводить поиск, если задана направляющая функция (именно она, мне кажется, лучше всего подходит под применяемые «вознаграждения»). Всё это было давно и в своё время никаких значимых результатов не показало.
Вместе с тем, видимо, можно предположить, что Open AI фактически признало ограниченность работы GPT в схеме outcome supervision.
https://openai.com/research/improving-mathematical-reasoning-with-process-supervision
https://weloveai.ca/improving-mathematical-reasoning-with-process-supervision/
#GPT #OpenAI #progresssupervision
История началась с оценок математических возможностей ChatGPT и GPT-4. Мне попадались оценки успешности решения математических задач в диапазоне от 2% до 78%. Очень много зависит от того, как формируется тестовый набор, т.е. что принимается за 100%. Поэтому цифры были в целом не так важны.
Традиционная схема работы генеративной модели, при которой модель генерирует ответ в рамках одной итерации, реализует стратегию, называемую outcome supervision. Разработчики начали предпринимать попытки развить её в новую схему, называемую process supervision. В новом варианте модель должна пройти для генерации ответа несколько шагов обработки, на каждом из которых получает отдельное «вознаграждение» (rewarding).
Многих людей это дело немало порадовало, потому что эта схема уже начинает напоминать процесс размышления у человека. Результат будет получен после того, как обработается цепочка вывода с критической оценкой промежуточного результата на каждом шаге. Давно хотелось заставить модели «думать», но ничего не получалось. Всё решат, конечно, фактические результаты, которых удастся достичь. Будем наблюдать, но уместны некоторые оговорки.
Подобная идея далеко не нова. В архаическом ИИ был целый пласт исследований, направленных на развитие логического поиска и вывода. Прежде всего вспомним алгоритм A*, который может проводить поиск, если задана направляющая функция (именно она, мне кажется, лучше всего подходит под применяемые «вознаграждения»). Всё это было давно и в своё время никаких значимых результатов не показало.
Вместе с тем, видимо, можно предположить, что Open AI фактически признало ограниченность работы GPT в схеме outcome supervision.
https://openai.com/research/improving-mathematical-reasoning-with-process-supervision
https://weloveai.ca/improving-mathematical-reasoning-with-process-supervision/
#GPT #OpenAI #progresssupervision
Openai
Improving mathematical reasoning with process supervision
We've trained a model to achieve a new state-of-the-art in mathematical problem solving by rewarding each correct step of reasoning (“process supervision”) instead of simply rewarding the correct final answer (“outcome supervision”). In addition to boosting…
Forwarded from ⚡️Лобушкин молнит
OpenAI прокомментировала ситуацию с «запуском ChatGPT на Госуслугах», сообщив, что он просто недоступен в России — ТАСС
#OpenAI #AI #Russia #Госуслуги
#OpenAI #AI #Russia #Госуслуги