От этом сообщил сам Альтман в своем блоге. Он объявил, что работа над версией, включая тестирование, закончена, и что компания начинает работу над деплоем. Модель будет доступна за те же 200 долларов, так что слухи о 2к за подписку оказались неправдой (пока что).
Это не все: в реплаях на вопрос про то, насколько о3-mini лучше o1-pro, Сэм сказал «хуже во многих вещах, но быстрее». А вот полномасштабная o3, по словам CEO, будет гораздо умнее o1-pro, «не говоря уже об о3-pro»
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍60🔥21❤7
o3 – не единственная новость от OpenAI на сегодня. Technology Review сообщает, что компания работает над секретом долголетия
Оказывается, последнее время OpenAI плотно работали со стартапом Retro, в который, кстати, уже несколтко лет основательно инвестирует Альтман. Главная цель Retro – повысить общую продолжительность жизни человека на 10 лет.
TR сообщают, что за год сотрудничества OpenAI с Retro уже разработали модель GPT-4b micro. Ее обучили предлагать способы реинжиниринга факторов белка для повышения эффективности их функций. Уже даже есть первые результаты: в статье написано, что с помощью модели ученым удалось изменить два фактора Яманаки так, что они стали более чем в 50 раз эффективнее.
Сама модель пока недоступна, и еще находится на уровне внутренних демо и тестирования в Retro. Технических деталей тоже немного. Известно только, что GPT-4b micro, также, как и AlphaFold, обучалась на последовательностях белков, но архитектура у нее другая.
Статья: www.technologyreview.com/2025/01/17/1110086/openai-has-created-an-ai-model-for-longevity-science/
Оказывается, последнее время OpenAI плотно работали со стартапом Retro, в который, кстати, уже несколтко лет основательно инвестирует Альтман. Главная цель Retro – повысить общую продолжительность жизни человека на 10 лет.
TR сообщают, что за год сотрудничества OpenAI с Retro уже разработали модель GPT-4b micro. Ее обучили предлагать способы реинжиниринга факторов белка для повышения эффективности их функций. Уже даже есть первые результаты: в статье написано, что с помощью модели ученым удалось изменить два фактора Яманаки так, что они стали более чем в 50 раз эффективнее.
Сама модель пока недоступна, и еще находится на уровне внутренних демо и тестирования в Retro. Технических деталей тоже немного. Известно только, что GPT-4b micro, также, как и AlphaFold, обучалась на последовательностях белков, но архитектура у нее другая.
Статья: www.technologyreview.com/2025/01/17/1110086/openai-has-created-an-ai-model-for-longevity-science/
❤82🔥38👍12🤯7👀2🌚1🌭1
Forwarded from Data Secrets | Карьера
История о том, как молодой репортер ушел с престижной должности в огромной компании в маленький стартап и стал миллиардером
В 2016 году Джек Кларк занимал довольно высокооплачиваемую должность в Bloomberg. Но однажды он внезапно пришел к руководителю и сказал, что уходит в только что образовавшийся стартап. Тот отговаривал парня и убеждал, что это ужасная идея, но Кларк проигнорировал его и ушел.
Тем стартапом был OpenAI. В нем Джек проработал 4 года, а затем ушел и… стал одним из соучредителей Anthropic.
Сейчас его состояние оценивается в несколько миллиардов долларов.
В 2016 году Джек Кларк занимал довольно высокооплачиваемую должность в Bloomberg. Но однажды он внезапно пришел к руководителю и сказал, что уходит в только что образовавшийся стартап. Тот отговаривал парня и убеждал, что это ужасная идея, но Кларк проигнорировал его и ушел.
Тем стартапом был OpenAI. В нем Джек проработал 4 года, а затем ушел и… стал одним из соучредителей Anthropic.
Сейчас его состояние оценивается в несколько миллиардов долларов.
👍110🔥31❤18👾10😁4
Внезапно: OpenAI спонсировали EpochAI в создании бенчмарка FrontierMath и имели доступ к данным
Сразу для контекста: FrontierMath был создан недавно (пост) и позиционировался как супер-сложный закрытый математический бенчмарк. Когда он вышел, самые передовые модели набирали на нем порядка 2%. И это именно результатами на этом бенчмарке так хвастались везде и всюду OpenAI, когда представляли o3: она якобы набрала на нем аж 25% (пост).
А теперь оказывается, что OpenAI имели доступ к вопросам и ответам. В этом признались сами EpochAI после того как анонимный пользователь выложил на lesswrong пост, в котором рассказал о том, что FrontierMath спонсировался OpenAI. По его словам, финансовая коммуникация была непрозначной, и даже основная часть сотрудников EpochAI и математики, которые придумывали задачи для бенчмарка, были не в курсе.
EpochAI вину признали, но заявили, что их связывало NDA. Они подтвердили, что OpenAI имеет доступ к большинству задач бенчмарка кроме hold-out сета, но сказали, что между ними и OpenAI есть "устное соглашение о том, что эти данные не будут использоваться для обучения"🤦
Сразу для контекста: FrontierMath был создан недавно (пост) и позиционировался как супер-сложный закрытый математический бенчмарк. Когда он вышел, самые передовые модели набирали на нем порядка 2%. И это именно результатами на этом бенчмарке так хвастались везде и всюду OpenAI, когда представляли o3: она якобы набрала на нем аж 25% (пост).
А теперь оказывается, что OpenAI имели доступ к вопросам и ответам. В этом признались сами EpochAI после того как анонимный пользователь выложил на lesswrong пост, в котором рассказал о том, что FrontierMath спонсировался OpenAI. По его словам, финансовая коммуникация была непрозначной, и даже основная часть сотрудников EpochAI и математики, которые придумывали задачи для бенчмарка, были не в курсе.
EpochAI вину признали, но заявили, что их связывало NDA. Они подтвердили, что OpenAI имеет доступ к большинству задач бенчмарка кроме hold-out сета, но сказали, что между ними и OpenAI есть "устное соглашение о том, что эти данные не будут использоваться для обучения"
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡114😁75🤯28🙈16👍14🦄4❤3✍2
Data Secrets
Внезапно: OpenAI спонсировали EpochAI в создании бенчмарка FrontierMath и имели доступ к данным Сразу для контекста: FrontierMath был создан недавно (пост) и позиционировался как супер-сложный закрытый математический бенчмарк. Когда он вышел, самые передовые…
То самое устное соглашение OpenAI и EpochAI
😁185❤12✍10
Трансформер научили предсказывать паттерны активности человеческого мозга на 5 секунд вперед
При этом для предсказания нужны данные всего по 21 секунде сканирования 379 областей мозга. В основе – time series трансформер с 8 головами внимания.
На одной точке предсказания модели достигают MSE 0,0013 (для такой задачи это просто вау). Правда после 7 шага ошибки начинают накапливаться по шаблону цепи Маркова, и, таким образом, после пятой секунды прогнозы уже нельзя использовать. Но на этих пяти секундах корреляция >0,85 и, более того, модель очень точно сохраняет функциональные связи между областями мозга.
Исследование, к слову, не просто очень интересное с точки зрения ресерча способностей трансформера (но, кстати, так и до чтения мыслей недалеко), но и имеет большую практическую значимость. Например, в мире очень много пациентов, которые не выдерживают длительные сеансы МРТ, а это первый подход, который, исходя из требуемого количества точек для предсказания и точности прогнозов, действительно имеет шанс на использование.
Статья: Predicting Human Brain States with Transformer
При этом для предсказания нужны данные всего по 21 секунде сканирования 379 областей мозга. В основе – time series трансформер с 8 головами внимания.
На одной точке предсказания модели достигают MSE 0,0013 (для такой задачи это просто вау). Правда после 7 шага ошибки начинают накапливаться по шаблону цепи Маркова, и, таким образом, после пятой секунды прогнозы уже нельзя использовать. Но на этих пяти секундах корреляция >0,85 и, более того, модель очень точно сохраняет функциональные связи между областями мозга.
Исследование, к слову, не просто очень интересное с точки зрения ресерча способностей трансформера (но, кстати, так и до чтения мыслей недалеко), но и имеет большую практическую значимость. Например, в мире очень много пациентов, которые не выдерживают длительные сеансы МРТ, а это первый подход, который, исходя из требуемого количества точек для предсказания и точности прогнозов, действительно имеет шанс на использование.
Статья: Predicting Human Brain States with Transformer
👍85🔥42❤18🤯16😎2
Интересно: издание Axios сообщает, что 30 января Альтман созвал собрание правительства США
Инсайдеры говорят, что на повестке будет «большой прорыв в области ИИ супер-агентов».
😐
Инсайдеры говорят, что на повестке будет «большой прорыв в области ИИ супер-агентов».
Please open Telegram to view this post
VIEW IN TELEGRAM
😁100🔥33🤔20👍12🤪2❤1
DeepSeek релизнули веса своей новой ризонинг модели DeepSeek-R1
Напоминаем, что саму модель анонсировали в конце ноября, но все это время была доступна только ее preview версия (пост). Метрик по полноценной R1 пока нет, но учитывая, насколько сильной была превью (к посту прикрепили картинку с ее метриками), ждем чего-то феерического.
Возможно даже, что R1 будет лучше o1, учитывая, что превью версия обгоняла o1-preview на MATH и AIME 2024.
В остальном тех.деталей пока нет, известно только, что в модельке 685 B параметров, а длина цепочек ризонинга скорее всего будет больше 100к токенов. Вместе с R1, кстати, выкатили еще R1-Zero (разница пока неочевидна).
Ждем тех.отчет и метрики!
Напоминаем, что саму модель анонсировали в конце ноября, но все это время была доступна только ее preview версия (пост). Метрик по полноценной R1 пока нет, но учитывая, насколько сильной была превью (к посту прикрепили картинку с ее метриками), ждем чего-то феерического.
Возможно даже, что R1 будет лучше o1, учитывая, что превью версия обгоняла o1-preview на MATH и AIME 2024.
В остальном тех.деталей пока нет, известно только, что в модельке 685 B параметров, а длина цепочек ризонинга скорее всего будет больше 100к токенов. Вместе с R1, кстати, выкатили еще R1-Zero (разница пока неочевидна).
Ждем тех.отчет и метрики!
🔥53❤18👍15⚡4🤓1
Бенчмарки по R1 от DeepSeek не заставили себя ждать
➖ Перформанс на уровне o1 (не везде, но да). Очень сильные результаты по математике и кодингу.
➖ Модель уже доступна в чате chat.deepseek.com/ и в API. В чате бесплатно 50 сообщений в день, цены на API очень демократичные: 0.55$/M токенов на инпут без промпт кэша и 0.14$/M с ним, аутпут 2.19$/M. Это дешевле всех моделек OpenAI и Anthropic (например, o1 стоит $15.00/M input и $60.00/M output).
➖ Выложили дистиллированные варианты, аж 6 штук. Размеры: 1.5B, 7B, 14B, 32B, 8B, 70B. 32 и 70 на уровне o1-mini, 1.5B аутперформит GPT-4o и Сlaude Sonnet (!)
Ну мед 🍯
Ну мед 🍯
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥142👍27❤14🆒4⚡2🍓2❤🔥1🤯1
А это, знакомьтесь, Сэм Альтман по-китайски: CEO DeepSeek Лиан Венфенг
Вчера, после релиза R1, он был приглашен на встречу с Ли Цяном, премьер-министром Китая (который является вторым по значимости человеком в Китае после Си Цзиньпина).
Если DeepSeek сделали R1 в условиях ограниченных вычислений и средств, представьте, что они могут сделать с субсидиями Китая.
Человек года 2025 загружается🔵
Вчера, после релиза R1, он был приглашен на встречу с Ли Цяном, премьер-министром Китая (который является вторым по значимости человеком в Китае после Си Цзиньпина).
Если DeepSeek сделали R1 в условиях ограниченных вычислений и средств, представьте, что они могут сделать с субсидиями Китая.
Человек года 2025 загружается
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥260👍58🫡26😁9🤯5❤🔥2😐2❤1😭1
Итак, как же DeepSeek обучили открытую модель уровня o1? Разбираем тех.отчет по полочкам:
🔷 Первое и самое интересное: сразу после претрейна – RL. Обычно за предобучением следует файнтюнинг вида <вопрос-ответ> на размеченных данных, но здесь сразу воткнули чистое обучение с подкреплением.
Базовая модель – DeepSeek-V3-Base. В качестве алгоритма RL традиционно для DeepSeek применяется GRPO, улучшенная версия PPO (очень подробно мы описывали этот алгоритм в нашей большой статье про DeepSeekMath). Отдельно поощряется формат, в котором модель помещает свои рассуждения внутри тегов <think> и </think>.
Уже на этом шаге после нескольких тысяч итераций точность на AIME скакнула с 15.6% до 71.0% (вау!). Итого, получается модель, обученная без разметки вообще – DeepSeek-R1-Zero.
🔷 Для DeepSeek-R1 процесс повторяется с небольшой разницей. Для R1-Zero мы использовали rule-based rewards, когда ответы проверяются только самой системой (например с помощью компилляторов), без внешних разметок. И хотя точность таким образом получается приличная, сами ответы читать сложно: в них смешиваются языки, нет форматирования и тд.
Поэтому в R1 в процесс обучения все-таки добавили разметку в виде готовых цепочек рассуждений. Данные брали из DeepSeek-R1-Zero и, видимо, o1 и улучшали вручную. На них модель дообучают, а затем их же применяют в RL, прикручивая сюда еще и rejection sampling (то есть отборные ответы прямо во время RL добавляются в обучающую дату).
Интересный факт: когда на этапе RL для R1 ввели правило "доля таргетного языка в ответе должна быть больше 0.95", качество немножко просело.
🔷 И, наконец, дистилляция! Тут в качестве базовых моделей брали Qwen и Llama, а учителем выступала R1. Из модельки насемплировали 800,000 примеров, на которых ванильно зафайнтюнили учеников (как работает дистилляция, читайте в нашей статье тут). Тут вообще не использовался RL, но в статье написано, что ученые хотят попробовать его применить.
И еще раз ссылка на полный текст: github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
Базовая модель – DeepSeek-V3-Base. В качестве алгоритма RL традиционно для DeepSeek применяется GRPO, улучшенная версия PPO (очень подробно мы описывали этот алгоритм в нашей большой статье про DeepSeekMath). Отдельно поощряется формат, в котором модель помещает свои рассуждения внутри тегов <think> и </think>.
Уже на этом шаге после нескольких тысяч итераций точность на AIME скакнула с 15.6% до 71.0% (вау!). Итого, получается модель, обученная без разметки вообще – DeepSeek-R1-Zero.
Поэтому в R1 в процесс обучения все-таки добавили разметку в виде готовых цепочек рассуждений. Данные брали из DeepSeek-R1-Zero и, видимо, o1 и улучшали вручную. На них модель дообучают, а затем их же применяют в RL, прикручивая сюда еще и rejection sampling (то есть отборные ответы прямо во время RL добавляются в обучающую дату).
Интересный факт: когда на этапе RL для R1 ввели правило "доля таргетного языка в ответе должна быть больше 0.95", качество немножко просело.
И еще раз ссылка на полный текст: github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
15👍110❤32🔥16🤯6👌1