OpenAI выкатили гайд по тому, как правильно обращаться с ризонинг-моделями
Ризонинг-модели отличаются от серии GPT и не всегда могут оказаться полезнее обычных для всех типов задач. Их скорее стоит использовать для неоднозначных, многошаговых тасок по математике, инженерии или финансам. И промптить их стоит более осознанно.
Итак, записываем рекомендации от OpenAI:
Бежим пробовать🏃♂️
Ризонинг-модели отличаются от серии GPT и не всегда могут оказаться полезнее обычных для всех типов задач. Их скорее стоит использовать для неоднозначных, многошаговых тасок по математике, инженерии или финансам. И промптить их стоит более осознанно.
Итак, записываем рекомендации от OpenAI:
🟦 Будьте проще и прямо выражайте, что вам нужно. Не используйте уловки типа «думай шаг за шагом» или «сделай глубокий вдох и хорошо подумай». Это все не только не работает с ризонерами, но и может подпортить качество ответа.🟦 Обязательно используйте разделители, заголовки, абзацы и маркдаун (или даже теги xml). Не кормите ризонерам полотно текста, лучше разделять промпт на понятные части.🟦 Не обязательно париться с примерами, это может сбить модель. Сначала пробуйте zero-shot без примеров вообще, а потом добавляйте их, если будет необходимо.🟦 Если что-то не получилось с первого раза, часто модели достаточно ответить просто «подумай еще».🟦 Сразу убедитесь, что в самом первом промпте предоставили всю нужную информацию и ограничения. Если будете добавлять ограничения по ходу диалога, это может ухудшить ответы.
Бежим пробовать
Please open Telegram to view this post
VIEW IN TELEGRAM
👍152✍31🤯13❤7💅6🗿4
Вам валентинка от @data_secrets
Составили специально для вас самые мльные открытки на четырнадцатое. Отправляйте горячо любимым коллегам🩷
Составили специально для вас самые мльные открытки на четырнадцатое. Отправляйте горячо любимым коллегам
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤116😁36❤🔥17👍6👏2🍓2
Закон Мура Дженсена Хуанга в действии: аналитики посчитали, что установленные (то есть выкупленные и функционирующие) мощности Nvidia удваиваются каждые 10 месяцев
Кстати, при этом 77% процентов мощностей, то есть чипов, приходится на видеокарты серии Hopper типа H100: это самые популярные видюшки для обучения моделей. Сейчас в мире таких уже 4 миллиона.
Кстати, при этом 77% процентов мощностей, то есть чипов, приходится на видеокарты серии Hopper типа H100: это самые популярные видюшки для обучения моделей. Сейчас в мире таких уже 4 миллиона.
🤯97🔥46👍20❤5😁1
Это DeepSeek moment для Deep Research: Perplexity выпустила бесплатный аналог агента OpenAI
Он, также как и Deep Research, может на основе n-минутного похода в интернет создавать подробные отчеты по любому вашему вопросу. С названием Perplexity тоже не запаривались😅
В день фри юзерам доступно 5 запросов, подписчикам (20$) – 500. Для сравнения, у OpenAI DR доступен только в подписке за 200$, и за эти деньги дают 100 запросов в месяц, то есть в 150 раз меньше.
По бенчмарку Humanity’s Last Exam DR от Perplexity почти догоняет аналог от OpenAI, выбивая 21.1%. На графике видно, что это больше, чем у o1-mini high, R1 и o1 (хотя это разные продукты и сравнивать не то чтобы уместно).
Пишут также, что большинство тасок DR от Perplexity заканчивает за 3 минуты. У OpenAI это обычно 10-20.
Пробуем здесь
Он, также как и Deep Research, может на основе n-минутного похода в интернет создавать подробные отчеты по любому вашему вопросу. С названием Perplexity тоже не запаривались
В день фри юзерам доступно 5 запросов, подписчикам (20$) – 500. Для сравнения, у OpenAI DR доступен только в подписке за 200$, и за эти деньги дают 100 запросов в месяц, то есть в 150 раз меньше.
По бенчмарку Humanity’s Last Exam DR от Perplexity почти догоняет аналог от OpenAI, выбивая 21.1%. На графике видно, что это больше, чем у o1-mini high, R1 и o1 (хотя это разные продукты и сравнивать не то чтобы уместно).
Пишут также, что большинство тасок DR от Perplexity заканчивает за 3 минуты. У OpenAI это обычно 10-20.
Пробуем здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁152❤43👍33🔥28👏7🤔7🤯3⚡1🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
Google сделали для Gemini бесконечную память
Это значит, что теперь там крутится умный и оптимизированный RAG и можно сослаться на любой разговор в другом чате, который был сколь угодно давно. Более того, бот может вспомнить что угодно, что было в ваших диалогах, сам, если поймет, что тема разговора схожая.
Правда, для того, чтобы активировать бесконечную память, потребуется подписка Advanced, и пока это работает только с Flash моделью. Но все равно очень круто.
OpenAI, кстати, недавно говорили, что работают над такой же фишкой.
Это значит, что теперь там крутится умный и оптимизированный RAG и можно сослаться на любой разговор в другом чате, который был сколь угодно давно. Более того, бот может вспомнить что угодно, что было в ваших диалогах, сам, если поймет, что тема разговора схожая.
Правда, для того, чтобы активировать бесконечную память, потребуется подписка Advanced, и пока это работает только с Flash моделью. Но все равно очень круто.
OpenAI, кстати, недавно говорили, что работают над такой же фишкой.
🔥236👍57❤21😁15🤔6🙈2
Маск обещает, что это будет самый мощный ИИ на планете. Модель покажут в прямом эфире в 8pm по тихоокеанскому времени (7:00 во вторник по мск).
Please open Telegram to view this post
VIEW IN TELEGRAM
👍138🦄55😁35❤13🔥13🤪7🌚3❤🔥2🤔1🗿1
1997: ИИ обыгрывает Каспарова в шахматы
2016: ИИ обыгрывает Ли Седоля в Go
2025: ИИ обыгрывает зумеров в Among Us
Исследователи из Стэнфорда выпустили статью про то, как обучили модель играть в Among Us вообще без человеческой разметки. Вместо этого использовался вот такой забавный цикл обучения:
1. Классический алгоритм обучения с подкреплением – PPO (мы понятно разбирали этот алгоритм тут). Игра тут формулируется как частично наблюдаемая марковская. На этом этапе агенты выучивают общие правила и свойства среды, но плохо обучаются общению и стратегии выигрыша. Поэтому следующим этапом идет…
2. Улучшение способностей слушания. Идея в том, что модель обучают извлекать из диалогов полезную информацию и на основе нее предсказывать импостера.
3. Улучшение способностей говорения. Тут все еще прикольнее: на этом шаге модель получает положительное подкрепление, если её сообщение изменило мнение других агентов в нужном направлении. При этом чтобы агенты не переобучались на слабых импостерах, те таким же образом обучаются дезинформировать других.
И, кстати, в архитектуре не обычный трансформер, как мы привыкли, а RWKV – рекуррентная модель с линейным вниманием (подробнее в нашей статье тут). Ее выбрали, потому что она лучше масштабируется на большой контекст.
В итоге агенты, обученные таким образом, начинают генерировать вполне реалистичное поведение: лгать, обосновывать выводы, манипулировать. Они выигрывают людей в 56% случаев. Сыпятся в основном на диалогах, потому что иногда генерируют не относящиеся к контексту вещи или слишком прямолинейно начинают обвинять кого-то.
arxiv.org/abs/2502.06060
2016: ИИ обыгрывает Ли Седоля в Go
2025: ИИ обыгрывает зумеров в Among Us
Исследователи из Стэнфорда выпустили статью про то, как обучили модель играть в Among Us вообще без человеческой разметки. Вместо этого использовался вот такой забавный цикл обучения:
1. Классический алгоритм обучения с подкреплением – PPO (мы понятно разбирали этот алгоритм тут). Игра тут формулируется как частично наблюдаемая марковская. На этом этапе агенты выучивают общие правила и свойства среды, но плохо обучаются общению и стратегии выигрыша. Поэтому следующим этапом идет…
2. Улучшение способностей слушания. Идея в том, что модель обучают извлекать из диалогов полезную информацию и на основе нее предсказывать импостера.
3. Улучшение способностей говорения. Тут все еще прикольнее: на этом шаге модель получает положительное подкрепление, если её сообщение изменило мнение других агентов в нужном направлении. При этом чтобы агенты не переобучались на слабых импостерах, те таким же образом обучаются дезинформировать других.
И, кстати, в архитектуре не обычный трансформер, как мы привыкли, а RWKV – рекуррентная модель с линейным вниманием (подробнее в нашей статье тут). Ее выбрали, потому что она лучше масштабируется на большой контекст.
В итоге агенты, обученные таким образом, начинают генерировать вполне реалистичное поведение: лгать, обосновывать выводы, манипулировать. Они выигрывают людей в 56% случаев. Сыпятся в основном на диалогах, потому что иногда генерируют не относящиеся к контексту вещи или слишком прямолинейно начинают обвинять кого-то.
arxiv.org/abs/2502.06060
👍114🔥33😁30❤22🤔8🤯1🐳1
Если давно искали, что почитать по LLM, то там вышла крутая книжка The Hundred-Page Language Models Book
Внутри 200 страниц самой актуальной и очень емкой иллюстрированной информации по:
Акцент сделан на интуитивном понимании и практике: к книжке прилагается репа с отличным кодом по всем темам.
Кто читал The Hundred-Page ML Book того же автора оценят, что это за сокровище. Бесплатно можно читать здесь
Внутри 200 страниц самой актуальной и очень емкой иллюстрированной информации по:
– ML-базе: матрицы, градиентный спуск и др. математический фундамент
– Истории LLM: классические эмбеддинг-модели, RNN, BPE
– Внутреннему устройству трансформеров от аттеншена до key-value caching
– LLM: файнтюнинг, промптинг, скейлинг, элаймент, мультимодальность, RL и ризонинг
Акцент сделан на интуитивном понимании и практике: к книжке прилагается репа с отличным кодом по всем темам.
Кто читал The Hundred-Page ML Book того же автора оценят, что это за сокровище. Бесплатно можно читать здесь
👍125🔥41❤24🫡6😁3☃2👏1🤯1