Вышло двухчасовое интервью с легендами Google Джеффом Дином и Ноамом Шазиром
Джефф сейчас старший научный сотрудник Google Brain. Он разрабатывал MapReduce, BigTable, Tensorflow, AlphaChip и Gemini.
А Ноам – это фаундер Character AI, которому Google недавно заплатили 2.7 миллиарда долларов за то, чтобы он вернулся в компанию со своей технологией.
Поговорили про MoE, новые архитектуры, 25-летнее становление Google и AI в нем, AlphaChip, AGI и экономику ИИ.
Нарезали для вас немного интересных цитат:
youtu.be/v0gjI__RyCY?si=82zRs8B6w2jusxlg
Джефф сейчас старший научный сотрудник Google Brain. Он разрабатывал MapReduce, BigTable, Tensorflow, AlphaChip и Gemini.
А Ноам – это фаундер Character AI, которому Google недавно заплатили 2.7 миллиарда долларов за то, чтобы он вернулся в компанию со своей технологией.
Поговорили про MoE, новые архитектуры, 25-летнее становление Google и AI в нем, AlphaChip, AGI и экономику ИИ.
Нарезали для вас немного интересных цитат:
ИИ уже генерирует 25% кода Google. Мы обучили Gemini на своей внутренней кодовой базе, и это помогает разработчикам.
К 2030 году агенты будут повсюду, мировой ВВП вырастет на несколько порядков и мы решим проблему неограниченной энергии.
AGI будет одним гигантским MoE, который не обучается весь сразу, а выращивается частями
youtu.be/v0gjI__RyCY?si=82zRs8B6w2jusxlg
🔥86👍27🤪22❤12🤔5🦄2🎄1
Вышел новый бенчмарк EnigmaEval, на котором все модели выбивают ровно 0
Его выпустили рисерчеры из ScaleAI (те самые, которые составляли знаменитый Humanity’s Last Exam) и он состоит из длинных и сложных головоломок, на решение которых людям требуются дни. Несколько примеров мы оставили наверху (сможете решить?)
На нормальном уровне сложности большинство моделей выбивают 0.5-1.3%, а o1 – 7%. Но если переключится на задачи высокой сложности, некоторые из которых разрабатывали для студентов MIT, все дают одинаковый результат: 0.
(DeepSeek в тесте нет, потому что для прохождения требуется мультимодальность)
Интересно, что покажет o3-mini. В нее как раз вчера добавили возможность грузить файлы и картинки.
Статья | Блогпост + лидерборд
Его выпустили рисерчеры из ScaleAI (те самые, которые составляли знаменитый Humanity’s Last Exam) и он состоит из длинных и сложных головоломок, на решение которых людям требуются дни. Несколько примеров мы оставили наверху (сможете решить?)
На нормальном уровне сложности большинство моделей выбивают 0.5-1.3%, а o1 – 7%. Но если переключится на задачи высокой сложности, некоторые из которых разрабатывали для студентов MIT, все дают одинаковый результат: 0.
(DeepSeek в тесте нет, потому что для прохождения требуется мультимодальность)
Интересно, что покажет o3-mini. В нее как раз вчера добавили возможность грузить файлы и картинки.
Статья | Блогпост + лидерборд
👍97🔥40😁16❤9🎃1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁122❤18🦄17😐6👍5🤩4🐳3🌚2🙈1
OpenAI выкатили гайд по тому, как правильно обращаться с ризонинг-моделями
Ризонинг-модели отличаются от серии GPT и не всегда могут оказаться полезнее обычных для всех типов задач. Их скорее стоит использовать для неоднозначных, многошаговых тасок по математике, инженерии или финансам. И промптить их стоит более осознанно.
Итак, записываем рекомендации от OpenAI:
Бежим пробовать🏃♂️
Ризонинг-модели отличаются от серии GPT и не всегда могут оказаться полезнее обычных для всех типов задач. Их скорее стоит использовать для неоднозначных, многошаговых тасок по математике, инженерии или финансам. И промптить их стоит более осознанно.
Итак, записываем рекомендации от OpenAI:
🟦 Будьте проще и прямо выражайте, что вам нужно. Не используйте уловки типа «думай шаг за шагом» или «сделай глубокий вдох и хорошо подумай». Это все не только не работает с ризонерами, но и может подпортить качество ответа.🟦 Обязательно используйте разделители, заголовки, абзацы и маркдаун (или даже теги xml). Не кормите ризонерам полотно текста, лучше разделять промпт на понятные части.🟦 Не обязательно париться с примерами, это может сбить модель. Сначала пробуйте zero-shot без примеров вообще, а потом добавляйте их, если будет необходимо.🟦 Если что-то не получилось с первого раза, часто модели достаточно ответить просто «подумай еще».🟦 Сразу убедитесь, что в самом первом промпте предоставили всю нужную информацию и ограничения. Если будете добавлять ограничения по ходу диалога, это может ухудшить ответы.
Бежим пробовать
Please open Telegram to view this post
VIEW IN TELEGRAM
👍152✍31🤯13❤7💅6🗿4
Вам валентинка от @data_secrets
Составили специально для вас самые мльные открытки на четырнадцатое. Отправляйте горячо любимым коллегам🩷
Составили специально для вас самые мльные открытки на четырнадцатое. Отправляйте горячо любимым коллегам
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤116😁36❤🔥17👍6👏2🍓2