Data Secrets
77.3K subscribers
6.04K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Вышел новый бенчмарк EnigmaEval, на котором все модели выбивают ровно 0

Его выпустили рисерчеры из ScaleAI (те самые, которые составляли знаменитый Humanity’s Last Exam) и он состоит из длинных и сложных головоломок, на решение которых людям требуются дни. Несколько примеров мы оставили наверху (сможете решить?)

На нормальном уровне сложности большинство моделей выбивают 0.5-1.3%, а o1 – 7%. Но если переключится на задачи высокой сложности, некоторые из которых разрабатывали для студентов MIT, все дают одинаковый результат: 0.

(DeepSeek в тесте нет, потому что для прохождения требуется мультимодальность)

Интересно, что покажет o3-mini. В нее как раз вчера добавили возможность грузить файлы и картинки.

Статья | Блогпост + лидерборд
👍97🔥40😁169🎃1
Современное 14 февраля требует современных валентинок 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
😁12218🦄17😐6👍5🤩4🐳3🌚2🙈1
OpenAI выкатили гайд по тому, как правильно обращаться с ризонинг-моделями

Ризонинг-модели отличаются от серии GPT и не всегда могут оказаться полезнее обычных для всех типов задач. Их скорее стоит использовать для неоднозначных, многошаговых тасок по математике, инженерии или финансам. И промптить их стоит более осознанно.

Итак, записываем рекомендации от OpenAI:

🟦 Будьте проще и прямо выражайте, что вам нужно. Не используйте уловки типа «думай шаг за шагом» или «сделай глубокий вдох и хорошо подумай». Это все не только не работает с ризонерами, но и может подпортить качество ответа.

🟦 Обязательно используйте разделители, заголовки, абзацы и маркдаун (или даже теги xml). Не кормите ризонерам полотно текста, лучше разделять промпт на понятные части.

🟦 Не обязательно париться с примерами, это может сбить модель. Сначала пробуйте zero-shot без примеров вообще, а потом добавляйте их, если будет необходимо.

🟦 Если что-то не получилось с первого раза, часто модели достаточно ответить просто «подумай еще».

🟦 Сразу убедитесь, что в самом первом промпте предоставили всю нужную информацию и ограничения. Если будете добавлять ограничения по ходу диалога, это может ухудшить ответы.


Бежим пробовать 🏃‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15231🤯137💅6🗿4
Вам валентинка от @data_secrets

Составили специально для вас самые мльные открытки на четырнадцатое. Отправляйте горячо любимым коллегам 🩷
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
116😁36❤‍🔥17👍6👏2🍓2
Закон Мура Дженсена Хуанга в действии: аналитики посчитали, что установленные (то есть выкупленные и функционирующие) мощности Nvidia удваиваются каждые 10 месяцев

Кстати, при этом 77% процентов мощностей, то есть чипов, приходится на видеокарты серии Hopper типа H100: это самые популярные видюшки для обучения моделей. Сейчас в мире таких уже 4 миллиона.
🤯97🔥46👍205😁1