Data Secrets

Вышел новый бенчмарк EnigmaEval, на котором все модели выбивают ровно 0

Его выпустили рисерчеры из ScaleAI (те самые, которые составляли знаменитый Humanity’s Last Exam) и он состоит из длинных и сложных головоломок, на решение которых людям требуются дни. Несколько примеров мы оставили наверху (сможете решить?)

На нормальном уровне сложности большинство моделей выбивают 0.5-1.3%, а o1 – 7%. Но если переключится на задачи высокой сложности, некоторые из которых разрабатывали для студентов MIT, все дают одинаковый результат: 0.

(DeepSeek в тесте нет, потому что для прохождения требуется мультимодальность)

Интересно, что покажет o3-mini. В нее как раз вчера добавили возможность грузить файлы и картинки.

Статья | Блогпост + лидерборд

👍97🔥40😁16❤9🎃1

18K views06:52

Data Secrets

Современное 14 февраля требует современных валентинок 😎

Please open Telegram to view this post

VIEW IN TELEGRAM

😁122❤18🦄17😐6👍5🤩4🐳3🌚2🙈1

17K viewsedited 08:22

Data Secrets

OpenAI выкатили гайд по тому, как правильно обращаться с ризонинг-моделями

Ризонинг-модели отличаются от серии GPT и не всегда могут оказаться полезнее обычных для всех типов задач. Их скорее стоит использовать для неоднозначных, многошаговых тасок по математике, инженерии или финансам. И промптить их стоит более осознанно.

Итак, записываем рекомендации от OpenAI:

🟦 Будьте проще и прямо выражайте, что вам нужно. Не используйте уловки типа «думай шаг за шагом» или «сделай глубокий вдох и хорошо подумай». Это все не только не работает с ризонерами, но и может подпортить качество ответа.

🟦 Обязательно используйте разделители, заголовки, абзацы и маркдаун (или даже теги xml). Не кормите ризонерам полотно текста, лучше разделять промпт на понятные части.

🟦 Не обязательно париться с примерами, это может сбить модель. Сначала пробуйте zero-shot без примеров вообще, а потом добавляйте их, если будет необходимо.

🟦 Если что-то не получилось с первого раза, часто модели достаточно ответить просто «подумай еще».

🟦 Сразу убедитесь, что в самом первом промпте предоставили всю нужную информацию и ограничения. Если будете добавлять ограничения по ходу диалога, это может ухудшить ответы.

Бежим пробовать 🏃‍♂️

Please open Telegram to view this post

VIEW IN TELEGRAM

👍152✍31🤯13❤7💅6🗿4

20.1K viewsedited 10:47

Data Secrets

Вам валентинка от @data_secrets

Составили специально для вас самые мльные открытки на четырнадцатое. Отправляйте горячо любимым коллегам 🩷

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤116😁36❤‍🔥17👍6👏2🍓2

18.6K views13:12

Data Secrets

Закон ~~Мура~~ Дженсена Хуанга в действии: аналитики посчитали, что установленные (то есть выкупленные и функционирующие) мощности Nvidia удваиваются каждые 10 месяцев

Кстати, при этом 77% процентов мощностей, то есть чипов, приходится на видеокарты серии Hopper типа H100: это самые популярные видюшки для обучения моделей. Сейчас в мире таких уже 4 миллиона.

🤯97🔥46👍20❤5😁1

18.8K views16:42

Data Secrets

Это DeepSeek moment для Deep Research: Perplexity выпустила бесплатный аналог агента OpenAI

Он, также как и Deep Research, может на основе n-минутного похода в интернет создавать подробные отчеты по любому вашему вопросу. С названием Perplexity тоже не запаривались 😅

В день фри юзерам доступно 5 запросов, подписчикам (20$) – 500. Для сравнения, у OpenAI DR доступен только в подписке за 200$, и за эти деньги дают 100 запросов в месяц, то есть в 150 раз меньше.

По бенчмарку Humanity’s Last Exam DR от Perplexity почти догоняет аналог от OpenAI, выбивая 21.1%. На графике видно, что это больше, чем у o1-mini high, R1 и o1 (хотя это разные продукты и сравнивать не то чтобы уместно).

Пишут также, что большинство тасок DR от Perplexity заканчивает за 3 минуты. У OpenAI это обычно 10-20.

Пробуем здесь

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

😁152❤43👍33🔥28👏7🤔7🤯3⚡1🌚1

23.9K views06:56

Data Secrets

Ситуация

😁236🔥37👍16❤9🎃3💯2🤔1

17.9K views10:42

Data Secrets

This media is not supported in your browser

VIEW IN TELEGRAM

Google сделали для Gemini бесконечную память

Это значит, что теперь там крутится умный и оптимизированный RAG и можно сослаться на любой разговор в другом чате, который был сколь угодно давно. Более того, бот может вспомнить что угодно, что было в ваших диалогах, сам, если поймет, что тема разговора схожая.

Правда, для того, чтобы активировать бесконечную память, потребуется подписка Advanced, и пока это работает только с Flash моделью. Но все равно очень круто.

OpenAI, кстати, недавно говорили, что работают над такой же фишкой.

🔥236👍57❤21😁15🤔6🙈2

20.3K views11:54

Data Secrets

⚡️ Grok-3 выйдет уже завтра

Маск обещает, что это будет самый мощный ИИ на планете. Модель покажут в прямом эфире в 8pm по тихоокеанскому времени (7:00 во вторник по мск).

Please open Telegram to view this post

VIEW IN TELEGRAM

👍138🦄55😁35❤13🔥13🤪7🌚3❤‍🔥2🤔1🗿1

18.4K views07:57

About

Blog

Apps

Platform