Осторожнее с ИИ, несмотря на значительный прогресс новых моделей обострилась проблема «галлюцинаций»
— то есть генерации неверной или вымышленной информации.
Независимые исследования, проведённые с использованием тестов PersonQA и SimpleQA показали, что уровень галлюцинаций
у o3 достигает от 33 до 55%, у o4-mini — от 41 до 79%, а у GPT-4.5 — 37,1%,
это пугающе высокие цифры. Microsoft и Google, активно разрабатывают инструменты для обнаружения и пометки потенциально неверных
фактов в ответах ИИ (например, Correction и Vertex). Однако эксперты признают, что полностью исключить галлюцинации невозможно — можно только снижать их частоту и предупреждать пользователей о возможных ошибках. Поэтому использование новых ИИ-моделей в критически важных сферах, всё ещё требует осторожности и дополнительной проверки получаемой информации.
— то есть генерации неверной или вымышленной информации.
Независимые исследования, проведённые с использованием тестов PersonQA и SimpleQA показали, что уровень галлюцинаций
у o3 достигает от 33 до 55%, у o4-mini — от 41 до 79%, а у GPT-4.5 — 37,1%,
это пугающе высокие цифры. Microsoft и Google, активно разрабатывают инструменты для обнаружения и пометки потенциально неверных
фактов в ответах ИИ (например, Correction и Vertex). Однако эксперты признают, что полностью исключить галлюцинации невозможно — можно только снижать их частоту и предупреждать пользователей о возможных ошибках. Поэтому использование новых ИИ-моделей в критически важных сферах, всё ещё требует осторожности и дополнительной проверки получаемой информации.
Энтузиаст запустил тест на готовность ИИ-моделей «сдать» пользователя полиции за незаконные запросы
В результате они решили жаловаться в госорганы и СМИ. Чаще всего — Claude 4 Opus и Sonnet. Gemini 2.0 Flash больше писала властям, Grok 3 от xAI Илона Маска обращался в министерства, но не к журналистам. А меньше всех «стучала» o4-mini от OpenAI.
В результате они решили жаловаться в госорганы и СМИ. Чаще всего — Claude 4 Opus и Sonnet. Gemini 2.0 Flash больше писала властям, Grok 3 от xAI Илона Маска обращался в министерства, но не к журналистам. А меньше всех «стучала» o4-mini от OpenAI.