Appinn Feed

OpenAI 推出 HealthBench #AI看病

针对医疗健康领域人工智能模型的全新评估基准（benchmark）。

该项目由来自 60 个国家的 262 位医生共同参与开发，包含 5,000 个多轮、多语言的真实健康对话，每个对话都配有由医生编写的评估标准，用于细致地评估模型的回答质量。

它的主要目的是：

1️⃣ 更好地衡量 AI 系统在现实医疗场景中的能力。
2️⃣ 通过提供一套共享的评估标准，推动医疗 AI 的发展，提高模型的性能和安全性。
3️⃣ HealthBench 包含了大量真实的医疗对话数据，并由医生团队定义了详细的评估标准，用于评估 AI 模型在处理医疗问题时的准确性、完整性和沟通质量等。

简单来说，它是一个帮助评估医疗AI“聪明”和“可靠”程度的工具和标准。

https://openai.com/index/healthbench/

Openai

Introducing HealthBench

HealthBench is a new evaluation benchmark for AI in healthcare which evaluates models in realistic scenarios. Built with input from 250+ physicians, it aims to provide a shared standard for model performance and safety in health.

🐳2

2.15K viewsedited 08:49

About

Blog

Apps

Platform