OpenAI 推出 HealthBench #AI看病
针对医疗健康领域人工智能模型的全新评估基准(benchmark)。
该项目由来自 60 个国家的 262 位医生共同参与开发,包含 5,000 个多轮、多语言的真实健康对话,每个对话都配有由医生编写的评估标准,用于细致地评估模型的回答质量。
它的主要目的是:
1️⃣ 更好地衡量 AI 系统在现实医疗场景中的能力。
2️⃣ 通过提供一套共享的评估标准,推动医疗 AI 的发展,提高模型的性能和安全性。
3️⃣ HealthBench 包含了大量真实的医疗对话数据,并由医生团队定义了详细的评估标准,用于评估 AI 模型在处理医疗问题时的准确性、完整性和沟通质量等。
简单来说,它是一个帮助评估医疗AI“聪明”和“可靠”程度的工具和标准。
https://openai.com/index/healthbench/
针对医疗健康领域人工智能模型的全新评估基准(benchmark)。
该项目由来自 60 个国家的 262 位医生共同参与开发,包含 5,000 个多轮、多语言的真实健康对话,每个对话都配有由医生编写的评估标准,用于细致地评估模型的回答质量。
它的主要目的是:
1️⃣ 更好地衡量 AI 系统在现实医疗场景中的能力。
2️⃣ 通过提供一套共享的评估标准,推动医疗 AI 的发展,提高模型的性能和安全性。
3️⃣ HealthBench 包含了大量真实的医疗对话数据,并由医生团队定义了详细的评估标准,用于评估 AI 模型在处理医疗问题时的准确性、完整性和沟通质量等。
简单来说,它是一个帮助评估医疗AI“聪明”和“可靠”程度的工具和标准。
https://openai.com/index/healthbench/
Openai
Introducing HealthBench
HealthBench is a new evaluation benchmark for AI in healthcare which evaluates models in realistic scenarios. Built with input from 250+ physicians, it aims to provide a shared standard for model performance and safety in health.
🐳2