哈佛最新研究：AI看病错误率达80%

来源：第一财经 2026-04-15 19:00

在AI大模型快速发展的今天，很多人在生病或出现症状时的第一反应已经不再是去医院挂急诊，而是求助于ChatGPT或者DeepSeek这类AI聊天机器人。

尽管这些通用聊天机器人在日常生活的很多方面都能成为人类的好助手，但在医学方面，它们还不足以好到能提供精确诊断的程度。

近日，美国哈佛医学院的一个研究团队评估了20几种最先进的AI大型语言模型（LLM）的诊断能力，其中包括ChatGPT、DeepSeek、Gemini和Claude。结果显示，基于患者的初步症状和体征进行“鉴别诊断”（识别可能的疾病）的错误率高达80%。

这项研究进一步显示，在患者提供更多检测结果后，大模型可以将“最终诊断”的失败率降至40%左右。研究人员表示，这意味着AI聊天机器人需要通过充分的患者信息，才能对疾病作出更为精准的诊断，患者无法提供完整的健康检测信息时，AI提供的结果并不可靠。

研究人员还强调：“人工智能尚未达到无需医疗专业人员干预即可为患者做出诊断决策的水平。”

这一研究结果也凸显了人工智能在医疗领域应用时面临的安全挑战。聊天机器人等AI工具若不经过专业人士的严格把关，不仅会误导患者，医学从业者在使用AI作为检索资料的过程中也可能被误导。

上周《自然》杂志就刊登了一篇文章，称出现在网上的两篇假论文中的一种不存在的皮肤疾病，被同行评议的文献引用，并且开始出现在Gemini等最常用的大型语言模型聊天机器人的输出中。这些聊天机器人“一本正经”地将一些患者诊断为这种不存在的疾病，并建议人们去看相关的专科医生。

Gemini是谷歌的一款聊天机器人。一位谷歌发言人表示，此类结果反映了早期大模型发展的局限性。“我们始终对生成式AI的局限性保持透明，并提醒用户仔细核对信息。对于诸如医疗建议这类敏感事项，Gemini建议用户咨询具有资质的专业人士。”

中国科学院院士、复旦大学附属中山医院心内科主任葛均波教授近期多次谈及AI大模型在医疗应用中面临的挑战，其中两个关键问题是患者隐私如何保护，以及AI在医疗过程中一旦出现问题，责任由谁来承担？他表示，目前正在开展的工作包括如何明确AI技术辅助诊疗的边界，强化医生对AI结果的判断能力和责任意识，确保医疗安全。

尽管AI大模型仍在不断完善的过程中，但葛均波仍然相信，在不久的将来，随着AI技术的进步以及算法的提升，AI的能力一定会超过最顶尖的医生，从辅助医生逐步走向具有独立思考能力的诊疗工具。

(来源：

第一财经)

原标题：

哈佛最新研究: 用 AI大型语言模型看病，80%的初步诊断都是错的

免责声明：本页所载内容来旨在分享更多信息，不代表九方智投观点，不构成投资建议。据此操作风险自担。投资有风险、入市需谨慎。

写评论