Google MedPaLM 2 AI 美国USMLE 医师资格考试

运维资讯 2023-07-20 捡田螺的小男孩手机阅读

根据 12 日的一项同行评审研究，Google 的 AI 医疗聊天机器人在难度极高的美国USMLE 执业医师资格考试中及格，但其答案仍远比不上人类医师。

法新社报导，去年，ChatGPT 由 Google 竞争对手 Microsoft（微软）资助的OpenAI 开发上市，科技巨头开始在快速发展的人工智能领域竞争拉开序幕。

尽管对于人工智能未来的可能性和危险性已经引起广泛讨论，但在健康领域，这项技术已经得到具体进展，包括能够像人类一样解读某些医学扫描图像。

去年 12 月，Google 首次在学术著作预印本中，展示回答医学问题的 AI 工具 Med-PaLM。与 ChatGPT 不同，Google 尚未公布于众。

这家美国科技巨头说，Med-PaLM 是第一个通过美国医师执照资格考试的大语言模型，该模型的 AI 技术通过大量人类生成的文本训练。

这项考试的受试者为美国医学生和受训医师，及格分数约为 60 分。在 2 月，一项研究指出 ChatGPT 已经达到及格或接近及格的结果。

在 12 日发表于自然杂志（journal Nature）的同行评审研究中，Google 研究人员表示，Med-PaLM 在具有美国 USMLE 执业医师资格考试选择题中取得 67.6 分。该研究写道：Med-PaLM的表现令人鼓舞，但仍比临床医师差。

为了辨识并减少错觉，Google 已经开发一套新的评估指标。Google 研究人员及这份新研究报告的主要作者辛格霍（Karan Singhal）告诉法新社，团队已使用这一套评估指标测试他们新版本的模型，并取得非常令人兴奋的结果。

一份发布于 5 月的学术著作预印本中的研究指出，Med-PaLM 2 在美国 USMLE 执业医师资格考试中取得 86.5 分，比前一个版本提高近 20%。

未参与研究的英国巴斯大学（University of Bath）电脑科学家达芬波特（James Davenport）说，这些 AI 医疗聊天机器人正面临一个棘手问题，但人们故意视而不见。他表示，医学问题与实际医学间存有很大的差异，医学实际包含诊断和治疗真正的健康问题。

英国里兹大学（Leeds University）AI 专家寇恩（Anthony Cohn）说：「错觉大概会永远是这些大语言模型的问题，因为他们具有统计学上的本质。」因此，寇恩指出：「这些模型应该始终被视为辅具，而非最终的决策者。」

运维资讯 2023-08-10 捡田螺的小男孩

运维资讯 2024-07-11 捡田螺的小男孩

运维资讯 2024-03-22 捡田螺的小男孩

运维资讯 2023-10-11 捡田螺的小男孩

运维资讯 2024-03-09 捡田螺的小男孩