研究：AI醫療聊天機器人通過美國醫師資格考

根據昨天的一項同行評審研究，Google 的人工智慧（AI）醫療聊天機器人在難度極高的美國 USMLE 執業醫師資格考試中及格，但其答案仍遠比不上人類醫師。

法新社報導，去年， Chat GPT 由 Google 競爭對手 Microsoft （微軟）資助的 OpenAI 開發上市，為科技巨頭在快速發展的人工智慧領域競爭拉開序幕。

儘管對於人工智慧未來的可能性和危險性已經引起廣泛討論，但在健康領域，這項技術已經展現了具體進展，包括能夠像人類一樣解讀某些醫學掃瞄。

去年 12 月，Google 首次在學術著作預印本中，展示了回答醫學問題的人工智慧工具 Med-PaLM 。與 Chat GPT 不同，Google 尚未公布於眾。

這家美國科技巨頭說， Med-PaLM 是第一個通過美國醫師執照資格考試（ USMLE ）的大型語言模型，該模型的人工智慧技術透過大量人類生成的文本訓練。

這項考試的受試者為美國醫學生和受訓醫師，及格分數約為 60 分。

在二月，一項研究指出 Chat GPT 已經達到及格或接近及格的結果。

在昨天發表於自然雜誌（ journal Nature ）的同行評審研究中，Google 研究人員表示，Med-PaLM 在具有美國 USMLE 執業醫師資格考試風格的選擇題中取得 67 .6分。

該研究寫道：「Med-PaLM 的表現令人鼓舞，但仍比臨床醫師差。」

為了辨識並減少「錯覺」（用於稱作 AI 模型提供錯誤資訊的情況），Google 說已經開發一套新的評估指標。

Google 研究人員及這份新研究報告的主要作者辛格霍（ Karan Singhal ）告訴法新社，團隊已使用這一套評估指標測試他們新版本的模型，並取得了「非常令人興奮的」結果。

一份發布於 5 月的學術著作預印本中的研究指出， Med-PaLM 2在美國 USMLE 執業醫師資格考試中取得 86 .5分，比前一個版本提高了近 20 %。

未參與研究的英國巴斯大學（ University of Bath ）電腦科學家達芬波特（ James Davenport ）說，這些人工智慧醫療聊天機器人正面臨一個棘手問題，「但人們故意視而不見」。

他表示，「醫學問題與實際醫學」間存有很大的差異，醫學實際上包含診斷和治療真正的健康問題。

英國里茲大學（ Leeds University ）人工智慧專家寇恩（ Anthony Cohn ）說：「錯覺大概會永遠是這些大型語言模型的問題，因為他們具有統計學上的本質。」

因此，寇恩指出：「這些模型應該始終被視為輔具，而非最終的決策者。」

（新聞資料來源 : 中央社）

研究：AI醫療聊天機器人 通過美國醫師資格考