首頁(yè) 資訊 ChatGPT 能讓醫(yī)生失業(yè)？他們直接請(qǐng)了 70 多個(gè)病人來(lái) PK

ChatGPT 能讓醫(yī)生失業(yè)？他們直接請(qǐng)了 70 多個(gè)病人來(lái) PK

來(lái)源：泰然健康網(wǎng) 時(shí)間：2024年04月16日 14:45

本文作者：云也

自推出以來(lái)，ChatGPT 快速迭代，考過(guò)美國(guó)執(zhí)醫(yī)，當(dāng)過(guò)論文一作，許多醫(yī)生用它輔助寫論文，更有大量的研究和訓(xùn)練，讓它在醫(yī)學(xué)考試、影像結(jié)果處理及疾病診斷輔助方面表現(xiàn)得越來(lái)越好。

人工智能在醫(yī)療領(lǐng)域的應(yīng)用研究成果日益增多，每每取得新的突破，就有一個(gè)問(wèn)題隨之而來(lái)：ChatGPT 會(huì)取代醫(yī)生嗎？

想回答這個(gè)問(wèn)題，最直接的方式，就是讓醫(yī)生和它 PK。

本月發(fā)表的一項(xiàng)最新研究中，中國(guó)研究團(tuán)隊(duì)就真這么做了，而且，還使用了「丁香醫(yī)生」。

從「丁香醫(yī)生」找來(lái) 73 個(gè)病例，與 ChatGPT-4 PK 看病

這是一項(xiàng)由暨南大學(xué)第一附屬醫(yī)院運(yùn)動(dòng)醫(yī)學(xué)科鄭小飛教授團(tuán)隊(duì)進(jìn)行的研究。研究比較了 ChatGPT-4 和醫(yī)生在骨科遠(yuǎn)程病情咨詢中的回答質(zhì)量，上月發(fā)表于頂尖互聯(lián)網(wǎng)醫(yī)學(xué)期刊 Journal of Medical Internet Research，題為“Quality and Dependability of ChatGPT and DingXiangYuan Forums for Remote Orthopedic Consultations: Comparative Analysis”。

那么這場(chǎng) PK，是怎么進(jìn)行的呢？

研究的第一步，自然是選擇合適的醫(yī)生對(duì)照。研究團(tuán)隊(duì)選擇了中國(guó)最大的遠(yuǎn)程付費(fèi)會(huì)診平臺(tái)之一丁香醫(yī)生在線問(wèn)診平臺(tái)的遠(yuǎn)程咨詢中，篩選病例建立「會(huì)診數(shù)據(jù)集」。他們共收集了累計(jì) 8 種疾病（相當(dāng)于 800 例）的咨詢記錄。在初次和重新篩選后，截至 2023 年 5 月，最終納入了 73 份。

研究流程

有了對(duì)照組，接下來(lái)便是解決如何讓 ChatGPT 在咨詢中發(fā)揮出它的實(shí)力。

ChatGPT 的工作方式，是在同一對(duì)話窗口內(nèi)持續(xù)回答問(wèn)題，此時(shí)，每個(gè)問(wèn)題對(duì)于它而言并非獨(dú)立的，也就是說(shuō)，每回答一個(gè)問(wèn)題，ChatGPT 面對(duì)下一個(gè)相關(guān)問(wèn)題就會(huì)做出調(diào)整。聽(tīng)上去是順理成章的好事，但事實(shí)上這種能力也引入了系統(tǒng)誤差。

也就是說(shuō)，這種相互關(guān)聯(lián)的回答，讓 ChatGPT-4 回答一系列問(wèn)題時(shí)，不能在每個(gè)問(wèn)題上保持獨(dú)立性。

因此，研究者決定，每次輸入患者的問(wèn)題，都和 ChatGPT-4 創(chuàng)建一個(gè)「新聊天」。

同時(shí)，研究禁用了插件和歷史記錄。這樣做是為了維護(hù)每個(gè)回答的客觀性，避免由于歷史數(shù)據(jù)引入的偏差。

PK 雙方準(zhǔn)備就緒，接下來(lái)就是需要公平的裁判——盲評(píng)估。研究者請(qǐng)來(lái)了三位經(jīng)驗(yàn)豐富的骨科外科醫(yī)生，在不知道回答來(lái)自醫(yī)生還是 ChatGPT-4 的情況下，根據(jù)特定標(biāo)準(zhǔn)評(píng)估這些回答。

評(píng)估標(biāo)準(zhǔn)主要包含以下 7 個(gè)維度：

邏輯推理

內(nèi)部信息（使用問(wèn)題中的信息）

外部信息（使用問(wèn)題之外的信息）

導(dǎo)診功能（為有需要的患者提供線下診療信息）

治療效果

醫(yī)學(xué)知識(shí)普及教育

總體滿意度

可能漏診誤診，但更適合做患教

ChatGPT 與醫(yī)生的大戰(zhàn)，戰(zhàn)況究竟如何呢？我們先選擇其中一場(chǎng)觀摩一下：

← 左右滑動(dòng)對(duì)比 AI 與專業(yè)醫(yī)生回答 →

統(tǒng)計(jì)評(píng)分發(fā)現(xiàn)，「總體滿意度」、「外部信息」和「引導(dǎo)功能」得分則十分相近。ChatGPT 的「內(nèi)部信息」評(píng)分和「療效」評(píng)分呈現(xiàn)低于對(duì)照組的趨勢(shì)，「邏輯推理」得分較高，但差異沒(méi)有統(tǒng)計(jì)學(xué)意義。

同時(shí)，ChatGPT 的「醫(yī)學(xué)知識(shí)普及教育」得分優(yōu)于對(duì)照組（平均 4.49，SD 0.67 vs 平均 3.87，SD 1.01；P<.001），差異具有統(tǒng)計(jì)學(xué)意義。

ChatGPT 現(xiàn)在的表現(xiàn)，總體上得到了醫(yī)生的積極評(píng)價(jià)。

與丁香園上的專業(yè)醫(yī)療咨詢相比，ChatGPT-4 顯示出與專業(yè)醫(yī)療保健提供者相匹配的專業(yè)知識(shí)，特別是在科學(xué)教育方面表現(xiàn)出色。它提供了遠(yuǎn)程健康咨詢的替代方案，從醫(yī)療保健專業(yè)人員角度，它可以作為患者教育的輔助工具，而患者可以將其作為獲取健康咨詢的便利工具。

但是，在圖像分析和診斷精確性方面的局限性，充分證明了 AI 尚不能完全替代人類醫(yī)生。ChatGPT 展現(xiàn)了其在解析大型數(shù)據(jù)庫(kù)以評(píng)估和解決查詢中的強(qiáng)大能力，甚至能夠提供文獻(xiàn)建議，但它在圖像分析方面存在困難，且成功率不是很高。

同時(shí)，因?yàn)闆](méi)有像人類醫(yī)生那樣的臨床經(jīng)驗(yàn)，ChatGPT 也常見(jiàn)一些漏診誤診。

ChatGPT 遺漏痛風(fēng)可能的低分回答

例如，當(dāng)患者只能描述關(guān)節(jié)腫痛的癥狀，而不能給出更多其他信息，ChatGPT 就不能聯(lián)想到痛風(fēng)的診斷。此時(shí)，醫(yī)生的專業(yè)評(píng)估和監(jiān)督就不可或缺。

ChatGPT 有取代醫(yī)生的空間嗎？

研究總結(jié)了 ChatGPT 在作為醫(yī)療輔助工具方面，尤其是在患者教育和初步咨詢服務(wù)中的潛力。那么 ChatGPT 究竟是否有取代醫(yī)生的實(shí)力，或是潛力？為此我們邀請(qǐng)到研究通訊作者，暨南大學(xué)附屬第一醫(yī)院院長(zhǎng)鄭小飛教授對(duì)話相關(guān)話題。

丁香園：為什么近兩年人工智能再次成為了人們的熱點(diǎn)話題？

鄭小飛教授：近兩年人工智能的發(fā)展在大語(yǔ)言模型開(kāi)發(fā)上取得了重大進(jìn)展，最大特點(diǎn)是，有大型公司所開(kāi)發(fā)的模型作為基礎(chǔ)，用戶和開(kāi)發(fā)人員的技術(shù)門檻降低，大家都可以參與個(gè)性化開(kāi)發(fā)。同時(shí)，它們使用起來(lái)又非常簡(jiǎn)易便捷，各領(lǐng)域的從業(yè)人員都能主動(dòng)探索應(yīng)用的落地情景。

丁香園：現(xiàn)階段，ChatGPT 在醫(yī)療中展現(xiàn)了怎樣的優(yōu)勢(shì)，又遇到了哪些瓶頸？

鄭小飛教授：ChatGPT 能夠提供邏輯性強(qiáng)、內(nèi)容豐富且相關(guān)性高的回答，這一點(diǎn)在醫(yī)學(xué)知識(shí)普及教育方面尤為突出。然而，醫(yī)學(xué)影像分析對(duì)于 AI 就是一個(gè)復(fù)雜的任務(wù)，需要高度專業(yè)化和定制化的訓(xùn)練數(shù)據(jù)。目前有關(guān)人工智能多模態(tài)圖像分析技術(shù)，是研究人員重點(diǎn)研究方向。

丁香園：為什么選擇從丁香醫(yī)生找醫(yī)生來(lái)和 ChatGPT PK？

鄭小飛教授：我們主要考慮了實(shí)際應(yīng)用場(chǎng)景和平臺(tái)可靠程度的問(wèn)題。

中國(guó)醫(yī)療資源地區(qū)不平衡，遠(yuǎn)程醫(yī)療咨詢需求極大。結(jié)合以往的研究成果，ChatGPT 已積累了充足的醫(yī)療專業(yè)知識(shí)，于是我們嘗試讓它處理一些具體的問(wèn)診案例，測(cè)試實(shí)際應(yīng)用水平。

丁香園作為中國(guó)遠(yuǎn)程醫(yī)療咨詢領(lǐng)域的標(biāo)桿企業(yè)，以其服務(wù)的質(zhì)量和可靠性著稱。在丁香醫(yī)生可以查詢到眾多高質(zhì)量的付費(fèi)問(wèn)診案例，我們?cè)诒Ｗo(hù)患者隱私的基礎(chǔ)上，從中獲得了大量?jī)?yōu)質(zhì)數(shù)據(jù)。

丁香園：您認(rèn)為本研究最大的特點(diǎn)是什么？

鄭小飛教授：最重要的就是直接。將 ChatGPT 與丁香醫(yī)生的專業(yè)醫(yī)療回答進(jìn)行直接比較，最能切中我們亟待回答的問(wèn)題，即「AI 在醫(yī)療咨詢領(lǐng)域內(nèi)的實(shí)力及其面臨的挑戰(zhàn)」。這種對(duì)比分析不僅凸顯了 AI 在實(shí)際醫(yī)療中的廣泛應(yīng)用潛力，更為進(jìn)一步優(yōu)化和精細(xì)化應(yīng)用提供實(shí)證。

丁香園：您認(rèn)為目前 ChatGPT 有取代醫(yī)生的可能嗎？

鄭小飛教授：ChatGPT 目前肯定是不能完全替代醫(yī)生的進(jìn)行專業(yè)判斷和臨床決策的。

我們的研究體現(xiàn)了 AI 技術(shù)，特別是 ChatGPT，可以為醫(yī)療保健系統(tǒng)增加價(jià)值，但醫(yī)生仍是不可替代的角色。通過(guò)自動(dòng)化初步咨詢和患者教育，AI 可以將醫(yī)生從繁重的病歷整理和患者教育工作中解脫出來(lái)，讓他們能夠?qū)Ｗ⒂诟鼜?fù)雜、更需要人類專業(yè)知識(shí)和靈活應(yīng)對(duì)的任務(wù)。

然而，在臨床使用 AI 時(shí)必須保持極度謹(jǐn)慎。政策的制定和工具標(biāo)準(zhǔn)化使用的步伐往往落后于技術(shù)開(kāi)發(fā)，我們呼吁盡快制訂規(guī)范，但也必須等待。只有在明確的政策指導(dǎo)下，優(yōu)秀的工具才能充分發(fā)揮潛力，臨床醫(yī)生也能在使用中有效避免倫理風(fēng)險(xiǎn)，減少潛在的醫(yī)療糾紛。

為此，我們也在進(jìn)行深入的調(diào)查研究，期待能與更多醫(yī)生、醫(yī)學(xué)生們交流使用這些工具的現(xiàn)狀，推動(dòng) AI 臨床應(yīng)用發(fā)展。

策劃：云也 | 監(jiān)制：carollero；題圖來(lái)源：自己做的

網(wǎng)址: ChatGPT 能讓醫(yī)生失業(yè)？他們直接請(qǐng)了 70 多個(gè)病人來(lái) PK http://m.u1s5d6.cn/newsview14937.html

所屬分類：熱點(diǎn)