ChatGPT 能讓醫(yī)生失業(yè)?他們直接請(qǐng)了 70 多個(gè)病人來(lái) PK
本文作者:云也
自推出以來(lái),ChatGPT 快速迭代,考過(guò)美國(guó)執(zhí)醫(yī),當(dāng)過(guò)論文一作,許多醫(yī)生用它輔助寫論文,更有大量的研究和訓(xùn)練,讓它在醫(yī)學(xué)考試、影像結(jié)果處理及疾病診斷輔助方面表現(xiàn)得越來(lái)越好。
人工智能在醫(yī)療領(lǐng)域的應(yīng)用研究成果日益增多,每每取得新的突破,就有一個(gè)問(wèn)題隨之而來(lái):ChatGPT 會(huì)取代醫(yī)生嗎?
想回答這個(gè)問(wèn)題,最直接的方式,就是讓醫(yī)生和它 PK。
本月發(fā)表的一項(xiàng)最新研究中,中國(guó)研究團(tuán)隊(duì)就真這么做了,而且,還使用了「丁香醫(yī)生」。
從「丁香醫(yī)生」找來(lái) 73 個(gè)病例,與 ChatGPT-4 PK 看病
這是一項(xiàng)由暨南大學(xué)第一附屬醫(yī)院運(yùn)動(dòng)醫(yī)學(xué)科鄭小飛教授團(tuán)隊(duì)進(jìn)行的研究。研究比較了 ChatGPT-4 和醫(yī)生在骨科遠(yuǎn)程病情咨詢中的回答質(zhì)量,上月發(fā)表于頂尖互聯(lián)網(wǎng)醫(yī)學(xué)期刊 Journal of Medical Internet Research,題為“Quality and Dependability of ChatGPT and DingXiangYuan Forums for Remote Orthopedic Consultations: Comparative Analysis”。
那么這場(chǎng) PK,是怎么進(jìn)行的呢?
研究的第一步,自然是選擇合適的醫(yī)生對(duì)照。研究團(tuán)隊(duì)選擇了中國(guó)最大的遠(yuǎn)程付費(fèi)會(huì)診平臺(tái)之一丁香醫(yī)生在線問(wèn)診平臺(tái)的遠(yuǎn)程咨詢中,篩選病例建立「會(huì)診數(shù)據(jù)集」。他們共收集了累計(jì) 8 種疾?。ㄏ喈?dāng)于 800 例)的咨詢記錄。在初次和重新篩選后,截至 2023 年 5 月,最終納入了 73 份。
研究流程
有了對(duì)照組,接下來(lái)便是解決如何讓 ChatGPT 在咨詢中發(fā)揮出它的實(shí)力。
ChatGPT 的工作方式,是在同一對(duì)話窗口內(nèi)持續(xù)回答問(wèn)題,此時(shí),每個(gè)問(wèn)題對(duì)于它而言并非獨(dú)立的,也就是說(shuō),每回答一個(gè)問(wèn)題,ChatGPT 面對(duì)下一個(gè)相關(guān)問(wèn)題就會(huì)做出調(diào)整。聽上去是順理成章的好事,但事實(shí)上這種能力也引入了系統(tǒng)誤差。
也就是說(shuō),這種相互關(guān)聯(lián)的回答,讓 ChatGPT-4 回答一系列問(wèn)題時(shí),不能在每個(gè)問(wèn)題上保持獨(dú)立性。
因此,研究者決定,每次輸入患者的問(wèn)題,都和 ChatGPT-4 創(chuàng)建一個(gè)「新聊天」。
同時(shí),研究禁用了插件和歷史記錄。這樣做是為了維護(hù)每個(gè)回答的客觀性,避免由于歷史數(shù)據(jù)引入的偏差。
PK 雙方準(zhǔn)備就緒,接下來(lái)就是需要公平的裁判——盲評(píng)估。研究者請(qǐng)來(lái)了三位經(jīng)驗(yàn)豐富的骨科外科醫(yī)生,在不知道回答來(lái)自醫(yī)生還是 ChatGPT-4 的情況下,根據(jù)特定標(biāo)準(zhǔn)評(píng)估這些回答。
評(píng)估標(biāo)準(zhǔn)主要包含以下 7 個(gè)維度:
邏輯推理
內(nèi)部信息(使用問(wèn)題中的信息)
外部信息(使用問(wèn)題之外的信息)
導(dǎo)診功能(為有需要的患者提供線下診療信息)
治療效果
醫(yī)學(xué)知識(shí)普及教育
總體滿意度
可能漏診誤診,但更適合做患教
ChatGPT 與醫(yī)生的大戰(zhàn),戰(zhàn)況究竟如何呢?我們先選擇其中一場(chǎng)觀摩一下:
← 左右滑動(dòng)對(duì)比 AI 與專業(yè)醫(yī)生回答 →
統(tǒng)計(jì)評(píng)分發(fā)現(xiàn),「總體滿意度」、「外部信息」和「引導(dǎo)功能」得分則十分相近。ChatGPT 的「內(nèi)部信息」評(píng)分和「療效」評(píng)分呈現(xiàn)低于對(duì)照組的趨勢(shì),「邏輯推理」得分較高,但差異沒有統(tǒng)計(jì)學(xué)意義。
同時(shí),ChatGPT 的「醫(yī)學(xué)知識(shí)普及教育」得分優(yōu)于對(duì)照組(平均 4.49,SD 0.67 vs 平均 3.87,SD 1.01;P<.001),差異具有統(tǒng)計(jì)學(xué)意義。
ChatGPT 現(xiàn)在的表現(xiàn),總體上得到了醫(yī)生的積極評(píng)價(jià)。
與丁香園上的專業(yè)醫(yī)療咨詢相比,ChatGPT-4 顯示出與專業(yè)醫(yī)療保健提供者相匹配的專業(yè)知識(shí),特別是在科學(xué)教育方面表現(xiàn)出色。它提供了遠(yuǎn)程健康咨詢的替代方案,從醫(yī)療保健專業(yè)人員角度,它可以作為患者教育的輔助工具,而患者可以將其作為獲取健康咨詢的便利工具。
但是,在圖像分析和診斷精確性方面的局限性,充分證明了 AI 尚不能完全替代人類醫(yī)生。ChatGPT 展現(xiàn)了其在解析大型數(shù)據(jù)庫(kù)以評(píng)估和解決查詢中的強(qiáng)大能力,甚至能夠提供文獻(xiàn)建議,但它在圖像分析方面存在困難,且成功率不是很高。
同時(shí),因?yàn)闆]有像人類醫(yī)生那樣的臨床經(jīng)驗(yàn),ChatGPT 也常見一些漏診誤診。
ChatGPT 遺漏痛風(fēng)可能的低分回答
例如,當(dāng)患者只能描述關(guān)節(jié)腫痛的癥狀,而不能給出更多其他信息,ChatGPT 就不能聯(lián)想到痛風(fēng)的診斷。此時(shí),醫(yī)生的專業(yè)評(píng)估和監(jiān)督就不可或缺。
ChatGPT 有取代醫(yī)生的空間嗎?
研究總結(jié)了 ChatGPT 在作為醫(yī)療輔助工具方面,尤其是在患者教育和初步咨詢服務(wù)中的潛力。那么 ChatGPT 究竟是否有取代醫(yī)生的實(shí)力,或是潛力?為此我們邀請(qǐng)到研究通訊作者,暨南大學(xué)附屬第一醫(yī)院院長(zhǎng)鄭小飛教授對(duì)話相關(guān)話題。
丁香園:為什么近兩年人工智能再次成為了人們的熱點(diǎn)話題?
鄭小飛教授:近兩年人工智能的發(fā)展在大語(yǔ)言模型開發(fā)上取得了重大進(jìn)展,最大特點(diǎn)是,有大型公司所開發(fā)的模型作為基礎(chǔ),用戶和開發(fā)人員的技術(shù)門檻降低,大家都可以參與個(gè)性化開發(fā)。同時(shí),它們使用起來(lái)又非常簡(jiǎn)易便捷,各領(lǐng)域的從業(yè)人員都能主動(dòng)探索應(yīng)用的落地情景。
丁香園:現(xiàn)階段,ChatGPT 在醫(yī)療中展現(xiàn)了怎樣的優(yōu)勢(shì),又遇到了哪些瓶頸?
鄭小飛教授:ChatGPT 能夠提供邏輯性強(qiáng)、內(nèi)容豐富且相關(guān)性高的回答,這一點(diǎn)在醫(yī)學(xué)知識(shí)普及教育方面尤為突出。然而,醫(yī)學(xué)影像分析對(duì)于 AI 就是一個(gè)復(fù)雜的任務(wù),需要高度專業(yè)化和定制化的訓(xùn)練數(shù)據(jù)。目前有關(guān)人工智能多模態(tài)圖像分析技術(shù),是研究人員重點(diǎn)研究方向。
丁香園:為什么選擇從丁香醫(yī)生找醫(yī)生來(lái)和 ChatGPT PK?
鄭小飛教授:我們主要考慮了實(shí)際應(yīng)用場(chǎng)景和平臺(tái)可靠程度的問(wèn)題。
中國(guó)醫(yī)療資源地區(qū)不平衡,遠(yuǎn)程醫(yī)療咨詢需求極大。結(jié)合以往的研究成果,ChatGPT 已積累了充足的醫(yī)療專業(yè)知識(shí),于是我們嘗試讓它處理一些具體的問(wèn)診案例,測(cè)試實(shí)際應(yīng)用水平。
丁香園作為中國(guó)遠(yuǎn)程醫(yī)療咨詢領(lǐng)域的標(biāo)桿企業(yè),以其服務(wù)的質(zhì)量和可靠性著稱。在丁香醫(yī)生可以查詢到眾多高質(zhì)量的付費(fèi)問(wèn)診案例,我們?cè)诒Wo(hù)患者隱私的基礎(chǔ)上,從中獲得了大量?jī)?yōu)質(zhì)數(shù)據(jù)。
丁香園:您認(rèn)為本研究最大的特點(diǎn)是什么?
鄭小飛教授:最重要的就是直接。將 ChatGPT 與丁香醫(yī)生的專業(yè)醫(yī)療回答進(jìn)行直接比較,最能切中我們亟待回答的問(wèn)題,即「AI 在醫(yī)療咨詢領(lǐng)域內(nèi)的實(shí)力及其面臨的挑戰(zhàn)」。這種對(duì)比分析不僅凸顯了 AI 在實(shí)際醫(yī)療中的廣泛應(yīng)用潛力,更為進(jìn)一步優(yōu)化和精細(xì)化應(yīng)用提供實(shí)證。
丁香園:您認(rèn)為目前 ChatGPT 有取代醫(yī)生的可能嗎?
鄭小飛教授:ChatGPT 目前肯定是不能完全替代醫(yī)生的進(jìn)行專業(yè)判斷和臨床決策的。
我們的研究體現(xiàn)了 AI 技術(shù),特別是 ChatGPT,可以為醫(yī)療保健系統(tǒng)增加價(jià)值,但醫(yī)生仍是不可替代的角色。通過(guò)自動(dòng)化初步咨詢和患者教育,AI 可以將醫(yī)生從繁重的病歷整理和患者教育工作中解脫出來(lái),讓他們能夠?qū)W⒂诟鼜?fù)雜、更需要人類專業(yè)知識(shí)和靈活應(yīng)對(duì)的任務(wù)。
然而,在臨床使用 AI 時(shí)必須保持極度謹(jǐn)慎。政策的制定和工具標(biāo)準(zhǔn)化使用的步伐往往落后于技術(shù)開發(fā),我們呼吁盡快制訂規(guī)范,但也必須等待。只有在明確的政策指導(dǎo)下,優(yōu)秀的工具才能充分發(fā)揮潛力,臨床醫(yī)生也能在使用中有效避免倫理風(fēng)險(xiǎn),減少潛在的醫(yī)療糾紛。
為此,我們也在進(jìn)行深入的調(diào)查研究,期待能與更多醫(yī)生、醫(yī)學(xué)生們交流使用這些工具的現(xiàn)狀,推動(dòng) AI 臨床應(yīng)用發(fā)展。
策劃:云也 | 監(jiān)制:carollero;題圖來(lái)源:自己做的
相關(guān)知識(shí)
花開有聲:嚴(yán)重精神病患子女和他們被“看見”的6年
甲流再次引發(fā)搶藥潮,醫(yī)生提醒:請(qǐng)勿盲目服用奧司他韋
職業(yè)病患者越來(lái)越多 6招幫你趕跑職業(yè)病
想讓寶寶更聰明 給他們吃這3種食物
白領(lǐng)一族難逃職業(yè)病 按4個(gè)穴位能緩解
醫(yī)生和什么職業(yè)的人談戀愛是「王炸」?
韓國(guó)醫(yī)改失控:罷工醫(yī)生被吊銷執(zhí)照,醫(yī)學(xué)生和教授也停課辭職了
中醫(yī)怎么防治職業(yè)病
江蘇三醫(yī)聯(lián)動(dòng)推動(dòng)國(guó)談藥落地 讓患者用得上、可報(bào)銷、能負(fù)擔(dān)
天津?qū)?業(yè)男科哪家好?這里讓男性重獲健康
網(wǎng)址: ChatGPT 能讓醫(yī)生失業(yè)?他們直接請(qǐng)了 70 多個(gè)病人來(lái) PK http://m.u1s5d6.cn/newsview14937.html
推薦資訊
- 1發(fā)朋友圈對(duì)老公徹底失望的心情 12775
- 2BMI體重指數(shù)計(jì)算公式是什么 11235
- 3補(bǔ)腎吃什么 補(bǔ)腎最佳食物推薦 11199
- 4性生活姿勢(shì)有哪些 盤點(diǎn)夫妻性 10425
- 5BMI正常值范圍一般是多少? 10137
- 6在線基礎(chǔ)代謝率(BMR)計(jì)算 9652
- 7一邊做飯一邊躁狂怎么辦 9138
- 8從出汗看健康 出汗透露你的健 9063
- 9早上怎么喝水最健康? 8613
- 10五大原因危害女性健康 如何保 7826
- 無(wú)死角清洗油污,居家清潔必備神器推薦,絕
- 最全現(xiàn)代居家廚房用具清單
- 中國(guó)十大專業(yè)減肥!居家瘦:減肥,科學(xué)飲食
- 瘦肚子最有效方法有什么?推薦這6招居家減
- 休閑零食愈發(fā)健康化,堅(jiān)果品類迎來(lái)代餐機(jī)會(huì)
- 環(huán)湖打造6個(gè)休閑廣場(chǎng) 筼筜湖景觀將進(jìn)行整
- 啞鈴塑形全攻略:居家科學(xué)訓(xùn)練打造緊致手臂
- 重金購(gòu)買“經(jīng)驗(yàn)值”,「海貍先生」成功將沿
- 居家健身族必看:跳繩 + 啞鈴 + 俯臥
- 現(xiàn)鹵美味辣友友鴨脖,席卷休閑食品市場(chǎng)