首頁 資訊 萬字長文:58歲的心理AI,會比人類更“忠誠”嗎?

萬字長文:58歲的心理AI,會比人類更“忠誠”嗎?

來源:泰然健康網(wǎng) 時間:2024年12月19日 11:38
文 | 追問nextquestion

1966年,首個AI精神健康聊天機器人Eliza問世,作為一種簡單的自然語言處理程序,它模擬了心理治療師的對話風(fēng)格,標(biāo)志著AI在心理健康領(lǐng)域應(yīng)用的起點。

58年后的今天,人才短缺與需求多重等挑戰(zhàn),依然限制著心理健康領(lǐng)域的發(fā)展。在這方面,基于AI構(gòu)建的大語言模型(LLM),如Open AI的GPT-4和谷歌的Gemini,展示了在支持、增強,甚至最終自動化心理治療方面的巨大潛力[1]。

但是,負責(zé)任且基于循證的臨床實踐的臨床心理治療,離不開深厚且精準(zhǔn)的專業(yè)知識。臨床心理學(xué),也因此成為AI難以踏足的高風(fēng)險領(lǐng)域。

那么,臨床心理治療領(lǐng)域真正期待的LLM,應(yīng)該具備什么功能與特質(zhì)?應(yīng)用心理治療LLM,是否真的會影響治療聯(lián)盟的關(guān)系紐帶?

近期,綜述論文《大語言模型可改變行為醫(yī)療保健的未來:負責(zé)任的開發(fā)和評估建議》一文,梳理了LLM在心理治療中臨床應(yīng)用的最新研究進展,并提出了在這一敏感領(lǐng)域中進行負責(zé)任開發(fā)和評估的建議,為LLM在心理治療中臨床應(yīng)用提供了全景式導(dǎo)航。


?原文鏈接:https://www.nature.com/articles/s44184-024-00056-z

01 引言

在行為健康(Behavioral healthcare)領(lǐng)域,LLM的應(yīng)用也已開始,人們正嘗試將其用于準(zhǔn)治療(quasi-therapeutic)目的[2]。

融合了自然語言處理(NLP)技術(shù)的傳統(tǒng)AI應(yīng)用,早已存在了幾十年[3]。例如,機器學(xué)習(xí)和NLP已被用于檢測自殺風(fēng)險[4],識別心理治療療程中的家庭作業(yè)分配[5]以及患者情緒[6]。

行為健康領(lǐng)域的LLM應(yīng)用目前還處于起步階段——包括定制LLM以幫助心理咨詢師提高同理心表達能力,這種方法已在學(xué)術(shù)和商業(yè)環(huán)境中與客戶部署[2,7]。另一個例子是,LLM應(yīng)用已被用于在動機訪談框架中識別治療師和咨詢者的行為[8,9]。

類似地,盡管在面向患者的行為健康領(lǐng)域已部署上了NPL算法智能,但這些領(lǐng)域尚未被大量使用LLM。例如,針對抑郁癥和飲食障礙的心理健康聊天機器人Woebot和Tessa[10,11],它們都是基于規(guī)則的而非使用LLM,即應(yīng)用的內(nèi)容是人類生成的,聊天機器人基于預(yù)定義的規(guī)則或決策樹回復(fù)[12]。然而,它們和其他現(xiàn)有的聊天機器人一樣,經(jīng)常難以理解和響應(yīng)用戶預(yù)料之外的問題[10,13],這可能是導(dǎo)致它們參與度低和退出率高的原因之一[14,15]。

而LLM能夠靈活生成類似人類的上下文相關(guān)的回復(fù),因此可能有助于填補這些空白。目前已有一些面向患者的結(jié)合LLM的應(yīng)用程序進入了測試階段,包括一個基于研究的生成治療咨詢對話的應(yīng)用程序[16,17],以及一個基于行業(yè)數(shù)據(jù)的混合使用規(guī)則和生成式AI的心理健康聊天機器人Youper[18]。

這些早期應(yīng)用展示了LLM在心理治療中的潛力——隨著其應(yīng)用的普及,它們將改變心理治療護理服務(wù)方式。然而,鑒于精神疾病病理學(xué)和治療的復(fù)雜性質(zhì),盡管LLM在這一方面前景廣闊,但仍有必要保持謹慎。

與其它LLM應(yīng)用相比,提供心理治療是一個異常復(fù)雜、風(fēng)險極高的領(lǐng)域。例如,在生產(chǎn)力方面,如果有一個“LLM助理(LLM co-pilot)”總結(jié)心理治療的對話筆記,風(fēng)險在于LLM可能無法最大限度地提高效率和提供幫助;而在行為健康護理中,風(fēng)險可能包括自殺或謀殺風(fēng)險處理不當(dāng)。

AI在其他領(lǐng)域的應(yīng)用可能生死攸關(guān)(例如自動駕駛汽車),但在心理治療案例中預(yù)測和緩解風(fēng)險則更為微妙,涉及復(fù)雜的案例概念化、考慮社會文化背景以及應(yīng)對不可預(yù)測的人類行為。臨床實踐中的不良結(jié)果或倫理違規(guī)可能對個人造成傷害,這也可能被過度宣傳(如其他AI失敗案例一樣[19]),這可能會損害公眾對行為心理治療的信任。

因此,臨床LLM的開發(fā)者需要特別謹慎行事,以防止此類后果。開發(fā)負責(zé)任的臨床LLM的統(tǒng)籌頗具挑戰(zhàn),主要是因為負責(zé)產(chǎn)品設(shè)計開發(fā)的技術(shù)開發(fā)者通常缺乏臨床敏感性和經(jīng)驗。因此,需要行為健康專家的關(guān)鍵性作用,指導(dǎo)開發(fā)并就應(yīng)用的潛在局限性、倫理考量和風(fēng)險發(fā)表意見。下文就將從行為健康提供者和技術(shù)人員的角度出發(fā),對LLM在行為健康中應(yīng)用的未來展開討論。

02 LLM臨床應(yīng)用概述

臨床LLM的形式多樣,從簡短的干預(yù)或用于輔助治療的限定工具,到旨在自主提供心理治療的聊天機器人,應(yīng)有盡有。這些應(yīng)用可以是:

面向患者的(如向患者提供心理咨詢),

面向治療師的(如為治療師提供可供選擇的干預(yù)選項),

面向?qū)嵙?xí)心理治療師的(如對實習(xí)心理治療師的表現(xiàn)質(zhì)量提供反饋),

或面向督導(dǎo)的(例如,高水平總結(jié)受督導(dǎo)者的治療過程)。

(1)語言模型的工作機制

語言模型,即對詞語序列出現(xiàn)概率的計算模型,已經(jīng)存在很長時間了。其數(shù)學(xué)公式可追溯到的[20],最初的應(yīng)用案例集中在壓縮通信[21]和語音識別[22,23,24]上。語言模型已成為語音識別和自動翻譯系統(tǒng)選擇候選詞的主流方法,但直到最近,使用這些模型生成自然語言,很難在抽象詩歌[24]之外取得成功。

(2)大語言模型

大語言模型的興起,得益于Transformer深度學(xué)習(xí)技術(shù)[25]和計算能力的提升[26]。這些模型首先使用“無監(jiān)督”學(xué)習(xí)在大量數(shù)據(jù)上進行訓(xùn)練,其中模型的任務(wù)是預(yù)測單詞序列中的給定單詞[27,28]。然后可以通過包括使用示例提示或微調(diào)等方法,對模型進行特定任務(wù)的定制,其中一些方法不需要或只需要少量特定任務(wù)的數(shù)據(jù)(見圖1)[28,29]。LLM在臨床應(yīng)用方面具有潛力,它們可以解析人類語言并生成類似人類的回復(fù),對文本進行分類/評分(即標(biāo)注),并靈活采用代表不同認知理論對應(yīng)的對話風(fēng)格。


?圖1:定制臨床大語言模型的方法

(3)LLM與心理治療技能

在某些應(yīng)用案例中,LLM顯示出執(zhí)行心理治療的任務(wù)或技能所需的潛力,例如進行評估、提供心理疾病教育和演示干預(yù)措施(見圖 2)。

然而,迄今為止,臨床LLM產(chǎn)品和技術(shù)雛形尚未達到接近取代心理治療師的精密程度。例如,雖然LLM可以按照認知行為療法(CBT)方法生成替代性信念,但它能否發(fā)起蘇格拉底式輪流提問以引發(fā)認知變化,還有待觀察。這更普遍地突顯了在模擬治療技能和切實減輕患者痛苦之間可能的差距。鑒于心理治療記錄可能少見于在LLM的訓(xùn)練數(shù)據(jù)中,以及隱私和倫理問題的挑戰(zhàn),因此,提示工程(prompt engineering)可能是塑造LLM行為的最為合適的微調(diào)方法。


?圖2:大語言模型的臨床技能示例。

03 臨床LLM的各個整合階段

將LLM整合到心理治療中,可表述為從輔助型AI(assistive AI)連續(xù)衍變(continuum)為完全自主型AI(fully autonomous AI),類比其他領(lǐng)域的AI整合模式,如自動駕駛汽車行業(yè)(見圖3和表1)。

連續(xù)衍變的起點是輔助型AI(“機器在環(huán)”)階段,其中車輛輔助駕駛系統(tǒng)本身沒有能力獨立完成主要任務(wù)(如加速、制動和轉(zhuǎn)向),而是提供瞬時的輔助(如自動緊急制動、車道偏離警告)以提高駕駛質(zhì)量或減輕駕駛員負擔(dān)。在協(xié)作型AI(“人在環(huán)”)階段,車輛系統(tǒng)協(xié)助完成主要任務(wù),但需要人類監(jiān)督(如自適應(yīng)巡航控制、車道保持輔助)。最終,在完全自主型AI階段,車輛可以自動駕駛,不需要人類監(jiān)督。


?圖3:將大語言模型整合到心理治療中的多個階段。


?表1:將大語言模型整合到心理治療中的多個階段

第一階段:輔助型LLM

在LLM整合的第一階段,AI將作為工具輔助臨床治療提供者和研究人員完成那些可以輕松“外包”給AI助手的任務(wù)(表1;第一行)。由于這是整合的初始步驟,涉及的任務(wù)將是低級別的、具體的和特定的,因此風(fēng)險較低。例如,協(xié)助收集患者入院或評估信息、為患者提供基本的心理疾病教育、為從事基于文本的護理(text-based care)的咨詢師提供文本編輯建議,以及匯總患者表單等。此階段的系統(tǒng),還可以起草會議記錄以支持臨床中的文字工作。

第二階段:協(xié)作型LLM

衍變更進一步,AI系統(tǒng)將發(fā)揮主導(dǎo)作用,為治療計劃和大部分治療內(nèi)容提供或建議選項,而人類則運用其專業(yè)判斷從中進行選擇或調(diào)整。例如,在文本或即時消息傳遞的結(jié)構(gòu)化心理治療干預(yù)中,LLM可能會生成包含會話內(nèi)容和任務(wù)的信息,治療師將在發(fā)送前根據(jù)需要對其進行審查和調(diào)整(表1;第二行)。在協(xié)作階段 AI 更高級的應(yīng)用,可能包括LLM以半獨立的方式(如,作為聊天機器人)提供結(jié)構(gòu)化干預(yù),提供者將監(jiān)控討論并在需要時介入控制對話。該階段與“引導(dǎo)性自助(guilded self-help)”法[30]有相似之處。

第三階段:完全自主LLM

在完全自主階段,AI將實現(xiàn)最大程度的應(yīng)用領(lǐng)域和自主性,其中臨床LLM將整合一系列臨床技能并實施干預(yù)措施,無需臨床治療提供者的直接監(jiān)督(表1;第三行)。例如,這一階段的應(yīng)用,理論上可以進行全面評估,選擇適當(dāng)?shù)母深A(yù)措施,并全程提供治療,而無需人工干預(yù)。除了臨床內(nèi)容外,這一階段的應(yīng)用還可以集成電子健康記錄,完成臨床文檔和報告撰寫,安排預(yù)約和處理賬單。完全自主的應(yīng)用提供了極具推及潛力的治療方法[30]。

進階之路

各階段的進展可能不是線性的,需要人工監(jiān)督,以確保更高整合階段的應(yīng)用能夠安全地在現(xiàn)實世界中部署。

不同形式的精神疾病及其干預(yù)措施,復(fù)雜程度各有不同,某些類型的干預(yù)措施在開發(fā)LLM應(yīng)用上可能比其他類型更簡單。與包含抽象技能或強調(diào)認知變化的應(yīng)用(如蘇格拉底式提問)相比,更具體和標(biāo)準(zhǔn)化的干預(yù)措施可能更容易由模型提供(并且可能更早可用),例如特定的行為改變干預(yù)措施(如活動安排)。

同樣,在完整的治療方案方面,用于高度結(jié)構(gòu)化、行為化和程序化的干預(yù)措施(例如失眠的CBT[CBT-I]或特定恐懼的暴露療法)的LLM應(yīng)用,可能比提供高度靈活或個性化干預(yù)措施的應(yīng)用更早面世[31]。

在理論上,將LLM整合到心理治療中的最終階段是完全自主的心理治療交付,無需人工干預(yù)或監(jiān)控。然而,完全自主的AI系統(tǒng)能否達到經(jīng)評估可安全部署到行為健康領(lǐng)域的程度,還有待觀察[32]。

具體的擔(dān)憂,包括這些系統(tǒng)能否有效地對癥狀表現(xiàn)復(fù)雜、高度共病的個案概念化,如考慮當(dāng)前和既往的自殺傾向、藥物使用、安全擔(dān)憂、其它共患疾病以及生活環(huán)境和事件(如法庭日期和即將進行的醫(yī)療程序)。

目前也不明確,這些系統(tǒng)能否證明其擅長讓患者長期參與治療,或解析和應(yīng)對治療期間的文本中的細微差別(例如,使用暴露療法治療因創(chuàng)傷后應(yīng)激障礙而害怕離開家的患者,而該患者同時還生活在犯罪率較高的社區(qū))。

此外,被視為臨床工作核心的幾項技能,目前并不在LLM系統(tǒng)的能力范圍內(nèi)例如解讀非言語行為(例如,坐立不安、翻白眼)、恰當(dāng)?shù)靥魬?zhàn)患者、處理聯(lián)盟破裂(alliance ruptures)以及做出終止治療的決定。技術(shù)進步,包括即將到來的整合了文本、圖像、視頻和音頻的多模態(tài)語言模型,最終可能開始填補這些空白。

除了技術(shù)限制,出于安全、法律、哲學(xué)和倫理方面的擔(dān)憂,是否適合將完全自動化作為行為健康護理視為最終目標(biāo),仍有待決定。盡管一些證據(jù)表明人類可以與聊天機器人建立治療聯(lián)盟[34],但這種聯(lián)盟建立的長期可行性以及是否會產(chǎn)生不良的下游影響(例如,改變個人的現(xiàn)有關(guān)系或社交技能)還有待觀察。有人記錄了聊天機器人的潛在有害行為,如自戀傾向[35],并對其對人類產(chǎn)生不當(dāng)影響以及更廣泛的LLM相關(guān)社會風(fēng)險表示擔(dān)憂[36,37]。

一旦完全自主型LLM臨床應(yīng)用造成損害,該領(lǐng)域還須應(yīng)對問責(zé)(accountability)和責(zé)任(liability)問題(例如,確定醫(yī)療事故中的責(zé)任方[38])。因此,有人反對在CBT護理中實施完全自主系統(tǒng)[39,40]。綜合考慮,這些問題和擔(dān)憂可能表明,在短期和中期內(nèi),輔助型或協(xié)作型AI應(yīng)用更適合提供行為健康服務(wù)。

04 LLM的臨床應(yīng)用

以下列舉了一些即將出現(xiàn)和潛在的長期應(yīng)用的臨床LLM應(yīng)用,尤其是重點關(guān)注與提供、培訓(xùn)和研究心理治療直接相關(guān)的應(yīng)用。行為醫(yī)療保健的初始癥狀檢測、心理評估和簡短干預(yù)(例如危機咨詢)等方面,并未明確討論。

(1)即將出現(xiàn)的應(yīng)用


?表2 臨床LLM即將出現(xiàn)的可能性

1. 自動化臨床任務(wù)管理

在最基本層面上,LLM有潛力自動化與提供心理治療相關(guān)的多個耗時任務(wù)(表2,第一行)。除了使用會話記錄總結(jié)會話以供治療師參考外,此類模型還有潛力集成到電子健康記錄中,以協(xié)助臨床文檔記錄和進行病歷審查。臨床LLM還可以為患者定制一份手冊,個性化概述其療程、所學(xué)技能以及布置的家庭作業(yè)或療程間的材料。

2. 衡量治療方案忠誠性

一個臨床LLM應(yīng)用程序可以自動評估咨詢師是否忠于循證實踐(evidence-based practices,EBPs)(表2,第二行),包括測量患者對治療方案的依從性、評估咨詢師提供特定治療技能的能力、治療方案的差異性(比較不同治療方法是否存在實際差異)以及治療接受度(患者對治療內(nèi)容的理解、參與和依從性)[41,42]。

忠誠性(Fidelity)測量,對于循證實踐的發(fā)展、測試、推廣和實施至關(guān)重要,但可能需要大量資源且難以可靠地進行。未來,臨床LLM可以計算性地得出依從性和能力評分,幫助研究工作并減少治療師偏倚(therapist drift)。傳統(tǒng)機器學(xué)習(xí)模型已經(jīng)被用來評估對特定治療方法的忠誠度和其他重要模態(tài),如咨詢技能[45]和治療聯(lián)盟[46]。考慮到LLM在考慮情境方面的改進能力,LLM可能會提高評估這些構(gòu)念的準(zhǔn)確性。

3. 提供對治療作業(yè)表和家庭作業(yè)的反饋

LLM應(yīng)用還可以發(fā)展出為患者的治療間期家庭作業(yè)提供實時反饋和支持(表2,第三行)。例如,LLM被定制用于協(xié)助患者完成CBT作業(yè)表,當(dāng)患者遇到困難(例如,患者在填寫思想日記時難以區(qū)分思想和情緒)時,LLM可能會為其提供解釋或協(xié)助解決問題。這有助于“彌合治療間期的差距”并增進患者技能增強。AI范圍之外,早期證據(jù)表明,提高作業(yè)表的完成度是一個富有成效的臨床目標(biāo)[47]。

4. 自動化監(jiān)督和培訓(xùn)

LLM可用于對心理治療或朋輩支持活動提供反饋,尤其是對于受訓(xùn)和經(jīng)驗較少的從業(yè)者(例如,朋輩輔導(dǎo)者、非專業(yè)人士、心理治療實習(xí)生)。例如,LLM可以用于對朋輩輔導(dǎo)者的對話提出糾正和建議(表2,第四行)。這種應(yīng)用類似于“任務(wù)分擔(dān)”?!叭蝿?wù)分擔(dān)”是一種全球心理健康領(lǐng)域使用的方法,通過這種方法,非專業(yè)人士可以在專業(yè)人士的監(jiān)督下提供心理健康護理,以擴大心理健康服務(wù)的可及性[48]。其中一些工作已經(jīng)開始進行,例如,如上所述,使用LLM來支持朋輩心理輔導(dǎo)[7]。

LLM也可以在心理治療師學(xué)習(xí)新治療方法時提供督導(dǎo)支持(表 2,第五行)。心理督導(dǎo)的金標(biāo)準(zhǔn)方法,如現(xiàn)場觀察或錄音審查[49],大多耗時較多。而LLM可以分析治療全程并找出有待改進之處,為督導(dǎo)或顧問提供可推廣的審查方法。

(2)潛在的長期應(yīng)用

需要注意的是,以下列出的許多潛在的應(yīng)用都是理論上的,尚未得到開發(fā),更不用說徹底評估。此外,我們使用“臨床LLM”這一術(shù)語,前提是承認一個事實,LLM的工作在何時、何種情況下才可稱為“心理治療”,這取決于對心理治療的定義,下定論還為時尚早。

1. 完全自主的臨床護理

如前所述,臨床LLM的最終階段可能會涉及能夠獨立開展綜合的行為健康護理的LLM。這可能包括所有與傳統(tǒng)護理相關(guān)的方面,包括進行評估、提供反饋、選擇適當(dāng)?shù)母深A(yù)措施并向患者提供治療方案。這種治療流程可以通過與當(dāng)前心理治療模式一致的方式進行,即患者每周與“聊天機器人”進行規(guī)定時間的互動,或者采用更靈活或替代的形式。以這種方式使用的LLM,在理想情況下,應(yīng)使用具有大量證據(jù)的標(biāo)準(zhǔn)化評估方法和遵循治療手冊的(manualized)的治療方案進行訓(xùn)練。

2. 針對現(xiàn)有循證實踐的決策輔助工具

即使沒有完全自動化,臨床LLM也可以作為工具,通過優(yōu)化現(xiàn)有EBP和治療技術(shù),指導(dǎo)治療服務(wù)提供者為特定患者制定最佳治療方案。在實踐中,LLM能夠分析治療記錄,并實時地或在治療過程結(jié)束時,為治療服務(wù)提供者提供治療技能、方法或語言的指導(dǎo)。此外,LLM還可以整合最新的EBP證據(jù),融入患者的當(dāng)前疾病、人口或文化因素以及合并癥等針對性EBP信息。基于EBP開發(fā)定制的臨床LLM“顧問”,既能增強治療的忠實度,又能最大限度地提高患者根據(jù)更新的臨床證據(jù)而獲得臨床改善的可能性。

3. 開放新治療技術(shù)和EBP

至目前為止,我們討論了如何利用現(xiàn)有證據(jù)將LLM應(yīng)用于當(dāng)前的心理治療方法。而LLM和其他計算方法還可以極大地促進新的治療技能和EBP的檢測和開發(fā)。歷史上,EBP一般是來源自人類的洞察,然后經(jīng)過多年的臨床試驗研究評估得到的。雖然EBP有效,但其心理治療效果通常較小[50,51],并且很大比例的患者沒有從治療中受益[52]。我們迫切需要更有效的治療方法,尤其是對于癥狀復(fù)雜或有并發(fā)癥的患者。然而,傳統(tǒng)的開發(fā)和測試治療干預(yù)措施的方法進展緩慢,導(dǎo)致轉(zhuǎn)化研究嚴重滯后[53],并且無法在個體層面提供洞見。

數(shù)據(jù)驅(qū)動的方法,有望揭示臨床醫(yī)生尚未意識到的模式,從而產(chǎn)生新的心理治療方法。例如,機器學(xué)習(xí)已被用于預(yù)測行為健康治療的效果[54]。利用其解析和總結(jié)自然語言的能力,LLM可以為現(xiàn)有的數(shù)據(jù)驅(qū)動方法增添助力。

例如,LLM可以提供一個包含不同治療取向的治療記錄、結(jié)果指標(biāo)和人口統(tǒng)計學(xué)信息的大型歷史數(shù)據(jù)集,并負責(zé)檢測與客觀結(jié)果(例如,抑郁癥狀減少)相關(guān)的治療行為和技術(shù)。使用這種方法,LLM可能給出對“現(xiàn)有治療技術(shù)的最佳效果”的精細洞察(例如,現(xiàn)有EBP的哪些組成部分最有效?有哪些治療師或患者特征,會影響干預(yù)X的效果?干預(yù)措施的順序,如何影響效果?),甚至可以分離出先前未識別的與改善臨床結(jié)果相關(guān)的治療技術(shù)。通過精細地識別治療的過程,LLM也可以在揭示行為改變機制方面發(fā)揮作用,這對于改進現(xiàn)有治療方法、促進實際應(yīng)用至關(guān)重要[55]。

然而,這一可能性的實現(xiàn),需要確?;贚LM的改進能夠被臨床社區(qū)整合和審查,就必須要避免發(fā)展出“黑箱”,即LLM可識別但可解釋性低的干預(yù)措施[56]。為避免低可解釋性的干預(yù)措施,為改善患者預(yù)后而進行的微調(diào)LLM的工作,可能包括檢查LLM所采用的可觀察表征(representation)。臨床醫(yī)生可以檢查這些表征,并將其置于更廣泛的心理學(xué)治療文獻中,與現(xiàn)有的心理治療技術(shù)和理論進行比較。這種做法可以加快識別新的機制,同時防止識別出與現(xiàn)有技術(shù)或構(gòu)念重疊的“新”干預(yù)措施(從而避免叮當(dāng)謬誤[Jangle fallacy],即錯誤地認為名稱不同的兩個構(gòu)念必然不同[57])。

從長遠來看,通過結(jié)合這些信息,LLM甚至可能“逆向設(shè)計”出一種新的EBP,擺脫傳統(tǒng)治療方案的束縛,轉(zhuǎn)而最大限度地利用已知能夠引起患者行為改變的組成模塊(類似于模塊化方法,基于患者獨特表征,從所有的可用選項中精心挑選和排序治療模塊,為每位患者量身定制治療方案[31])。最終,一個自我學(xué)習(xí)的臨床LLM,可能提供廣泛的心理治療干預(yù),并同時測量患者的治療效果,并根據(jù)患者的變化(或缺乏變化)即時調(diào)整治療方法。

(3)趨于精準(zhǔn)的心理治療方法

當(dāng)前的心理治療方法,往往無法為病情復(fù)雜的患者提供最佳治療方案指導(dǎo),這已成常態(tài)而并非例外。例如,對于同時患有PTSD、物質(zhì)使用、慢性疼痛和嚴重人際關(guān)系困難的患者,治療服務(wù)提供者可能會制定出大相徑庭的治療計劃。使用數(shù)據(jù)驅(qū)動方法(而非根據(jù)治療者的經(jīng)驗猜測),處理患者的主訴連同其合并癥、社會人口學(xué)因素、病史和對當(dāng)前治療的反應(yīng),這樣的模式最終可能會為患者帶來最大化的獲益。盡管在行為健康領(lǐng)域中,精準(zhǔn)醫(yī)學(xué)方法取得了一些進展[54,58],但這些努力仍處于起步階段,受樣本量限制[59]。

上述概述的臨床LLM的潛在應(yīng)用,可能共同促進對行為健康的個性化方法,類似于精準(zhǔn)醫(yī)療。通過優(yōu)化現(xiàn)有的EBP、識別新的治療方法以及更好地理解變化機制,LLM(及其后續(xù)迭代)可能強化行為健康護理能力,以識別在何種情況下何種手段對哪些人群最有效。

05 臨床LLM的負責(zé)任開發(fā)與評估建議

(1)首要關(guān)注EBP

在不久的將來,臨床LLM的應(yīng)該基于EBP或共同要素說(common elements approach,即跨治療共享的循證程序)進行開發(fā),這樣的應(yīng)用將更有可能產(chǎn)生有臨床意義的影響。目前針對特定精神疾病(例如,重度抑郁、創(chuàng)傷后應(yīng)激障礙)、壓力源(例如,喪親、失業(yè)、離婚)和特殊人群(例如,LGBTQ個體、老年人),已經(jīng)確定了循證治療和技術(shù)[55,61,62]。臨床應(yīng)用如果根源頭上沒有關(guān)注EBP,就無法反映當(dāng)前的知識水平,甚至可能會帶來危害[63]。只有確保LLM均接受了EBP的全面訓(xùn)練,才能考慮以數(shù)據(jù)驅(qū)動的方式逐步應(yīng)用完全自主的LLM。

(2)關(guān)注對現(xiàn)有療法的改進(不只是參與程度)

還有人強調(diào)了推廣數(shù)字心理健康應(yīng)用的重要性[15],即重點在于治療干預(yù)達到足夠“劑量”。LLM應(yīng)用具有提升患者參與程度和留存率的潛力,它能夠及時響應(yīng)自然文本、提取關(guān)鍵概念,并在干預(yù)過程中及時響應(yīng)患者的個體背景和關(guān)注點。然而,參與程度本身并不是LLM訓(xùn)練的合適目標(biāo),因為它不足以產(chǎn)生行為改變。

將重點聚焦于臨床指標(biāo),可能會導(dǎo)致忽視主要目標(biāo),即臨床改善(例如,癥狀或損害的減輕,福祉和功能的提升)以及風(fēng)險和不良事件的預(yù)防。應(yīng)警惕對與公司利潤有明確關(guān)系的臨床結(jié)果(例如,使用應(yīng)用的時長)的臨床LLM優(yōu)化的嘗試。僅針對參與程度的優(yōu)化(類似于YouTube推薦)的LLM,可能有較高的用戶留存率,但卻不一定采取了有意義的臨床干預(yù)措施來減輕痛苦和提高生活質(zhì)量。非LLM的數(shù)字心理健康干預(yù)中已有先例。例如,暴露療法雖然是一種有效的焦慮治療方法,但在治療焦慮癥的熱門智能手機應(yīng)用程序的中卻很少用到[64],可能是因為開發(fā)者擔(dān)心這種方法吸引不到用戶,或者擔(dān)心暴露效果不佳或短期內(nèi)增加焦慮,反而可能會引來法律風(fēng)險。

(3)致力于嚴謹且常識性的評估

臨床LLM的評估方法,應(yīng)優(yōu)先考慮風(fēng)險性與安全性,其次是可行性、可接受性和有效性,這與現(xiàn)有的數(shù)字心理健康智能手機應(yīng)用評估建議[65]一致。

評估的第一級,可能需要證明臨床LLM不會造成危害,或危害極小且益大于弊,類似于FDA的I期藥物試驗。風(fēng)險性與安全性相關(guān)的關(guān)鍵指標(biāo),包括自殺傾向、非自殺性自傷和傷害他人的風(fēng)險。

接下來,需要對臨床LLM應(yīng)用進行嚴格的有效性審查,通過與標(biāo)準(zhǔn)治療的直接比較,提供其有效性的經(jīng)驗證據(jù)(empirical evidence)。在這些經(jīng)驗測試中,需要評估的關(guān)鍵指標(biāo),包括患者和治療師的可操作性和可接受性,以及治療效果(例如,癥狀、功能障礙、臨床狀態(tài)、復(fù)發(fā)率);其他相關(guān)考慮因素,還包括患者對應(yīng)用的使用體驗、治療師效率與職業(yè)倦怠的衡量,以及治療成本。

最后,我們注意到,鑒于臨床LLM可能帶來的好處(包括擴大護理機會),因此需要采用常識性的評估方法。雖然嚴格的評估很重要,但這些評估所依據(jù)的比較條件應(yīng)該反映真實世界的風(fēng)險和有效率,或許還可以采用分級制度來劃分風(fēng)險和錯誤(例如,遺漏了提及自殺是不可接受的,但搞錯患者伴侶名字是不理想但可以容忍的),不必用人類無法達到的完美標(biāo)準(zhǔn)來要求臨床LLM應(yīng)用。此外,開發(fā)者需要找到優(yōu)化LLM與實現(xiàn)最大臨床效益的適當(dāng)平衡,例如,如果暴露療法對患者適用,但患者認為這種方法不可接受,臨床LLM可以在提供可能更易接受的二線干預(yù)措施之前,優(yōu)先推薦考慮有效性的干預(yù)措施。

(4)跨學(xué)科合作

臨床科學(xué)家、工程師和技術(shù)人員的跨學(xué)科合作,對于開發(fā)臨床LLM至關(guān)重要。雖然工程師和技術(shù)人員在沒有行為健康專業(yè)知識的情況下,利用現(xiàn)有的治療手冊來開發(fā)臨床LLM是可行的,但并不可取。手冊只是學(xué)習(xí)特定干預(yù)措施的第一步,因為它們不能指導(dǎo)如何將干預(yù)措施應(yīng)用于特定個體或表征,也不能指導(dǎo)如何處理治療中的具體問題或疑惑。

臨床醫(yī)生和臨床科學(xué)家擁有與上述問題有關(guān)專業(yè)知識,可以參與諸多環(huán)節(jié),如:a)測試新應(yīng)用,以識別其局限性和風(fēng)險,并優(yōu)化其在臨床實踐中的融合,b)提高應(yīng)用解決復(fù)雜心理現(xiàn)象的能力,c)確保應(yīng)用的開發(fā)和實施符合倫理道德,以及 d)測試并確保應(yīng)用不具有醫(yī)源性影響,例如強化那些會持續(xù)心理病理或困擾的行為。

行為健康專家還可以指導(dǎo)如何最好地微調(diào)或定制模型,包括回答真實患者數(shù)據(jù)是否以及如何使用以達成上述目標(biāo)的問題。例如,最直接的是,行為健康專家可能協(xié)助進行提示詞工程,即設(shè)計并測試一系列提供大模型框架和背景的提示詞,以用于特定類型的治療或臨床技能(例如,“使用認知重構(gòu)法幫助患者評估和重新評估抑郁中的負面想法”),或期望的臨床任務(wù)如評估對行為健康療法的忠實度(例如,“分析這份心理治療記錄,并選擇治療師特別熟練使用CBT技巧以及CBT技巧運用上有待改進的段落”)。

同樣,在小樣本學(xué)習(xí)中,行為健康專家也可以參與制作提示詞示例。例如,行為健康專家可以生成臨床技能的示例(如使用認知重構(gòu)解決抑郁的高質(zhì)量示例)或臨床任務(wù)的示例(如高質(zhì)量與低質(zhì)量的CBT交流的示例)。在微調(diào)過程中,使用大型標(biāo)記數(shù)據(jù)集訓(xùn)練LLM,并從人類反饋中強化學(xué)習(xí)(RLHF),即使用人類標(biāo)記的數(shù)據(jù)集訓(xùn)練一個較小的模型,然后將其用于LLM的“自我訓(xùn)練”,行為健康專家可以構(gòu)建和整理(并確保患者知情同意)適當(dāng)?shù)臄?shù)據(jù)庫(例如,包含EBP忠實度評分的心理治療記錄的數(shù)據(jù)集)。最近的研究表明,對于訓(xùn)練性能良好的模型來說,數(shù)據(jù)質(zhì)量比數(shù)據(jù)數(shù)量更有價值[66]。

在促進跨學(xué)科合作的過程中,臨床科學(xué)家應(yīng)了解LLM知識,而技術(shù)專家學(xué)則應(yīng)了解一些常規(guī)治療特別是EBP知識。

將行為健康專家和臨床心理學(xué)家聚集在一起,進行跨學(xué)科合作與交流的專門會議,有助于此。歷史上,此類會議包括在NPL會議上舉辦的以心理學(xué)為重點的研討會(例如,在北美計算語言學(xué)協(xié)會[NAACL]年度會議上的計算語言學(xué)與臨床心理學(xué)研討會[CLPsych]),以及由心理組織主辦的以技術(shù)為重點的會議或工作組(例如,美國心理學(xué)會[APA]的技術(shù)、心靈與社會會議[TMS];行為與認知治療協(xié)會[ABCT]的技術(shù)與行為改變特別興趣小組[ABCTtechsig])。以心理健康技術(shù)工具為中心的非營利組織中也開展了這些工作(例如,數(shù)字心理健康協(xié)會[SDMH])。

除了這些會議,召開一個匯集技術(shù)專家、臨床科學(xué)家和行業(yè)合作伙伴的聚會,專注于AI或LLM,并定期發(fā)布其工作成果,這可能會富有成效。世界衛(wèi)生組織"信息流管理會議"(Infodemic Management Conference),就是通過這種方法來應(yīng)對虛假信息[67]。

最后,鑒于AI在行為健康領(lǐng)域的眾多應(yīng)用,可以發(fā)展出一個新的子領(lǐng)域“計算認知健康”,以提供專門培訓(xùn),彌合這兩個領(lǐng)域之間的間隔。

(5)關(guān)注臨床醫(yī)生和患者的信任與易用性

讓治療師、政策制定者、終端用戶和人機交互領(lǐng)域的專家加入進來,了解并提高對LLM的信任水平,這對于成功和有效地實施而言是必要的。

關(guān)于將AI應(yīng)用于增強對心理治療的監(jiān)督和支持,治療師們擔(dān)憂隱私、對細微的非言語線索的檢測與文化適應(yīng)能力,以及對治療師信心的影響,但他們也看到了AI在培訓(xùn)和專業(yè)成長中的益處[68]。其他研究表明,治療師認為AI可以增加護理的可及性,使個人更舒適地披露尷尬信息,并持續(xù)改進治療技術(shù)[69],但他們也對私密性和與基于機器的治療干預(yù)形成的治療紐帶是否牢固表示擔(dān)憂[70]??紤]到醫(yī)護的參與程度對向患者推薦并使用LLM的實踐中的重要性,因此需要開發(fā)他們信賴并愿意實施的解決方案,并確保這些解決方案具備支持醫(yī)患信任和易用性的特性(界面簡單、對AI與患者互動總結(jié)準(zhǔn)確等)。

關(guān)于患者對AI系統(tǒng)的信任程度,在實現(xiàn)圖3中概述的完全自主型LLM階段之后,AI與患者的初始交互將繼續(xù)由臨床醫(yī)生監(jiān)督,臨床醫(yī)生與患者之間的治療紐帶仍將是主要關(guān)系。在這一階段,很重要的是讓臨床醫(yī)生與患者討論他們在LLM中的體驗,也要開始逐步收集相關(guān)洞見和數(shù)據(jù),包括何種患者、何種臨床應(yīng)用案例中對LLM的接受程度,以及臨床醫(yī)生如何構(gòu)建患者與LLM關(guān)系。這些數(shù)據(jù),對于開發(fā)自主性更強的協(xié)作LLM應(yīng)用,并確保從輔助型到協(xié)作型LLM的過渡不會帶來巨大的意外風(fēng)險,至關(guān)重要。例如,在針對失眠的CBT案例中,一旦輔助型AI系統(tǒng)經(jīng)過迭代能夠可靠地收集患者的睡眠模式信息,那么它就更有可能演變成一個可以進行綜合失眠評估的協(xié)作型AI系統(tǒng)(即,同時收集和解讀患者的臨床顯著痛苦、功能障礙情況以及鑒別睡眠-覺醒障礙(如發(fā)作性睡?。┑臄?shù)據(jù)[71]。

(7)設(shè)計有效的臨床LLM標(biāo)準(zhǔn)

以下是對臨床LLM的理想設(shè)計品質(zhì)的初步設(shè)想。

1. 檢測傷害風(fēng)險

a)精準(zhǔn)的風(fēng)險檢測和強制報告機制,是臨床LLM必須優(yōu)先考慮的關(guān)鍵方面,尤其是在識別自殺/他殺意念、虐待兒童/老年人和親密伴侶暴力方面。相關(guān)風(fēng)險檢測算法正在開發(fā)中[4]。風(fēng)險檢測面臨的挑戰(zhàn)之一是,當(dāng)前LLM的上下文窗口(context windows)有限,這意味著它們只能“記住”有限的用戶輸入。

從功能上講,這意味著臨床LLM應(yīng)用可能會“忘記”患者的關(guān)鍵細節(jié),這可能會影響安全性(例如,應(yīng)用“忘記”患者擁有槍支,會嚴重影響正確評估和干預(yù)自殺風(fēng)險的能力)。然而,隨著迭代模型的發(fā)布,上下文窗口正在迅速擴大,這個問題可能不會長期存在。此外,已經(jīng)可以通過“向量數(shù)據(jù)庫(vector databases)”增強LLM的記憶,這樣做的額外好處是在整個臨床過程匯總保留可檢查式學(xué)習(xí)和總結(jié)[72] 。

將來,尤其是在更大的上下文窗口中,臨床LLM可以為臨床醫(yī)生提供倫理指導(dǎo)、法律要求(例如,Tarasoff規(guī)則,要求臨床醫(yī)生在患者表現(xiàn)出嚴重暴力威脅時警告預(yù)期受害者),或有循證依據(jù)的風(fēng)險降低方法(例如,安全計劃[73]),甚至直接向患者提供針對性的風(fēng)險干預(yù)措施。這種風(fēng)險監(jiān)控和干預(yù)有助于補充現(xiàn)有醫(yī)療體系,尤其是在臨床醫(yī)生空缺時段(如夜晚和周末[4])特別有用。

b) 保持“健康”。人們越來越擔(dān)心,AI聊天系統(tǒng)可能會表現(xiàn)出不良行為,包括類似抑郁或自戀的表達[35,74]。這些難以理解的、不良行為,可能會傷害已經(jīng)很脆弱的患者,或干擾他們從治療中獲益的能力。臨床LLM應(yīng)用需要監(jiān)控其行為并預(yù)設(shè)防范措施,以避免不良行為的表達,保持與用戶的健康互動。這就需要持續(xù)地評估和更新,以防止或應(yīng)對新的不良行為或臨床禁忌行為的出現(xiàn)。

2. 輔助心理診斷評估

臨床LLM應(yīng)整合心理診斷評估和診斷,以便于干預(yù)選擇和結(jié)果監(jiān)測[75]。近期發(fā)展來看,LLM頗有希望用于心理健康評估[76]。下一步,LLM還可以以聊天機器人或語音界面形式用于診斷訪談(例如,DSM-5的結(jié)構(gòu)化臨床訪談[77])。優(yōu)先評估(Prioritizing assessment),可提高診斷準(zhǔn)確性,并確保適當(dāng)干預(yù),降低有害干預(yù)的風(fēng)險[63]。

3. 應(yīng)答迅速,靈活多變完全自主的臨床護理

考慮到臨床中經(jīng)常出現(xiàn)矛盾(ambivalence)和患者參與程度低的情況,如果應(yīng)用臨床LLM以基于循證證據(jù)和以患者為中心的方法來處理這些問題(例如,動機增強技術(shù)、共同決策),并為對金標(biāo)準(zhǔn)療法不感興趣的患者提供二線干預(yù)方案,將更有希望取得治療成功。

4. 當(dāng)沒有幫助和信心時停止工作

在當(dāng)前治療方案沒有幫助或可能不會幫助的情況下,心理學(xué)家有道德義務(wù)停止治療,并向患者提供適當(dāng)?shù)霓D(zhuǎn)診。臨床LLM也應(yīng)該遵守這一道德標(biāo)準(zhǔn),可以通過綜合評估來評估當(dāng)前干預(yù)措施的適宜性,并識別需要更多專業(yè)化或密集干預(yù)的情況。

5. 公平、包容、無偏見

大量論述指出過,LLM由于是在現(xiàn)有文本上訓(xùn)練得到的,因而可能會延續(xù)偏見(包括種族主義、性別歧視和恐同癥)[36]。這些偏見可能導(dǎo)致誤差差異(即模型對特定群體的準(zhǔn)確性不夠)或結(jié)果差異(即模型傾向于過度強調(diào)人口統(tǒng)計信息)[78],這反過來又會助長少數(shù)族裔群體正在經(jīng)歷的心理健康狀況和護理方面的差異[79]。將偏差管理對策整合到臨床LLM應(yīng)用中,可以防止這種情況[78,80]。

6. 有同理心——但有限度

臨床LLM,為了讓患者積極參與,可能需要表現(xiàn)出同理心并建立治療聯(lián)盟。治療師還可能會施展如幽默、無理或溫和地挑戰(zhàn)患者的技巧。將這些融入臨床LLM可能有益,因為適當(dāng)?shù)念惾藢傩裕╤uman likeness)可能會促進患者的參與程度以及與AI的關(guān)系[81]。然而,這需要權(quán)衡將類人屬性融入系統(tǒng)帶來的相關(guān)風(fēng)險[36]。心理干預(yù)是否需要以及需要多少類人屬性,仍然是有待未來實證研究解決的問題。

7. AI身份透明化

精神疾病和心理健康護理已經(jīng)被污名化,未經(jīng)知情同意使用LLM可能會削弱患者或消費者的信任,這會降低對整個行為健康行業(yè)的信任。一些心理健康初創(chuàng)公司已經(jīng)因在應(yīng)用中采用生成式AI而未向最終用戶披露此信息而受到批評[2]。正如《白宮人工智能權(quán)利法案藍圖(the White House Blueprint for an AI Bill of Rights)》所闡述的,AI應(yīng)用應(yīng)明確(或許需反復(fù)/持續(xù)地)標(biāo)注,以便讓患者和消費者“知道正在使用自動化系統(tǒng),并了解它如何以及為何會對他們產(chǎn)生影響”[82]。


?圖源:fu.ncsu.edu

06 討論

(1)未預(yù)見的后果:可能會改變臨床認知行為行業(yè)

發(fā)展臨床LLM應(yīng)用,可能會導(dǎo)致意想不到的后果,例如改變心理健康服務(wù)的結(jié)構(gòu)和報酬。AI可能增加非專業(yè)人員或準(zhǔn)專業(yè)人員的數(shù)量,導(dǎo)致專業(yè)臨床醫(yī)生需要監(jiān)督大量非專業(yè)人員,甚至半自主的LLM系統(tǒng)。這可能會減少臨床醫(yī)生與患者的直接接觸,并可能讓他們有更多機會接觸不適合LLM的具具挑戰(zhàn)性的或更復(fù)雜的病例,從而導(dǎo)致職業(yè)倦怠并降低臨床工作的吸引力。

為了解決這個問題,可以通過研究確定臨床醫(yī)生可安全監(jiān)督的適當(dāng)案件數(shù)量,并發(fā)布指南來傳播這些研究發(fā)現(xiàn)?;贚LM的干預(yù)服務(wù),也可能讓消費者對心理治療的期望,產(chǎn)生不同于心理治療實踐的許多規(guī)范改變(例如,為了討論壓力的會面等待,治療間期患者和醫(yī)生有限或僅限緊急情況的聯(lián)系)。

(2)LLM可能為下一代臨床科學(xué)鋪平道路

除了本文所述的近期應(yīng)用,值得考慮臨床LLM的長期應(yīng)用,也可能促進臨床護理和臨床科學(xué)的重要進步。

1. 臨床實踐

在治療干預(yù)措施本身影響的層面,臨床LLM可以匯集最困難病例中的有效數(shù)據(jù),建立實踐研究網(wǎng)絡(luò),這或許能夠促進該領(lǐng)域的發(fā)展[83]。在衛(wèi)生系統(tǒng)層面,它們可以通過向心理治療師建議治療方案來加速研究結(jié)果轉(zhuǎn)化為臨床實踐,例如,推廣在暴露療法中增強抑制性學(xué)習(xí)的策略[84]。最后,如果將基于LLM的心理治療聊天機器人當(dāng)做階梯式護理模式中的低強度、低成本選項,臨床LLM可以提高獲得護理的機會,類似于現(xiàn)有的計算機化CBT和引導(dǎo)性自助(guided self-help)[85]。

隨著臨床LLM的應(yīng)用擴展,心理學(xué)家和其他行為健康專家的工作可能會向在其技能最高水平轉(zhuǎn)變。目前,臨床醫(yī)生的大量時間被行政任務(wù)、病歷審查和文件記錄所消耗。臨床LLM在某些心理治療方面實現(xiàn)自動化后,其帶來的責(zé)任轉(zhuǎn)移可能讓臨床醫(yī)生擔(dān)任領(lǐng)導(dǎo)角色,參與基于LLM的護理的開發(fā)、評估和實施,或領(lǐng)導(dǎo)政策工作,或者干脆將更多時間投入到直接的患者護理中。

2. 臨床科學(xué)

通過促進督導(dǎo)、咨詢和忠誠度測量,LLM可以加速心理治療師培訓(xùn),提高研究督導(dǎo)人員的能力,從而使心理治療研究更加經(jīng)濟高效。

在一個完全自主的LLM應(yīng)用程序負責(zé)篩選和評估患者,提供高保真、標(biāo)準(zhǔn)化心理治療,并收集結(jié)果測量的世界中,心理治療臨床試驗將主要受限于愿意參與者的數(shù)量,而不是受篩選、評估、治療和跟蹤這些參與者所需的資源。這將為前所未有的大樣本規(guī)模的臨床試驗敞開大門。這將允許我們進行強大、復(fù)雜的拆解(dismantling)研究,以支持尋找心理治療中帶來行為改變的機制,而這些機制目前只能通過個體參與者層面的元分析來實現(xiàn)[86]。最終,這些關(guān)于心理治療變化因果機制的見解,可以幫助完善治療方法、提高治療療效。

最后,LLM治療方法的興起,將挑戰(zhàn)(或證實)關(guān)于心理治療的基本假設(shè)——治療(人類)聯(lián)盟是否解釋了患者行為變化中的大部分差異?在多大程度上可以與一個AI智能體形成治療聯(lián)盟?是否只有通過與人類治療師合作,才能實現(xiàn)持久而有意義的治療改變?LLM有希望為這些問題提供經(jīng)驗性回答。

總的來說,LLM有望支持、增強甚至取代(在某些情況下)人類主導(dǎo)的心理治療,從而提高治療干預(yù)和臨床科學(xué)研究的質(zhì)量、可及性、一致性和可擴展性。

LLM發(fā)展迅速,或許很快就會在臨床領(lǐng)域中部署開來,然而我們卻對其可能產(chǎn)生的危害卻缺乏監(jiān)管和了解。雖然我們有理由對臨床LLM應(yīng)用謹慎樂觀,但心理學(xué)家也必須謹慎地將LLM整合到心理治療中,并教育公眾使用這些技術(shù)進行治療的潛在風(fēng)險和局限性。

此外,臨床心理學(xué)家應(yīng)積極與構(gòu)建這些解決方案的技術(shù)人員合作。隨著AI領(lǐng)域的持續(xù)發(fā)展,研究人員和臨床醫(yī)生密切監(jiān)測LLM在心理治療中的使用,并倡導(dǎo)負責(zé)任和合乎道德地使用LLM,以保護患者的福祉。

參考文獻

1. Bubeck,S. et al.Sparksof arti?cial general intelligence:Early experiments with GPT-4. Preprint at http://arxiv.org/abs/2303.12712 (2023).

2. Broderick,R.People are usingAI fortherapy,whetherthe tech is ready for it or not. Fast Company (2023).

3. Weizenbaum, J. ELIZA—a computer program for the study of natural language communication between man and machine.Commun.ACM 9, 36–45 (1966). 4. Bantilan, N., Malgaroli, M., Ray, B. & Hull, T. D. Just in time crisis response: Suicide alert system for telemedicine psychotherapy settings. Psychother. Res. 31, 289–299 (2021).

5. Peretz, G., Taylor, C. B., Ruzek, J. I., Jefroykin, S. & Sadeh-Sharvit, S. Machine learning model to predict assignment of therapy homework in behavioraltreatments:Algorithm development and validation. JMIR Form. Res. 7, e45156 (2023).

6. Tanana, M. J. et al. How do you feel? Using natural language processing to automatically rate emotion in psychotherapy. Behav. Res. Methods 53, 2069–2082 (2021).

7. Sharma, A., Lin, I. W., Miner, A. S., Atkins,D. C. & Althoff, T. Human–AI collaboration enables more empathic conversations in text-based peer-to-peer mental health support. Nat. Mach. Intell. 5, 46–57 (2023).

8. Chen, Z., Flemotomos, N., Imel, Z. E., Atkins, D. C. & Narayanan, S. Leveraging open data and task augmentation to automated behavioral coding of psychotherapy conversations in low-resource scenarios. Preprint at https://doi.org/10.48550/arXiv.2210.14254 (2022). https://doi.org/10.1038/s44184-024-00056-z Article npj Mental Health Research | (2024)3:12 9

9. Shah, R. S. et al. Modeling motivational interviewing strategies on an online peer-to-peer counseling platform. Proc. ACM Hum.-Comput. Interact 6, 1–24 (2022).

10. Chan,W.W. et al. The challenges in designing a prevention chatbotfor eating disorders: Observational study. JMIR Form. Res. 6, e28003 (2022). 11. Darcy, A. Why generative AI Is not yet ready for mental healthcare. Woebot Health https://woebothealth.com/why-generative-ai-is-notyet-ready-for-mental-healthcare/ (2023).

12. Abd-Alrazaq, A. A. et al. An overview of the features of chatbots in mental health: A scoping review. Int. J. Med. Inf. 132, 103978 (2019).

13. Lim, S. M., Shiau, C. W. C., Cheng, L. J. & Lau, Y. Chatbot-delivered psychotherapy for adults with depressive and anxiety symptoms: A systematic review and meta-regression. Behav. Ther. 53, 334–347 (2022).

14. Baumel, A., Muench, F., Edan, S. & Kane, J. M. Objective user engagement with mental health apps: Systematic search and panelbased usage analysis. J. Med. Internet Res. 21, e14567 (2019).

15. Torous, J., Nicholas, J., Larsen, M. E., Firth, J. & Christensen, H. Clinical review of user engagement with mental health smartphone apps: Evidence, theory and improvements. Evid. Based Ment. Health 21, 116–119 (2018b).

16. Das, A. et al. Conversational bots for psychotherapy: A study of generative transformer models using domain-speci?c dialogues. in Proceedings of the 21st Workshop on Biomedical Language Processing 285–297 (Association for Computational Linguistics, 2022). https://doi.org/10.18653/v1/2022.bionlp-1.27.

17. Liu, H. Towards automated psychotherapy via language modeling. Preprint at http://arxiv.org/abs/2104.10661 (2021).

18. Hamilton, J. Why generative AI (LLM) is ready for mental healthcare. LinkedIn https://www.linkedin.com/pulse/why-generative-aichatgpt-ready-mental-healthcare-jose-hamilton-md/ (2023).

19. Shariff, A., Bonnefon, J.-F. & Rahwan, I. Psychological roadblocks to the adoption of self-driving vehicles. Nat. Hum. Behav. 1, 694–696 (2017).

20. Markov, A. A. Essai d’une recherche statistique sur le texte du roman “Eugene Onegin” illustrant la liaison des epreuve en chain (‘Example of a statistical investigation of the text of “Eugene Onegin” illustrating the dependence between samples in chain’). Izvistia Imperatorskoi Akad. Nauk Bull. L’Academie Imp. Sci. StPetersbourg 7, 153–162 (1913).

21. Shannon, C. E. A mathematical theory of communication. Bell Syst. Tech. J. 27, 379–423 (1948).

22. Baker, J. K. Stochastic modeling for automatic speech understanding. in Speech recognition: invited papers presented at the 1974 IEEE symposium (ed. Reddy, D. R.) (Academic Press, 1975).

23. Jelinek, F. Continuous speech recognition by statistical methods. Proc. IEEE 64, 532–556 (1976).

24. Jurafsky, D. & Martin, J. H. N-gram language models. in Speech and language processing: An introduction to natural language processing, computational linguistics, and speech recognition (Pearson Prentice Hall, 2009).

25. Vaswani, A. et al. Attention is all you need. 31st Conf. Neural Inf. Process. Syst. (2017).

26. Bommasani, R. et al. On the opportunities and risks of foundation models. Preprint at http://arxiv.org/abs/2108.07258 (2022).

27. Gao, L. et al. The Pile: An 800GB dataset of diverse text for language modeling. Preprint at http://arxiv.org/abs/2101.00027 (2020).

28. Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. BERT: Pre-training of deep bidirectional transformers for language understanding. Preprint at http://arxiv.org/abs/1810.04805 (2019).

29. Kojima, T., Gu, S. S., Reid, M., Matsuo, Y. & Iwasawa, Y. Large language models are zero-shot reasoners. Preprint at http://arxiv.org/abs/2205.11916 (2023).

30. Fairburn, C. G. & Patel, V. The impact of digital technology on psychological treatments and their dissemination. Behav. Res. Ther. 88, 19–25 (2017).

31. Fisher, A. J. et al. Open trial of a personalized modular treatment for mood and anxiety. Behav. Res. Ther. 116, 69–79 (2019).

32. Fan, X. et al. Utilization of self-diagnosis health chatbots in real-world settings: Case study. J. Med. Internet Res. 23, e19928 (2021).

33. Coghlan, S. et al. To chat or bot to chat: Ethical issues with using chatbots in mental health. Digit. Health 9, 1–11 (2023).

34. Beatty, C., Malik, T., Meheli, S. & Sinha, C. Evaluating the therapeutic alliance with a free-text CBT conversational agent (Wysa): A mixedmethods study. Front. Digit. Health 4, 847991 (2022).

35. Lin, B., Bouneffouf, D., Cecchi, G. & Varshney, K. R. Towards healthy AI: Large language models need therapists too. Preprint at http://arxiv.org/abs/2304.00416 (2023).

36. Weidinger, L. et al. Ethical and social risks of harm from language models. Preprint at http://arxiv.org/abs/2112.04359 (2021).

37. Bender, E. M., Gebru, T., McMillan-Major, A. & Shmitchell, S. On the dangers of stochastic parrots: Can language models be too big? In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency 610–623 (ACM, 2021). https://doi.org/10.1145/3442188.3445922.

38. Chamberlain, J. The risk-based approach of the European Union’s proposed arti?cial intelligence regulation:Some comments from a tort law perspective. Eur. J. Risk Regul. 14, 1–13 (2023).

39. Norden, J. G. & Shah, N. R. What AI in health care can learn from the long road to autonomous vehicles. NEJM Catal. Innov. Care Deliv. https://doi.org/10.1056/CAT.21.0458 (2022).

40. Sedlakova, J. & Trachsel, M. Conversational arti?cial intelligence in psychotherapy: A new therapeutic tool or agent? Am. J. Bioeth. 23, 4–13 (2023).

41. Gearing, R. E. et al. Majoringredients of ?delity: A review and scienti?c guide to improving quality of intervention research implementation. Clin. Psychol. Rev. 31, 79–88 (2011).

42. Wiltsey Stirman, S. Implementing evidence-based mental-health treatments: Attending to training, ?delity, adaptation, and context. Curr. Dir. Psychol. Sci. 31, 436–442 (2022).

43. Waller, G. Evidence-based treatment and therapist drift. Behav. Res. Ther. 47, 119–127 (2009).

44. Flemotomos, N. et al. “Am I a good therapist?” Automated evaluation of psychotherapy skills using speech and language technologies. CoRR, Abs, 2102 (10.3758) (2021). 45. Zhang, X. et al. You never know what you are going to get: Large-scale assessment of therapists’ supportive counseling skill use. Psychotherapy https://doi.org/10.1037/pst0000460 (2022). 46. Goldberg, S. B. et al. Machine learning and natural language processing in psychotherapy research: Alliance as example use case. J. Couns. Psychol. 67, 438–448 (2020).

47. Wiltsey Stirman, S. et al. A novel approach to the assessment of ?delity to a cognitive behavioral therapy for PTSD using clinical worksheets: A proof of concept with cognitive processing therapy. Behav. Ther. 52, 656–672 (2021).

48. Raviola, G., Naslund, J.A.,Smith, S. L. &Patel, V. Innovative models in mental health delivery systems: Task sharing care with non-specialist providers to close the mental health treatment gap. Curr. Psychiatry Rep. 21, 44 (2019).

49. American Psychological Association. Guidelines for clinical supervision in health service psychology. Am. Psychol. 70, 33–46 (2015).

50. Cook, S. C., Schwartz, A. C. & Kaslow, N. J. Evidence-based psychotherapy: Advantages and challenges. Neurotherapeutics 14, 537–545 (2017).

51. Leichsenring, F., Steinert, C., Rabung, S. & Ioannidis, J. P. A. The ef?cacy of psychotherapies and pharmacotherapies for mental disorders in adults: An umbrella review and meta‐analytic evaluation of recent meta‐analyses. World Psych. 21, 133–145 (2022). https://doi.org/10.1038/s44184-024-00056-z Article npj Mental Health Research | (2024)3:12 10

52. Cuijpers, P., van Straten, A., Andersson, G. & van Oppen, P. Psychotherapy for depression in adults: A meta-analysis of comparative outcome studies. J. Consult. Clin. Psychol. 76, 909–922 (2008).

53. Morris, Z. S., Wooding, S. & Grant, J. The answer is 17 years, what is the question: Understanding time lags in translational research. J. R. Soc. Med. 104, 510–520 (2011). 54. Chekroud, A. M. et al. The promise of machine learning in predicting treatment outcomes in psychiatry. World Psych. 20, 154–170 (2021).

55. Kazdin, A. E. Mediators and mechanisms of change in psychotherapy research. Annu. Rev. Clin. Psychol. 3, 1–27 (2007).

56. Angelov, P. P., Soares, E. A., Jiang, R., Arnold, N. I. & Atkinson, P. M. Explainable arti?cial intelligence: An analytical review. WIREs Data Min. Knowl. Discov. 11, (2021).

57. Kelley, T. L. Interpretation of Educational Measurements. (World Book, 1927).

58. vanBronswijk,S. C. et al.Precision medicine forlong-term depression outcomes using the Personalized Advantage Index approach: Cognitive therapy or interpersonal psychotherapy? Psychol. Med. 51, 279–289 (2021).

59. Scala, J. J., Ganz, A. B. & Snyder, M. P. Precision medicine approaches to mental health care. Physiology 38, 82–98 (2023).

60. Chorpita, B. F., Daleiden, E. L. & Weisz, J. R. Identifying and selecting the common elements of evidence based interventions: A distillation and matching model. Ment. Health Serv. Res. 7, 5–20 (2005).

61. Chambless, D. L. & Hollon, S. D. De?ning empirically supported therapies. J. Consult. Clin. Psychol. 66, 7–18 (1998).

62. Tolin, D. F., McKay, D., Forman, E. M., Klonsky, E. D. & Thombs, B. D. Empirically supported treatment: Recommendations for a new model. Clin. Psychol. Sci. Pract. 22, 317–338 (2015). 63. Lilienfeld, S. O. Psychological treatments that cause harm. Perspect. Psychol. Sci. 2, 53–70 (2007).

64. Wasil, A. R., Venturo-Conerly, K. E., Shingleton, R. M. & Weisz, J. R. A review of popular smartphone apps for depression and anxiety: Assessing the inclusion of evidence-based content.Behav.Res. Ther. 123, 103498 (2019).

65. Torous, J. B. et al. A hierarchical framework for evaluation and informed decision making regarding smartphone apps for clinical care. Psychiatr. Serv. 69, 498–500 (2018).

66. Gunasekar, S. et al. Textbooks are all you need. Preprint at http://arxiv.org/abs/2306.11644 (2023).

67. Wilhelm, E. et al. Measuring the burden of infodemics: Summary of the methods and results of the Fifth WHO Infodemic Management Conference. JMIR Infodemiology 3, e44207 (2023).

68. Creed, T. A. et al. Knowledge and attitudes toward an arti?cial intelligence-based ?delity measurement in community cognitive behavioral therapy supervision. Adm. Policy Ment. Health Ment. Health Serv. Res. 49, 343–356 (2022).

69. Aktan, M. E., Turhan, Z. & Dolu, ?. Attitudes and perspectives towards the preferences for arti?cial intelligence in psychotherapy. Comput. Hum. Behav. 133, 107273 (2022).

70. Prescott, J. & Hanley, T. Therapists’ attitudes towards the use of AI in therapeutic practice: considering the therapeutic alliance. Ment. Health Soc. Incl. 27, 177–185 (2023).

71. American Psychiatric Association. Diagnostic and Statistical Manual of Mental Disorders. (2013).

72. Yogatama, D., De Masson d’Autume, C. & Kong, L. Adaptive semiparametric language models. Trans. Assoc. Comput. Linguist 9, 362–373 (2021).

73. Stanley, B. & Brown, G. K. Safety planning intervention: A brief intervention to mitigate suicide risk. Cogn. Behav. Pract. 19, 256–264 (2012).

74. Behzadan, V., Munir, A. & Yampolskiy, R. V. A psychopathological approach to safety engineering in AI and AGI. Preprint at http://arxiv.org/abs/1805.08915 (2018).

75. Lambert, M. J. & Harmon, K. L. The merits of implementing routine outcome monitoring in clinical practice. Clin. Psychol. Sci. Pract. 25, (2018).

76. Kjell, O. N. E., Kjell, K. & Schwartz, H. A. AI-based large language models are ready to transform psychological health assessment. Preprint at https://doi.org/10.31234/osf.io/yfd8g (2023).

77. First, M. B., Williams, J. B. W., Karg, R. S. & Spitzer, R. L. SCID-5-CV: Structured Clinical Interview for DSM-5 Disorders: Clinician Version. (American Psychiatric

相關(guān)知識

10個方面提高患者忠誠度,讓醫(yī)療更有溫度
母嬰健康的忠誠衛(wèi)士
“世界互聯(lián)網(wǎng)大會”觀察|如何擁抱AI,才能讓人類的生活更美好
上線一年獲千萬美元融資,盤點AI心理療愈賽道明星創(chuàng)企
萬字長文,讀懂東南亞醫(yī)療保健市場(上篇)
萬字長文,讀懂東南亞母嬰市場(上篇)
每天顫抖十萬次的帕金森媽媽 人工智能幫她徹底重生
吃得滿意又健康?AI 營養(yǎng)師比人類營養(yǎng)師更懂你
2024醫(yī)療人工智能報告:生成式AI爆發(fā),醫(yī)療AI走到新的十字路口
客戶反饋推動忠誠度計劃成功:品牌專家建議

網(wǎng)址: 萬字長文:58歲的心理AI,會比人類更“忠誠”嗎? http://m.u1s5d6.cn/newsview645799.html

推薦資訊