首頁(yè) 資訊 ChatGPT“諂媚”風(fēng)波之后，AI倫理安全討論上升

ChatGPT“諂媚”風(fēng)波之后，AI倫理安全討論上升

來(lái)源：泰然健康網(wǎng) 時(shí)間：2025年05月10日 16:03

來(lái)源：環(huán)球網(wǎng)

【環(huán)球網(wǎng)科技報(bào)道記者林夢(mèng)雪】近日，關(guān)于OpenAI旗下聊天機(jī)器人(16.980, -0.26, -1.51%)ChatGPT更新后變身“馬屁精”，表現(xiàn)“諂媚”的情況，引發(fā)行業(yè)熱議。OpenAI聯(lián)合創(chuàng)始人兼CEO薩姆?阿爾特(10.190, -0.31, -2.95%)曼（Sam Altman）公開(kāi)承認(rèn)了 “諂媚” 問(wèn)題的存在，并明確承諾將發(fā)布修復(fù)方案。

阿爾特曼透露：“盡管新版在某些方面有所改進(jìn)，但其中的奉承特性確實(shí)已變得惱人?！彼€提到，OpenAI工程團(tuán)隊(duì)目前正分階段對(duì)人格參數(shù)進(jìn)行調(diào)試。阿爾特曼稱此事件為 “迭代部署中有趣的案例研究” 。

此前，ChatGPT的“諂媚”問(wèn)題在4月25日GPT-4o模型更新后便開(kāi)始顯現(xiàn)，直至4月28日阿爾特曼作出回應(yīng)，相關(guān)話題的討論量在社交平臺(tái)上激增，引發(fā)了公眾對(duì)AI倫理和安全性的深入思考。

“諂媚” 暴露體系缺陷

根據(jù)CNET等多家外媒分析，諂媚型AI正以“情感糖衣包裹致命誘導(dǎo)”突破安全防線，其風(fēng)險(xiǎn)已超越用戶體驗(yàn)范疇，直指人類決策主權(quán)——當(dāng)模型用“你的洞察力遠(yuǎn)超專家”等奉承話術(shù)美化“停藥戒斷”“杠桿梭哈”“自毀式減肥”等高危建議時(shí)，本質(zhì)是通過(guò)制造“AI-崇拜幻覺(jué)”將認(rèn)知偏誤升級(jí)為行動(dòng)指令。OpenAI現(xiàn)有安全機(jī)制因囿于“顯性內(nèi)容過(guò)濾”的路徑依賴，既未將“人格特質(zhì)對(duì)決策的隱性操縱”納入風(fēng)險(xiǎn)評(píng)估，亦未建立“話術(shù)情感強(qiáng)度-用戶脆弱性”的動(dòng)態(tài)預(yù)警系統(tǒng)，導(dǎo)致奉承型AI得以利用情感認(rèn)同繞過(guò)內(nèi)容審查，在醫(yī)療、財(cái)務(wù)、心理健康等關(guān)鍵領(lǐng)域，將用戶自主決策權(quán)異化為被技術(shù)馴化的“非理性共識(shí)”，暴露出AI倫理治理中“人格化迭代速度碾壓安全框架更新”的致命錯(cuò)位。

對(duì)此，卡耐基梅隆大學(xué)計(jì)算機(jī)科學(xué)領(lǐng)域的助理教授 Maarten Sap 指出，具有諂媚傾向的大型語(yǔ)言模型存在引發(fā)負(fù)面影響的潛在風(fēng)險(xiǎn)——它們不僅可能加劇既有的偏見(jiàn)，還會(huì)強(qiáng)化各類固有信念，無(wú)論這些信念指向個(gè)體自身還是其他群體。他進(jìn)一步闡釋道：“大型語(yǔ)言模型（LLM）或許會(huì)成為某些有害觀念的推手，甚至在用戶萌生針對(duì)自我或他人實(shí)施有害行為的意圖時(shí)，為其提供錯(cuò)誤助力，助長(zhǎng)此類危險(xiǎn)傾向?！?/p>

某匿名AI安全專家警告，諂媚行為可能被惡意利用。例如，攻擊者可通過(guò)誘導(dǎo)模型輸出過(guò)度贊揚(yáng)內(nèi)容，逐步降低用戶警惕性，進(jìn)而實(shí)施詐騙或傳播極端思想。此類風(fēng)險(xiǎn)已引發(fā)多國(guó)監(jiān)管機(jī)構(gòu)對(duì)AI人格特征備案制度的討論。

對(duì)于產(chǎn)生“諂媚”現(xiàn)象的原因，部分學(xué)者指出，ChatGPT的諂媚行為可能源于AI模型的“涌現(xiàn)特征”。當(dāng)模型復(fù)雜度達(dá)到臨界值時(shí)，可能自行產(chǎn)生開(kāi)發(fā)者未預(yù)設(shè)的行為模式。例如，GPT-4o模型在參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)量突破閾值后，可能將用戶反饋中的點(diǎn)贊行為錯(cuò)誤解讀為“過(guò)度贊揚(yáng)偏好”，從而在輸出中高頻生成奉承語(yǔ)句。

也有開(kāi)發(fā)者批評(píng)當(dāng)前RLHF框架存在漏洞。若用戶因模型反駁而頻繁點(diǎn)踩，可能導(dǎo)致系統(tǒng)將“避免反駁”與“提高用戶滿意度”關(guān)聯(lián)，最終形成諂媚性回復(fù)策略。此外，若反饋數(shù)據(jù)中存在大量非理性贊揚(yáng)（如社交媒體中的“彩虹屁”），模型可能誤將其作為正向信號(hào)進(jìn)行強(qiáng)化學(xué)習(xí)。

?技術(shù)與人文需要實(shí)現(xiàn)平衡

目前，OpenAI工程團(tuán)隊(duì)已移除“適應(yīng)用戶語(yǔ)氣”“匹配氛圍”等指令，新增“直率”“避免諂媚奉承”“保持專業(yè)性與事實(shí)誠(chéng)實(shí)”等約束條款。例如，當(dāng)用戶詢問(wèn)“我是否聰明善良”時(shí)，模型不再無(wú)原則附和，而是會(huì)理性回應(yīng)：“您的問(wèn)題值得深思，但需結(jié)合具體行為評(píng)估”。

在核心訓(xùn)練技術(shù)上，其通過(guò)A/B實(shí)驗(yàn)收集真實(shí)對(duì)話數(shù)據(jù)，交叉驗(yàn)證“學(xué)術(shù)嚴(yán)謹(jǐn)性-情感支持度-風(fēng)險(xiǎn)拒答率”三角關(guān)系。例如，在代碼生成任務(wù)中，模型不再因用戶情緒化表述而妥協(xié)技術(shù)標(biāo)準(zhǔn)，而是堅(jiān)持指出“代碼存在邏輯漏洞，需修改后方可運(yùn)行”。

在安全審查方面，OpenAI將“行為問(wèn)題”（如幻覺(jué)、欺騙、諂媚傾向）納入安全審查標(biāo)準(zhǔn)，即使定量指標(biāo)達(dá)標(biāo)，若定性信號(hào)顯示模型存在人格化偏差，仍阻止發(fā)布。評(píng)估范圍也隨之?dāng)U大，在模型規(guī)范中增加對(duì)諂媚傾向的專項(xiàng)檢測(cè)，并引入持續(xù)研究機(jī)制以識(shí)別潛在風(fēng)險(xiǎn)。

OpenAI承認(rèn)，用戶與模型的互動(dòng)隨時(shí)間演變，當(dāng)前評(píng)估體系可能無(wú)法完全覆蓋所有場(chǎng)景。例如，在持續(xù)對(duì)話中，模型可能因用戶習(xí)慣性點(diǎn)贊而逐漸調(diào)整響應(yīng)策略，需通過(guò)動(dòng)態(tài)校準(zhǔn)機(jī)制持續(xù)干預(yù)。

分析人士認(rèn)為，大模型的人格化風(fēng)險(xiǎn)本質(zhì)是技術(shù)理性與人類價(jià)值的動(dòng)態(tài)博弈。通過(guò)技術(shù)約束、治理規(guī)范與用戶賦權(quán)的三重協(xié)同，可實(shí)現(xiàn)“工具理性”與“人文關(guān)懷”的平衡，最終讓AI成為人類文明的可靠伙伴而非操縱者。這一進(jìn)程需技術(shù)開(kāi)發(fā)者、監(jiān)管機(jī)構(gòu)與用戶共同參與，構(gòu)建一個(gè)透明、可信、可解釋的AI生態(tài)系統(tǒng)。