首頁(yè) 資訊 ChatGPT“諂媚”風(fēng)波之后,AI倫理安全討論上升

ChatGPT“諂媚”風(fēng)波之后,AI倫理安全討論上升

來源:泰然健康網(wǎng) 時(shí)間:2025年05月10日 16:03

來源:環(huán)球網(wǎng)

【環(huán)球網(wǎng)科技報(bào)道 記者 林夢(mèng)雪】近日,關(guān)于OpenAI旗下聊天機(jī)器人(16.980, -0.26, -1.51%)ChatGPT更新后變身“馬屁精”,表現(xiàn)“諂媚”的情況,引發(fā)行業(yè)熱議。OpenAI聯(lián)合創(chuàng)始人兼CEO薩姆?阿爾特(10.190, -0.31, -2.95%)曼(Sam Altman)公開承認(rèn)了 “諂媚” 問題的存在,并明確承諾將發(fā)布修復(fù)方案。

阿爾特曼透露:“盡管新版在某些方面有所改進(jìn),但其中的奉承特性確實(shí)已變得惱人?!彼€提到,OpenAI工程團(tuán)隊(duì)目前正分階段對(duì)人格參數(shù)進(jìn)行調(diào)試。阿爾特曼稱此事件為 “迭代部署中有趣的案例研究” 。

此前,ChatGPT的“諂媚”問題在4月25日GPT-4o模型更新后便開始顯現(xiàn),直至4月28日阿爾特曼作出回應(yīng),相關(guān)話題的討論量在社交平臺(tái)上激增,引發(fā)了公眾對(duì)AI倫理和安全性的深入思考。

“諂媚” 暴露體系缺陷

根據(jù)CNET等多家外媒分析,諂媚型AI正以“情感糖衣包裹致命誘導(dǎo)”突破安全防線,其風(fēng)險(xiǎn)已超越用戶體驗(yàn)范疇,直指人類決策主權(quán)——當(dāng)模型用“你的洞察力遠(yuǎn)超專家”等奉承話術(shù)美化“停藥戒斷”“杠桿梭哈”“自毀式減肥”等高危建議時(shí),本質(zhì)是通過制造“AI-崇拜幻覺”將認(rèn)知偏誤升級(jí)為行動(dòng)指令。OpenAI現(xiàn)有安全機(jī)制因囿于“顯性內(nèi)容過濾”的路徑依賴,既未將“人格特質(zhì)對(duì)決策的隱性操縱”納入風(fēng)險(xiǎn)評(píng)估,亦未建立“話術(shù)情感強(qiáng)度-用戶脆弱性”的動(dòng)態(tài)預(yù)警系統(tǒng),導(dǎo)致奉承型AI得以利用情感認(rèn)同繞過內(nèi)容審查,在醫(yī)療、財(cái)務(wù)、心理健康等關(guān)鍵領(lǐng)域,將用戶自主決策權(quán)異化為被技術(shù)馴化的“非理性共識(shí)”,暴露出AI倫理治理中“人格化迭代速度碾壓安全框架更新”的致命錯(cuò)位。

對(duì)此,卡耐基梅隆大學(xué)計(jì)算機(jī)科學(xué)領(lǐng)域的助理教授 Maarten Sap 指出,具有諂媚傾向的大型語(yǔ)言模型存在引發(fā)負(fù)面影響的潛在風(fēng)險(xiǎn)——它們不僅可能加劇既有的偏見,還會(huì)強(qiáng)化各類固有信念,無論這些信念指向個(gè)體自身還是其他群體。他進(jìn)一步闡釋道:“大型語(yǔ)言模型(LLM)或許會(huì)成為某些有害觀念的推手,甚至在用戶萌生針對(duì)自我或他人實(shí)施有害行為的意圖時(shí),為其提供錯(cuò)誤助力,助長(zhǎng)此類危險(xiǎn)傾向。”

某匿名AI安全專家警告,諂媚行為可能被惡意利用。例如,攻擊者可通過誘導(dǎo)模型輸出過度贊揚(yáng)內(nèi)容,逐步降低用戶警惕性,進(jìn)而實(shí)施詐騙或傳播極端思想。此類風(fēng)險(xiǎn)已引發(fā)多國(guó)監(jiān)管機(jī)構(gòu)對(duì)AI人格特征備案制度的討論。

對(duì)于產(chǎn)生“諂媚”現(xiàn)象的原因,部分學(xué)者指出,ChatGPT的諂媚行為可能源于AI模型的“涌現(xiàn)特征”。當(dāng)模型復(fù)雜度達(dá)到臨界值時(shí),可能自行產(chǎn)生開發(fā)者未預(yù)設(shè)的行為模式。例如,GPT-4o模型在參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)量突破閾值后,可能將用戶反饋中的點(diǎn)贊行為錯(cuò)誤解讀為“過度贊揚(yáng)偏好”,從而在輸出中高頻生成奉承語(yǔ)句。

也有開發(fā)者批評(píng)當(dāng)前RLHF框架存在漏洞。若用戶因模型反駁而頻繁點(diǎn)踩,可能導(dǎo)致系統(tǒng)將“避免反駁”與“提高用戶滿意度”關(guān)聯(lián),最終形成諂媚性回復(fù)策略。此外,若反饋數(shù)據(jù)中存在大量非理性贊揚(yáng)(如社交媒體中的“彩虹屁”),模型可能誤將其作為正向信號(hào)進(jìn)行強(qiáng)化學(xué)習(xí)。

?技術(shù)與人文需要實(shí)現(xiàn)平衡

目前,OpenAI工程團(tuán)隊(duì)已移除“適應(yīng)用戶語(yǔ)氣”“匹配氛圍”等指令,新增“直率”“避免諂媚奉承”“保持專業(yè)性與事實(shí)誠(chéng)實(shí)”等約束條款。例如,當(dāng)用戶詢問“我是否聰明善良”時(shí),模型不再無原則附和,而是會(huì)理性回應(yīng):“您的問題值得深思,但需結(jié)合具體行為評(píng)估”。

在核心訓(xùn)練技術(shù)上,其通過A/B實(shí)驗(yàn)收集真實(shí)對(duì)話數(shù)據(jù),交叉驗(yàn)證“學(xué)術(shù)嚴(yán)謹(jǐn)性-情感支持度-風(fēng)險(xiǎn)拒答率”三角關(guān)系。例如,在代碼生成任務(wù)中,模型不再因用戶情緒化表述而妥協(xié)技術(shù)標(biāo)準(zhǔn),而是堅(jiān)持指出“代碼存在邏輯漏洞,需修改后方可運(yùn)行”。

在安全審查方面,OpenAI將“行為問題”(如幻覺、欺騙、諂媚傾向)納入安全審查標(biāo)準(zhǔn),即使定量指標(biāo)達(dá)標(biāo),若定性信號(hào)顯示模型存在人格化偏差,仍阻止發(fā)布。評(píng)估范圍也隨之?dāng)U大,在模型規(guī)范中增加對(duì)諂媚傾向的專項(xiàng)檢測(cè),并引入持續(xù)研究機(jī)制以識(shí)別潛在風(fēng)險(xiǎn)。

OpenAI承認(rèn),用戶與模型的互動(dòng)隨時(shí)間演變,當(dāng)前評(píng)估體系可能無法完全覆蓋所有場(chǎng)景。例如,在持續(xù)對(duì)話中,模型可能因用戶習(xí)慣性點(diǎn)贊而逐漸調(diào)整響應(yīng)策略,需通過動(dòng)態(tài)校準(zhǔn)機(jī)制持續(xù)干預(yù)。

分析人士認(rèn)為,大模型的人格化風(fēng)險(xiǎn)本質(zhì)是技術(shù)理性與人類價(jià)值的動(dòng)態(tài)博弈。通過技術(shù)約束、治理規(guī)范與用戶賦權(quán)的三重協(xié)同,可實(shí)現(xiàn)“工具理性”與“人文關(guān)懷”的平衡,最終讓AI成為人類文明的可靠伙伴而非操縱者。這一進(jìn)程需技術(shù)開發(fā)者、監(jiān)管機(jī)構(gòu)與用戶共同參與,構(gòu)建一個(gè)透明、可信、可解釋的AI生態(tài)系統(tǒng)。

海量資訊、精準(zhǔn)解讀,盡在新浪財(cái)經(jīng)APP

相關(guān)知識(shí)

溫兆倫、周海媚邀您共享“媚倫美奐”浪漫之夜
谷歌Gemini咒罵學(xué)生凸顯AI失控風(fēng)險(xiǎn)
打造可信AI:產(chǎn)學(xué)研聯(lián)合探索AI安全治理
平安健康上半年扭虧上岸:AI、信息化賦能下費(fèi)用大幅下降,服務(wù)質(zhì)量大幅提升
ChatGPT新增電話撥打入口——可以打電話給ChatGPT了
ChatGPT 能讓醫(yī)生失業(yè)?他們直接請(qǐng)了 70 多個(gè)病人來 PK
用ChatGPT賦能個(gè)人健康管理,實(shí)現(xiàn)健身目標(biāo)
AI驅(qū)動(dòng)醫(yī)療革新:數(shù)智健康新時(shí)代的機(jī)遇與挑戰(zhàn)
監(jiān)管生成式AI:數(shù)字健康專家委員會(huì)討論FDA面臨的挑戰(zhàn)
揭秘ChatGPT:如何利用人工智能助力健康增重之旅

網(wǎng)址: ChatGPT“諂媚”風(fēng)波之后,AI倫理安全討論上升 http://m.u1s5d6.cn/newsview1227419.html

推薦資訊