從Sora到“世界模擬”:視頻大模型的技術原理、應用場景與未來進路
來源:泰然健康網 時間:2024年12月16日 16:11
【摘要】Sora引領的視頻生成模型以其提出的“世界模擬器”理念展示出人工智能進展的重大突破,模型甫一問世便被視為邁向通用人工智能的標志。以Sora的誕生為契機,系統(tǒng)探討該模型如何從知識理解、跨模態(tài)信息處理及因果推理等技術維度漸進實現“世界模擬”的構想。結合Sora展現的功能特性,展望其在影視制作與游戲開發(fā)、教育培訓及科學研究等領域中的潛在應用價值。鑒于通用人工智能的宏大愿景,文中指出Sora代表的視頻大模型仍需在認知突圍、自主進化、機器自省等方面持續(xù)攻關,為未來智能技術的全面發(fā)展奠定堅實基礎。【關鍵詞】Sora;文生視頻模型;視頻大模型;通用人工智能;世界模擬器
1
Sora的誕生:人工智能向視頻生成領域的跨越
2024年2月,美國人工智能研究公司OpenAI再度顛覆了人工智能研究領域的既定格局,推出名為Sora的文生視頻模型。模型甫一問世,即被視為邁向通用人工智能(Artificial General Intelligence,AGI)的里程碑,彰顯出人工智能技術演進過程中的重要躍遷。相較于同類視頻生成模型,Sora在視頻時長、分辨率的精細化程度以及場景真實感再現方面均達到了全新高度。尤為突出的是,Sora在模擬物理世界現象的精確性和多樣性方面實現了突破,它超越了僅能創(chuàng)造虛擬表現形式的局限,展現出重現現實世界豐富細節(jié)場景的強大能力,激發(fā)了對現實與虛擬邊界日益模糊的深刻探討。Sora能夠自主建構高度擬真的虛擬現實環(huán)境,昭示著人工智能內部邏輯架構與外部客觀世界之間的關系日趨緊密。Sora的研發(fā)歷程,揭示了人工智能技術在模擬與理解現實復雜世界過程中所取得的深層進步。在此背景下,OpenAI在技術報告中提出了“世界模擬器”(World Simulator)這一前瞻性框架,將Sora視為實踐這一理念的視頻生成載體,將Sora作為“構筑物理世界通用模擬器的一條可行之路”[1]?!笆澜缒M器”的概念承載著宏大的科技創(chuàng)新愿景,旨在利用前沿的人工智能技術手段,尤其是借助視頻生成模型技術,建立能夠精細化模擬現實世界中物理規(guī)則、社會動態(tài)及環(huán)境相互作用的復雜計算仿真生態(tài)系統(tǒng)。該概念的重要性不僅體現在其在視覺逼真表現層面上的生成與應用,也在于其整合了自然語言理解與執(zhí)行能力,可以響應指令模擬復雜情境并實時輸出適應性行為。此外,它還預示著在對未來多種可能性進行高級模擬分析方面的深層次功能拓展。Sora是否能夠真正意義上“模擬世界”?Sora是否構成實質性的“世界模擬器”等問題還有待深入探究和驗證。在賦予此類模型“世界模擬器”的稱謂之前,我們有必要對其如何精細捕獲和有效模擬物理情境背后的技術原理、應用場景以及未來發(fā)展進路進行更為詳盡的研究。Sora的進步是對“世界模擬”這一理想的實質性邁進,但通往全面理解和構建真實世界模擬器的道路才剛剛開始。2
Sora的技術原理:視頻模型模擬世界的可能性
(一)知識處理:海量數據歸納與規(guī)律模擬作為視頻生成模型,Sora的知識基礎根植于對龐大多元的視覺、語言數據集的深度學習過程。通過對億級以上的圖像、視頻素材以及相應的文本標注和預訓練,Sora汲取了廣泛的視覺語義內涵和世界常識圖譜。相較于簡單的數據存儲與再現,Sora所代表的文生視頻模型注重從海量數據中挖掘、仿真出所謂世界運作的深層法則與動態(tài)規(guī)律,進而生成逼真且流暢的視頻內容。Sora采用無監(jiān)督學習策略對視覺世界的基礎要素進行探索與建模,涵蓋物體實體、環(huán)境場景、事件行為等各種構成單元,以及各單元在時空維度上的聯系和互動效應。這種結構化、模塊化的場景表征方式,賦予Sora構建多層次知識組織架構的能力,使之能將復雜視覺現象拆解成基本組成單位,通過靈活重組創(chuàng)作出相對符合規(guī)律及常識推理框架的畫面表現。多模態(tài)學習技術的應用使Sora建立了視覺表征與語義標簽間的對應關系,通過對齊視覺—語言表征空間,使得文本描述能夠精確定位并關聯至相關視覺單元。這一特性使Sora能夠在理解語言指令的基礎上,將其轉化成為直觀和準確的視覺表達形式。此外,Sora對處理的大量視頻數據進行高效的時間序列建模,以掌握各類事件演進的固有模式以及場景間因果關系的內在邏輯。由此,Sora能夠依據前后情境線索,對未來畫面做出合理預測,進而生成具有連續(xù)性、故事性特征的視頻片段,初步顯現出其在因果推理與規(guī)劃生成方面的能力?!拔覀冋诮倘斯ぶ悄芾斫夂湍M運動中的物理世界,目的是訓練模型,幫助人們解決需要現實世界交互的問題?!盵2]Sora借助對數據資源的有效學習,構建起一套相對全面、立體的視覺世界理論模型,該模型囊括了從物體形態(tài)直至規(guī)律原理等多個認知層次的知識內容。這種從數據中萃取知識精華、構筑邏輯聯系的能力,確定了Sora相較于傳統(tǒng)視覺生成模型的優(yōu)勢所在:其不僅是一款視頻創(chuàng)作工具,也正有意發(fā)展為具備初級常識推理能力的智能體,體現了人工智能由單純的“感知層面”朝向高階“認知層面”邁進的偉愿。在人類的認知發(fā)展過程中,“幼年時期即體現出對直觀物理學原理的初步掌握,如對物體存在的持久性(即便不在視線范圍內物體仍持續(xù)存在)、堅固性(物體間不會穿透)和凝聚性(物體作為一個統(tǒng)一的整體一同移動)等基本屬性持固有期待”[3]。這種對物理世界及其規(guī)則的理解,源于人類大腦內建的一個類似“直覺物理引擎”(Intuitive Physical Engine, IPE)的機制,它憑借類比物理定律的方式進行運作,以統(tǒng)計學的概率預測方式推斷物體隨時間的動態(tài)演變[4]。相較而言,Sora作為一種端到端的深度神經網絡結構,并未直接融入傳統(tǒng)物理引擎的計算方法,而是在大規(guī)模數據集的基礎上挖掘和學習隱藏的物理規(guī)律表達。如果說“世界模型”是通過壓縮感知輸入和預測未來狀態(tài),提供環(huán)境的內部表征,那么Sora的工作方法是通過視頻壓縮網絡將原始視頻映射至特定空間,并通過擴散變換器(Diffusion Transformer)在此空間中對時空片段進行精細化建模,從而捕捉到場景中的動態(tài)交互機制。[4]當前,Sora的主要訓練目標聚焦于生成高質量的視頻內容,而非直接構建用于模擬體驗的物理環(huán)境。盡管Sora展現出的場景連貫性提示其在模擬物理規(guī)律方面存在發(fā)展?jié)摿Γ湮磥砟芊襁M化成為真正的“世界模擬器”仍有待考證。(二)跨模態(tài)理解:打通視覺、語言等認知通道作為“世界模擬器”的Sora,能夠整合語言、視覺等認知模態(tài),實現跨模態(tài)的理解和生成,其能力主要體現在以下幾方面。一是Sora與大語言模型的無縫結合。作為在ChatGPT等先進語言模型基礎上拓展出的迭代成果,Sora展現出自然語言與視覺場景理解和生成之間的無縫對接能力。通過汲取ChatGPT的語義解析優(yōu)勢,Sora可以提升對文本描述精準語義的捕獲效率。相較于大語言模型,Sora拓展了對時間和空間維度的處理能力,能夠駕馭具有時空屬性的視頻內容生成任務。因此,Sora不局限于再現靜態(tài)圖像世界的特性,能夠在模擬動態(tài)演變世界時發(fā)揮效用。當接收到文本指令時,Sora能夠解碼其中的意義,據此生成貼合文本語境的視頻內容,涵蓋了時空連續(xù)性和復雜場景建構等多個維度。通過集成、優(yōu)化與大語言模型的協(xié)作關系,Sora在視覺感知與語義理解間架設起通信橋梁,為構建多模態(tài)理解提供支撐。此外,Sora不僅能夠模擬再現客觀物理世界,也能創(chuàng)造性地構建符合主觀意念的虛構場景,這種雙重特性賦予其成為“世界模擬器”的潛在能力,拓寬了在現實與想象世界互動探索的應用前景。二是Sora展示出交互式多視角的生成能力。在視頻生成流程中,Sora能夠模擬攝像機視點的動態(tài)轉換,確保場景中物體在三維空間中的運動表現保持連續(xù)且一致,這一特點揭示了其在結構化模型層面超越二維幀序列拼接的機制。Sora采用三維幾何原理及透視變換等核心知識構建場景模型,這是實現物理世界仿真不可或缺的基礎。同時,Sora在時間維度的精細化建模方面表現出色,其生成的一分鐘視頻內,物體運動始終保持一致性和連貫性,表明Sora初步具備時間邏輯推理和因果關系建模的功能,這對于精確模擬真實物理過程至關重要。由此,Sora可以賦予用戶切換視角的自由度,可以使用戶從不同角度觀測所生成的世界,這反映了Sora內部構建了可以整合多視角信息的全景式多模態(tài)框架,從而實現對虛擬場景全方位、靈活的視角控制與展現。三是Sora體現出對物理世界構成規(guī)則的基礎理解。其在空間與時間維度上的建模性能,實質上來源于對諸如運動規(guī)律、力學規(guī)律等基礎物理法則的學習和初步應用。不同于傳統(tǒng)的物理引擎模擬器,Sora通過大規(guī)模數據訓練習得對物理世界的內在認知能力,這也是其作為潛在世界模擬器的價值所在。Sora底層學習并融合了對物理世界的基本理解,將視覺等多模態(tài)信息嵌入內部表征之中。然而,現階段Sora對于物理規(guī)律的理解與模擬仍存在局限性,比如在處理物體的臨界狀態(tài)表達和因果性運動等方面仍存在不足,這些問題可能源于訓練數據的局限性或者模型架構與計算資源約束所致。未來,通過增加訓練數據的豐富度和多樣性、改進模型結構設計以及增強算力投入,Sora有望進一步提高其對物理世界的理解與模擬精度,可能朝向真正意義上AGI級別的世界模擬器演進。(三)因果推理:構建事件邏輯,內容貼近真實若要實現視頻內容與真實世界的高度契合,模型須具備深入的因果推理能力來識別和學習各實體事物之間的因果關聯。Sora通過一系列關鍵技術模擬了事件邏輯,從而提高了生成內容的真實性。Sora采用視頻壓縮網絡(Video Compression Network),通過視覺編碼器將原始視頻壓縮至低維潛在空間,將復雜的視頻信息簡化為時空補丁,這些補丁類似語句中的詞匯,承載著組建視頻的關鍵時空特征與動態(tài)變化信息。[5]進而,Sora預測這些補丁如何有效拼接,以生成連貫且視覺吸引力強的視頻內容。通過視頻壓縮,Sora能夠在簡化后的潛在空間內專注高質量視頻內容的生成,為后續(xù)擴散變換模型提供了視覺信息。Sora所搭載的擴散變換模型(Diffusion Transformer)借鑒了馬爾可夫鏈理念,采用遞歸去噪的方式逐步生成視頻幀序列。該模型在生成過程中體現明確的因果依賴關系,即將每一幀的生成嚴格建立在前序幀信息擴散和演變的基礎上,有力推動了視頻內容中事件邏輯鏈條的有效構建與延續(xù)。為更準確地響應用戶意圖并在模擬過程中遵循合理的因果邏輯,Sora通過整合大型語言模型的指令跟隨能力,有效增強了模型對文本輸入的理解。它首先訓練視頻字幕生成器產生高質量的視頻、描述性字幕作為訓練數據,然后使用大語言模型將簡短的用戶提示擴展為與訓練數據格式一致的詳細描述,確保在推理時的輸入與訓練保持一致[6]。通過這種方式,Sora能夠從簡短提示推導豐富語義,生成契合用戶意圖、合乎邏輯的高質量視頻內容。在提示工程方面,Sora的視頻/圖像提示能力極大增強了內容與現實世界的視覺相似性和內在一致性。除文本輸入外,它能夠接受視頻片段或圖像作為生成線索,引導生成過程沿著特定的藝術風格或主題脈絡演進,在模擬層面更加接近真實世界的多元表現形態(tài)。以上核心技術,共同支撐Sora實現具有因果邏輯的世界模擬。盡管當前Sora等“視頻模型在正確模擬物理交互方面仍存在一些限制,包括對基本物理定律的模擬存在疏忽、難以一致展現物體的物理狀態(tài)變化等問題”[7],但其已在因果推理、構建事件邏輯以及提升生成內容真實感方面取得了重要突破。賦予模型深入的因果推理能力和學習物理定律、常識知識的能力,使其能夠推測事物運動變化背后的成因及其相互作用效應,是邁向高度逼真世界模擬的必經之路。Sora代表的新一代文生視頻模型正積極向此目標邁進。3
Sora的應用圖景:想象與現實交匯
(一)賦能內容生產:影視創(chuàng)作、游戲開發(fā)等領域Sora可能重塑影視制作與游戲開發(fā)等創(chuàng)意產業(yè)的生產和表達范式,不同于傳統(tǒng)視頻生成技術帶來的藝術完整性方面的折損,Sora采用了保留原始畫面比例的訓練機制,確保其輸出的視頻內容無論在何種設備支持下,均可傳達主題并展現出卓越的視覺美學。Sora可適應目標屏幕尺寸生成相應分辨率及縱橫比的高質量視頻內容,語言理解能力使其準確提取文字腳本,詮釋生成為驚艷的視覺敘事。Sora“可能改變電影制作和動畫的預制作過程,讓故事講述者推介和完善他們的表達”[8]。在影視預制作階段,Sora正重新定義編劇和導演的工作流程。過去,將抽象的創(chuàng)意概念轉化為具象視覺,通常需要美術團隊投入大量的時間精力進行草圖創(chuàng)作與概念設計。而今,利用Sora,創(chuàng)作團隊可直接將劇本文本轉化為視頻演示溝通,甚至可以快速制作預告片與動畫預覽。Sora引領的文本驅動與視頻生成技術,不僅優(yōu)化了影視前期工作流程,還可以引入動態(tài)評估和交互式劇本的開發(fā)手段,有助于提升創(chuàng)意的探索效率。在游戲開發(fā)維度上,Sora同樣扮演著“破局者”角色。文本到視頻的轉化能力可以應用于游戲場景構建,助力游戲設計師快速生成基礎素材,有效緩解繁復的手工建模壓力。游戲行業(yè)越發(fā)注重劇情敘事,Sora可依據游戲腳本生成對應的視頻片段,以提升場景過渡效果、深化游戲內部故事敘述的感染力,進而增進玩家的沉浸式體驗。在游戲互動層面,Sora進一步延伸玩家參與內容創(chuàng)作的權力邊界。通過簡單的文本輸入,玩家得以定制個性化的游戲場景,這一參與式創(chuàng)作模式有望開辟游戲互動娛樂的新維度。當前,游戲行業(yè)不斷追求打破真實感和沉浸感界限的方式與方法,傳統(tǒng)游戲開發(fā)常受困于預先設定的環(huán)境和預編程的限制。而“通過集成如Sora擴散模型實現實時、高保真度視頻內容以及擬真音效的生成,有望突破現存局限,賦能開發(fā)者構建隨玩家行為和游戲事件動態(tài)變化的游戲環(huán)境”[9]。如模擬真實的氣候現象、地形動態(tài)變化,甚至是創(chuàng)造性地布局新場景,從而營造更加真實、響應靈活的游戲世界。(二)更新教育方式:定制化學習體驗,均等化教育資源長久以來,教育內容一直以靜態(tài)資源為主。傳統(tǒng)教學資源面臨著制作成本高、動態(tài)變化需求響應能力不足等困境。Sora可以“將描述性文本或課程大綱轉化為特定風格的、為個人學習者興趣量身定制動態(tài)視頻內容”[10],構筑個性化且富有吸引力的學習體驗。在個性化教學視頻的生成方面,Sora允許教育工作者根據學生個體的認知特征和需求,指導模型生成貼合具體教學內容的定制視頻教材。尤其在實驗教學場景中,Sora表現出強大的應用前景。在要求立體化認知的空間結構教學中,其不僅能將諸如“溶解過程”等抽象概念以直觀視頻形式表現,還可以揭示微觀層面的分子運動與作用機制,通過生成多角度視圖進行場景展示,拓展學生對復雜系統(tǒng)知識的理解深度。對于因安全、成本等因素限制而難以在現實環(huán)境中實施的實驗,如解剖學實驗中的實物標本操作,或是汽車碰撞實驗中的破壞性場景,Sora可模擬生成虛擬實驗視頻,在克服資源限制與潛在風險的同時,增強課堂教學互動探索性。Sora還展現出多元化的教育領域應用潛能。在語言文化教學上,Sora可根據教學需要創(chuàng)造出地域情境,使學生體驗異域文化習俗和實踐特定語言交際,這一特性超越了傳統(tǒng)課本教學的局限,使學習者通過仿效真實對話情景習得語言技能并領悟文化內核。在歷史課程教學中,Sora能夠生動再現關鍵歷史場景,將遙遠的時空瞬間拉至學生身邊,將歷史教學從被動回顧轉向主動沉浸式體驗。Sora的虛擬化屬性有助于提升教育的普及性和可及性。其技術應用一定程度上降低了傳統(tǒng)教學方式對人力物力的過度依賴,即便是資源匱乏的邊遠地區(qū)學校,也能以較低成本獲得豐富的視頻教學資源,進而填補優(yōu)質師資力量的空白,Sora可能充當“AI助教”角色解答疑難問題,一定程度上彌合了地區(qū)間教育資源鴻溝。Sora一旦普及為普遍民主化的教學工具,則有望在促進教育公平性方面發(fā)揮效用。(三)助力科學研究:模擬實驗環(huán)境,共享科學知識科學研究的本質在于探尋現象背后的運行機理,其過程包含從概念提煉、理論建構至實驗驗證、學術傳播等多個環(huán)節(jié)。Sora有望將復雜理論模型和實驗過程以直觀形象的方式傳達給學術同行和社會公眾,在模擬實驗環(huán)境和科學知識共享方面發(fā)揮關鍵作用。在理論模型的可視化表達方面,諸多科研領域借助計算機模擬復雜系統(tǒng)的行為,大量原始數據難以直接轉譯為易于解讀的可視化形式。專業(yè)模擬軟件具備建模與仿真功能,但其專業(yè)化程度高、學習曲線陡峭,學科外的非專業(yè)人士難以駕馭。Sora的介入,可以使科研工作者短時間內將深奧的模型計算結果轉化為易懂的視覺材料,將抽象概念變得直觀可感,從而增強理論傳播的有效性。在實驗環(huán)境模擬方面,對于涉及危險操作或受限于特殊環(huán)境的實驗項目,Sora可根據文本說明構建虛擬實驗流程并生成模擬視頻。一方面可以幫助科研團隊在執(zhí)行前評估潛在風險,另一方面通過反復模擬優(yōu)化實驗設計并節(jié)約實驗成本。在探索科學前沿的過程中,對于未經實證的理論設想或假設性的物理現象,研究者可通過Sora將其轉化為可觀的視頻形態(tài),直觀顯現可能的表現狀態(tài)。在科學知識共享與普及方面,Sora的高效視頻生成技術有望促進跨學科合作與交流。其產出的科學概念視頻可以突破專業(yè)知識屏障,讓不同領域的專家得以通過視覺語言信息展開無障礙溝通,有助于加快科學發(fā)現。同時,Sora可能消除傳統(tǒng)科普視頻制作耗時長、成本高的障礙,快速生成科普視頻可以吸引公眾深入理解科學原理,提升科普教育的吸引力與影響力。4
Sora的未來進路:邁向AGI的下一站
(一)認知突圍:挑戰(zhàn)感知、推理、決策等更高階能力作為文生視頻模型,Sora在技術應用層面取得了顯著成就,但在攀登通用人工智能高峰的道路上,依然受制于其認知能力的局限,尤其在跨模態(tài)感知、深度推理和智能決策等高階認知維度,Sora仍有待拓展。首先,在感知能力方面,盡管Sora實現了基于文本指導的視覺內容再現,但在跨模態(tài)感知整合方面尚欠完備。理想的AGI應能融合多種感官輸入,以實現對環(huán)境的全方位、多維度認知,并具有自主探索與學習的主動性,目前Sora并不具備這樣的特性。其次,在推理能力方面,雖然Sora在視頻生成任務中表現出色,但對于復雜情境下的因果邏輯推理和狀態(tài)預測能力卻較為有限,其無法生成基于深層因果關系分析的行為策略和決策預案。AGI的構建要求具備強大的推理框架,能結合底層物理規(guī)律與高層語義知識,構建起對復雜世界的微觀因果模型,進而準確預測未來狀態(tài)演變,以實現智慧型決策而非簡單的響應式輸出。最后,在高層次認知能力方面,Sora不能應對需要動態(tài)規(guī)劃、復雜策略制定的現實問題,更未顯示出諸如創(chuàng)造力、探索欲望、自我意識等人類級別的高級認知屬性。而AGI應具備與人類相似的創(chuàng)造性思維、好奇心驅動力、自我意識以及終身學習和適應環(huán)境變化的能力。Sora或許是AGI發(fā)展歷程中的重要節(jié)點,而要實現對現有認知邊界的實質性突破,須在以下方面進行改革:一是開發(fā)端到端學習和融合不同模態(tài)信息的新型神經網絡架構,利用注意力機制動態(tài)調節(jié)各模態(tài)權重,建立對現實世界的統(tǒng)一表征;二是強化模型對物理規(guī)則的理解與運用,構建基于物理驅動的因果推理引擎,深度融合基礎理論與數據驅動模型,精確模擬底層物理過程;三是設計仿照人腦的多層次認知結構,建立由感知、注意力分配、工作記憶、長期存儲及執(zhí)行控制系統(tǒng)構成的類腦架構,進一步開發(fā)用于規(guī)劃、決策、創(chuàng)新思維等模塊,賦予系統(tǒng)創(chuàng)新思考與長期學習潛能。未來的AGI有望接近甚至達到與人腦相同的認知廣度與深度,能夠進行精準的分析決策,實現對世界的高保真模擬與靈活操控。(二)自主進化:擺脫指令,自主學習盡管Sora在視頻生成任務上成績斐然,其核心技術框架仍受限于對人類指令的高度依賴。從Sora邁向真正AGI的關鍵轉型在于實現AI系統(tǒng)的自主學習與演化,使之脫離對外部指令的剛性需求。Sora依托大規(guī)模監(jiān)督學習訓練而成,其視頻生成活動依賴預定義的文本指令輸入,而此類指令集的構建耗時耗力、難以覆蓋未來潛在的新任務場景。理想的AGI系統(tǒng)應具備自發(fā)探索環(huán)境、獨立發(fā)現規(guī)律并自我更新迭代的能力,而非僅僅是對既定指令的被動響應。Sora在開放式學習方面的欠缺,表現為訓練后的靜態(tài)知識狀態(tài),其無法在實際應用中進行自我擴展與升級。其知識體系源于有限且固定的訓練數據,無法隨著現實世界的開放性與動態(tài)變化而自適應與學習。而真正的AGI系統(tǒng)應當具備開放式持續(xù)學習能力,能夠在各種新情境、規(guī)則和任務需求面前實時適應,持續(xù)吸收新知識并優(yōu)化內部世界模型。此外,當前的人工智能系統(tǒng)缺乏內在驅動力和自我意識,其發(fā)展主要受外在需求引導而非源自內在求知欲。成熟的AGI應模擬人類的內在學習動機,主動追求新知識,以此為基礎推進系統(tǒng)自主、持續(xù)的進步與發(fā)展。在邁向AGI自主進化的道路上,需在現有被動學習框架基礎上進行革新,擺脫對靜態(tài)訓練數據的過度依賴,轉向自主學習與進化的能力,同時嵌入持續(xù)學習的開放機制和內在激勵機制。為此,首先,可采用在線連續(xù)學習技術使得模型能在與環(huán)境互動的過程中實時學習、整合新知識并動態(tài)調整自身參數,這要求開發(fā)新的在線神經網絡參數調整算法,并解決相關穩(wěn)定性問題。其次,須構建內在獎勵機制,模擬生物學中類似好奇心、自我實現等高級心理驅動因素,為系統(tǒng)注入主動探索的動力,并通過正向反饋激發(fā)其持久的“求知沖動”。最后,為了應對現實世界層出不窮的新情況,AGI系統(tǒng)應具備強大的元學習和遷移學習能力,迅速消化新知識并將已掌握的知識有效應用于新情境,提升其在應對全新挑戰(zhàn)時的自適應速度和效能。(三)機器自?。壕邆湓J知,確??尚哦?/strong>透明度與可解釋性對于確保人工智能系統(tǒng)的可信度至關重要,目前包括Sora在內的大模型普遍遭遇“黑盒效應”,其內部運算過程難以透視,決策機制呈現低透明度與低可解釋性特征。因此,在通向AGI的道路上,亟待新一代AI發(fā)展出元認知能力,通過自我反思其認知過程來增強透明度與可解釋性。針對透明度缺失引發(fā)的可解釋性問題,Sora模型從文本指令到視頻生成的具體轉化機制尚不清晰,這導致用戶難以預測其輸出行為,更無法進行精準的調整優(yōu)化。至于自我監(jiān)督與自我調節(jié)機制,當前Sora等模型不具備深度的自省能力,其內部的認知活動猶如黑盒,外界難以對其實施有效的監(jiān)督與控制。若發(fā)生計算偏誤或不合理操作,系統(tǒng)自身無法及時察覺并自我修復?,F階段的Sora等系統(tǒng)在自我評估與自我約束方面存有局限,易于遭受誤用和操控風險。相比之下,理想的AGI系統(tǒng)則應構建起透明化架構和可追溯的決策流程,具有自我監(jiān)督及自我調節(jié)功能,能夠積極闡明決策邏輯,還能真誠地評價自身存在的風險與局限,明確表述認知邊界的所在,進而提升系統(tǒng)的可靠性和信任度。未來的AGI系統(tǒng)要在架構設計上實現機器自省,需具備三個核心機制:一是配備元認知監(jiān)測機制,嵌入系統(tǒng)結構中以實時監(jiān)控各個認知模塊的表現,通過對異常模式識別、決策路徑的剖析以及計算偏差的發(fā)現與校正,實現全面的自我監(jiān)管與調整;二是建立多視角融合機制,確保認知理解的穩(wěn)健性,這意味著模型需要有能力協(xié)調并綜合來自不同視角的理解,力求形成統(tǒng)一而全面的世界觀;三是主動設定認知邊界,確保世界模型的可靠性,系統(tǒng)應能精確評估自身認知能力的局限,并通過與人類用戶的主動交流,誠實地反映認知局限性及潛在風險,接納人類反饋以指導改進,形成“人機協(xié)同解釋”機制,規(guī)避超越能力邊界所帶來的額外風險。Sora代表的視頻生成模型,躍升至精確模擬動態(tài)復雜世界的“世界模型器”仍需時日。擁抱Sora等智能技術創(chuàng)新,意味著人類正在積極擘畫智能時代的藍圖。隨著技術持續(xù)精進,從單一視覺模擬向多元感官模擬擴展,再到全方位世界建模的演化,人工智能將在深刻理解現實的基礎上,推動人類社會在諸多領域實現前所未有的變革。[本文為國家社科基金重大項目“我國新聞傳播業(yè)人工智能應用現狀與發(fā)展趨向研究”(項目編號:19ZDA327)的研究成果;本文由中國傳媒大學中央高校基本科研業(yè)務費專項資助(CUC23GY011)]參考文獻:[1]Brooks T,Peebles B,Homes C,et al.Video generation models as world simulators. [J/OL].(2024-02-15) [2024-02-15].https://openai.com/research/video-generation-models-as-world-simulators/.[2]Creating video from text:Sora is an AI model that can create realistic and imaginative scenes from text instructions. [EB/OL]. [2024-02-15]. https://openai.com/sora/.[3]Margoni, F., Surian, L., Baillargeon, R. The violation-of-expectation paradigm:A conceptual overview[J/OL]. Psychological Review, 2023.[4]Rapha l Millière. Are Video Generation Models World Simulators? [EB/OL]. [2024-03-01]. https://artificialcognition.net/posts/video-generation-world-simulators/.[5]Bilal Mansouri. Sora AI:The Future of AI Video Generation. [EB/OL] [2024-02-19]. https://gptpluginz.com/sora/#Transforming_Visual_Data_into_Manageable_Patches/.[6]Liu, Y., Zhang, K., Li, Y., Yan, Z., Gao, C., Chen, R., Yuan, Z., Huang, Y., Sun, H., Gao, J., He, L., Sun, L. Sora:A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models [J/OL]. [2024-02-28]. ArXiv:2402.17177.[7]Cho, J., Puspitasari, F.D., Zheng, S., Zheng, J., Lee, L.H., Kim, T.H., Hong, C.S., Zhang, C. Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation [J/OL]. [2024-03-08]. ArXiv:2403.05131.[8]Liu, Y., Zhang, K., Li, Y., Yan, Z., Gao, C., Chen, R., Yuan, Z., Huang, Y., Sun, H., Gao, J., He, L., Sun, L. Sora:A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models [J/OL]. [2024-02-28]. ArXiv:2402.17177.[9]Hu, L., Gao, X., Zhang, P., Sun, K., Zhang, B., Bo, L. Animate Anyone:Consistent and Controllable Image-to-Video Synthesis for Character Animation [J/OL]. [2023-12-07]. ArXiv:2311.17117.[10]Xing, J., Xia, M., Liu, Y., Zhang, Y., Zhang, Y., He, Y., Liu, H., Chen, H., Cun, X., Wang, X., Shan, Y., Wong, T.T. Make-Your-Video:Customized Video Generation Using Textual and Structural Guidance [J/OL]. [2023-06-01]. ArXiv:2306.00943.作者簡介:任天知,中國傳媒大學媒體融合與傳播國家重點實驗室博士后,中國傳媒大學國家輿情實驗室研究人員(北京 100024);沈浩,中國傳媒大學教授,中國傳媒大學媒體融合與傳播國家重點實驗室大數據首席科學家(北京 100024)。本文引用格式參考:
相關知識
全面解析無線WiFi BLE模塊:技術原理、應用場景和未來發(fā)展趨勢
覆蓋10大醫(yī)療應用場景!國產AI大模型應用典型案例盤點
科技映照未來,大模型定義精準營養(yǎng)健康新范式
大模型、大數據與顯示技術深度融合 加速智慧醫(yī)療多元化場景落地
世界長壽區(qū)為何都在高原?瑞健未來RLab智能間歇高低氧,精準模擬高原環(huán)境
病歷不再繁瑣:從模擬到決策,AI在電子病歷中的革新之路
虛擬現實技術在兒童肥胖防治研究中的應用進展.pptx
醫(yī)療領域的十大人工智能應用場景:重塑醫(yī)療健康的未來
模擬游戲下載 十大耐玩模擬游戲盤點
新醫(yī)療技術將開啟智慧健康新模式
網址: 從Sora到“世界模擬”:視頻大模型的技術原理、應用場景與未來進路 http://m.u1s5d6.cn/newsview572654.html
推薦資訊
- 1發(fā)朋友圈對老公徹底失望的心情 12775
- 2BMI體重指數計算公式是什么 11235
- 3補腎吃什么 補腎最佳食物推薦 11199
- 4性生活姿勢有哪些 盤點夫妻性 10428
- 5BMI正常值范圍一般是多少? 10137
- 6在線基礎代謝率(BMR)計算 9652
- 7一邊做飯一邊躁狂怎么辦 9138
- 8從出汗看健康 出汗透露你的健 9063
- 9早上怎么喝水最健康? 8613
- 10五大原因危害女性健康 如何保 7828
資訊熱點排名
資訊熱點