我在哪?要去哪?字節(jié)跳動Astra雙模型架構助力機器人自由導航
機器之心發(fā)布
機器之心編輯部
在當今科技飛速發(fā)展的時代,機器人在各個領域的應用越來越廣泛,從工業(yè)生產(chǎn)到日常生活,都能看到它們的身影。然而,現(xiàn)代機器人導航系統(tǒng)在多樣化和復雜的室內環(huán)境中面臨著諸多挑戰(zhàn),傳統(tǒng)方法的局限性愈發(fā)明顯。
一、傳統(tǒng)導航瓶頸凸顯,Astra 應勢而生
在復雜的真實世界中,移動機器人想要安全可靠地行走,必須解決三大挑戰(zhàn):我要去哪?我在哪?我要怎么去?這正是目標定位、自我定位與路徑規(guī)劃三大導航核心問題。目標定位時,在某些應用中,目標可能通過自然語言或目標圖像提示指定,這就需要系統(tǒng)理解提示并在地圖中定位目標;自我定位要求機器人在地圖中確定自身位置,尤其是在像倉庫這樣高度重復且缺乏全局地標的復雜場景中,傳統(tǒng)導航系統(tǒng)常依賴人工地標,如 QR 碼;路徑規(guī)劃又分為全局規(guī)劃和局部規(guī)劃,全局規(guī)劃根據(jù)機器人位姿和目標位姿生成粗略路線,局部規(guī)劃則負責在避開障礙物的同時到達全局路徑上的中間路點。
為解決這些任務,傳統(tǒng)導航系統(tǒng)通常由多個模塊組成,包含多個小模型或基于規(guī)則的系統(tǒng)。近年來,基礎模型的出現(xiàn)促使人們將小模型集成到更大的模型中以解決更多任務,但所需模型數(shù)量及如何有效整合仍有待探索。
為了突破傳統(tǒng)導航系統(tǒng)的瓶頸,字節(jié)跳動研發(fā)了一種創(chuàng)新的雙模型架構 Astra。
通過兩大子模型:Astra-Global 與 Astra-Local,在環(huán)境理解感知與實時規(guī)劃決策之間建立通路,為下一代智能體的 “通用導航能力” 打下基礎。Astra 遵循 System 1/System 2 理念,Astra-Global 負責低頻任務,如目標和自我定位;Astra-Local 管理高頻任務,包括局部路徑規(guī)劃和里程計估計。這種架構的出現(xiàn),為移動機器人導航領域帶來了新的希望,有望徹底改變機器人在復雜室內環(huán)境中的導航方式。
圖1: Astra模型概述
二、Astra 雙模型架構揭秘,賦能機器人高效導航
1. Astra-Global:全局定位的智慧大腦
Astra-Global 作為 Astra 架構中的重要組成部分,猶如智慧大腦,承擔著關鍵的低頻任務,即自我定位和目標定位。它是一個多模態(tài)大語言模型(MLLM),能夠巧妙地處理視覺和語言輸入,在全局地圖中實現(xiàn)精準定位。其核心在于利用混合拓撲語義圖,將其作為上下文輸入,使得模型能夠依據(jù)查詢圖像或文本提示,在地圖中準確找到對應的位置。
圖2: Astra-Global 架構
在構建這個強大的定位系統(tǒng)時,離線映射是關鍵的第一步。研究團隊提出了一種離線方法來構建混合拓撲語義圖 G=(V,E,L)。在這個圖中,V 代表節(jié)點集合,通過對輸入視頻進行時間下采樣,并利用 SfM 估計近似的 6 自由度(DoF)相機位姿,將關鍵幀設為節(jié)點,這些節(jié)點編碼了相機位姿和地標引用;E 是基于節(jié)點相對位姿關系建立的無向邊集合,對于全局路徑規(guī)劃至關重要,它代表了幾何連通性;L 則是地標信息集合,通過 Astra-Global 從每個節(jié)點的視覺數(shù)據(jù)中提取語義地標,豐富了地圖的語義理解,地標存儲了語義屬性,并通過共視關系與多個節(jié)點相連。例如,在一個辦公室場景中,拓撲地圖構建確定了各個房間、走廊等位置的節(jié)點和連接關系,地標語義豐富則為這些節(jié)點添加了如 “會議室”“辦公桌區(qū)域” 等地標信息。地標共視圖表的構建進一步確保了不同節(jié)點間關于地標信息的一致性,使得機器人能夠更全面地理解場景。
在實際定位過程中,Astra-Global 的自定位與目標定位功能展現(xiàn)出獨特的優(yōu)勢。視覺 - 語言定位采用粗到精的兩階段過程。在粗定位階段,模型分析輸入圖像和定位提示,檢測地標并與預建地標地圖建立對應關系,同時通過視覺一致性過濾,依據(jù)圖像相似性進一步優(yōu)化匹配結果,確定最終候選節(jié)點。如在一個倉庫環(huán)境中,機器人通過攝像頭獲取圖像,Astra-Global 能夠識別出貨架、叉車等地標,并與地圖中的地標信息匹配,篩選出可能的位置。在精定位階段,模型利用查詢圖像和粗定位輸出的候選節(jié)點,從離線地圖中采樣參考地圖節(jié)點,通過比較參考節(jié)點的視覺和位置信息,直接輸出查詢圖像的預測位姿,實現(xiàn)高精度定位。基于語言的目標定位同樣出色,模型根據(jù)自然語言指令,利用地圖中地標已有的功能描述,識別相關地標,再通過地標到節(jié)點的關聯(lián)機制,定位相關節(jié)點,獲取目標位置的圖像和 6 自由度位姿。比如,當用戶發(fā)出 “找到打印機” 的指令時,Astra-Global 能迅速在地圖中找到與 “打印機” 相關的地標節(jié)點,從而確定打印機的位置。
為了讓 Astra-Global 具備強大的定位能力,研究團隊采用了精心設計的訓練方法。以 Qwen2.5-VL 為骨干,結合監(jiān)督微調(SFT)和組相對策略優(yōu)化(GRPO)。在 SFT 階段,準備包含不同任務的多樣化數(shù)據(jù)集,除了粗定位和精定位數(shù)據(jù)集外,還構建了如共視檢測、共視圖像選擇、運動趨勢估計等輔助任務數(shù)據(jù)集,以提升模型的空間理解能力。在 GRPO 階段,針對視覺 - 語言定位任務,利用基于規(guī)則的獎勵函數(shù)進行訓練,獎勵函數(shù)包括格式獎勵、地標提取獎勵、地圖匹配獎勵和額外地標獎勵等,通過不斷優(yōu)化獎勵函數(shù),提升模型在定位任務中的表現(xiàn)。實驗結果表明,GRPO 顯著提升了 Astra-Global 在零樣本場景下的泛化能力,如在未見過的家庭環(huán)境中,SFT + GRPO 方法的定位準確率達到 99.9%,超過同等數(shù)據(jù)量下 SFT-only 方法的 93.7% 。
2. Astra-Local:本地規(guī)劃的智能助手
Astra-Local 則是 Astra 架構中負責高頻任務的智能助手,它是一個多任務網(wǎng)絡,能夠從傳感器數(shù)據(jù)中高效地生成局部路徑并準確估計里程計。其架構包含三個核心組件:4D 時空編碼器、規(guī)劃頭和里程計頭,每個組件都發(fā)揮著不可或缺的作用。
圖3: Astra-Local 架構
4D 時空編碼器是 Astra-Local 的基礎組件,它旨在取代傳統(tǒng)移動性堆棧中的感知和預測模塊。首先是 3D 空間編碼器,它以 N 個環(huán)視圖像為輸入,通過 Vision Transformer(ViT)將圖像編碼為判別性特征表示,再利用 Lift-Splat-Shoot 將 2D 圖像特征轉換為 3D voxel 特征。為了訓練 3D 空間編碼器,采用自監(jiān)督學習方式,通過 3D 體積可微神經(jīng)渲染,利用深度和顏色圖像進行監(jiān)督。對于缺乏深度標簽的情況,借助大尺度單目深度估計模型對齊稀疏深度傳感器數(shù)據(jù)后生成偽深度標簽。接著,4D 時空編碼器在 3D 編碼器的基礎上進行訓練,它以過去的 voxel 特征和未來時間戳為輸入,通過 ResNet 和 DiT 模塊預測未來 voxel 特征。經(jīng)過預訓練的 4D 時空編碼器能夠生成當前和未來的環(huán)境狀態(tài)表示,為后續(xù)的路徑規(guī)劃和里程計估計提供有力支持。
規(guī)劃頭基于預訓練的 4D 特征,結合機器人速度和任務信息(如目標位姿),通過基于 Transformer 的流匹配來生成可執(zhí)行的軌跡。在復雜環(huán)境中,軌跡具有多模態(tài)特性,流匹配因其高效率成為實時系統(tǒng)中路徑規(guī)劃的理想方法。為了避免與各種障礙物發(fā)生碰撞,規(guī)劃頭引入了掩碼 ESDF 損失。通過計算 3D 占用地圖的歐幾里得空間距離場(ESDF)圖,并在 ESDF 圖上添加 2D 地面真實軌跡掩碼,有效地減少了碰撞率。實驗結果顯示,在包含許多未見擁擠場景的 OOD 數(shù)據(jù)集上,使用掩碼 ESDF 損失的方法在碰撞率和綜合得分方面都優(yōu)于其他方法,充分證明了其在生成高質量軌跡方面的有效性。
里程計頭的主要任務是利用當前和過去的 4D 特征以及額外的傳感器數(shù)據(jù)(如 IMU、車輪數(shù)據(jù))來預測機器人的相對位姿。它通過訓練一個 Transformer 模型來融合不同傳感器的信息,每個傳感器模態(tài)的數(shù)據(jù)都經(jīng)過特定的 tokenizer 處理,再結合模態(tài)嵌入和時間位置嵌入,輸入到 Transformer 編碼器中,最后利用 CLS token 預測相對位姿。在實驗中,與基于兩幀的基線方法相比,Astra-Local 的里程計頭在多傳感器融合和位姿估計方面表現(xiàn)出色,如在加入 IMU 數(shù)據(jù)后,旋轉估計精度大幅提升,整體軌跡誤差降低到約 2%,進一步加入車輪數(shù)據(jù)后,尺度穩(wěn)定性和估計精度進一步增強,展示了其在多傳感器數(shù)據(jù)融合方面的優(yōu)勢。
三、實驗數(shù)據(jù)見證實力
為了全面評估 Astra 的性能,研究團隊在多種不同的室內環(huán)境中展開了廣泛且深入的實驗,涵蓋了倉庫、辦公樓和家庭等場景。這些實驗不僅驗證了 Astra 在理論上的創(chuàng)新架構和算法的有效性,更展示了其在實際應用中的潛力和可靠性。
1. 多模態(tài)定位能力
Astra-Global 的多模態(tài)定位能力通過一系列實驗得到了驗證。在處理文本和圖像定位查詢時,Astra-Global 表現(xiàn)出色。對于目標定位任務,它能夠準確地根據(jù)文本指令在地圖中識別出匹配的圖像和位姿,例如當接收到 “找到休息的地方” 這樣的指令時,Astra-Global 能夠迅速定位到地圖中沙發(fā)等休息區(qū)域的位置信息。與傳統(tǒng)的視覺位置識別(VPR)方法相比,Astra-Global 具有較大優(yōu)勢。在細節(jié)捕捉方面,傳統(tǒng) VPR 方法常依賴全局特征,容易忽略像房間號這樣的精細細節(jié),而 Astra-Global 能夠精準捕捉這些關鍵信息,避免在相似場景中出現(xiàn)定位錯誤。在視點變化的魯棒性上,Astra-Global 基于語義地標進行定位,即使相機角度發(fā)生較大變化,地標之間的相對位置關系保持不變,使其能夠更穩(wěn)定地進行定位,而傳統(tǒng) VPR 方法在面對大的視點變化時往往會出現(xiàn)定位偏差。在位姿精度上,當存在多個相似候選位置時,Astra-Global 能夠利用地標空間關系選擇最佳匹配位姿,在 1 米距離誤差和 5 度角誤差范圍內的位姿精度顯著高于傳統(tǒng) VPR 方法,在倉庫環(huán)境中的位姿精度比傳統(tǒng)方法提升了近 30%+。
圖4: 不同場景下Astra Global的定位精度都顯著高于傳統(tǒng)VPR方法
2. 規(guī)劃與里程計性能
Astra-Local 中規(guī)劃頭和里程計頭的性能同樣在實驗中得到了充分的評估。在規(guī)劃頭方面,研究團隊將其與 ACT 和擴散策略(DP)等方法進行了對比。在碰撞率、速度和得分等指標上,使用基于 Transformer 的流匹配和掩碼 ESDF 損失的 Astra-Local 規(guī)劃頭表現(xiàn)良好。在包含許多未見擁擠場景的 OOD 數(shù)據(jù)集上,Astra-Local 的碰撞率明顯低于其他方法,同時能夠保持較高的速度和綜合得分,充分證明了掩碼 ESDF 損失在減少碰撞風險方面的有效性。在里程計頭方面,通過在包含同步圖像序列、IMU 和車輪數(shù)據(jù)以及地面真實位姿的多模態(tài)數(shù)據(jù)集上進行實驗,結果顯示,與基于兩幀 BEV-ODOM 的基線方法相比,Astra-Local 的里程計頭在多傳感器融合和位姿估計方面具有較大優(yōu)勢。加入 IMU 數(shù)據(jù)后,旋轉估計精度大幅提升,整體軌跡誤差降低到約 2%,進一步加入車輪數(shù)據(jù)后,尺度穩(wěn)定性和估計精度進一步增強,有效提升了機器人在復雜環(huán)境中的運動控制和導航能力。
圖5: 通過掩碼esdf loss可以顯著降低規(guī)劃頭的碰撞率
圖6: 里程計任務頭通過transformer有效的融合多傳感器信息
四、未來展望
展望未來,Astra 有著廣闊的發(fā)展前景和應用潛力。在更廣泛的場景部署方面,Astra 有望拓展到更多復雜的室內環(huán)境,如大型商場、醫(yī)院、圖書館等。在大型商場中,Astra 可幫助機器人快速定位商品位置,為顧客提供精準的導購服務;在醫(yī)院里,能協(xié)助醫(yī)療機器人高效地運送藥品和物資,提高醫(yī)療服務效率;在圖書館中,可助力機器人整理書籍、引導讀者查找資料。
然而,Astra 目前也存在一些需要改進的地方。對于 Astra-Global 模塊,當前的地圖表示雖在信息損失和 token 長度上取得了一定平衡,但在某些情況下仍可能缺乏關鍵的語義細節(jié),影響定位的準確性。未來,研究團隊計劃深入研究替代地圖壓縮方法,在優(yōu)化效率的同時,最大限度地保留重要語義信息,以提升定位精度。此外,現(xiàn)有的定位僅依賴單幀觀測,在特征缺失或高度重復的環(huán)境中可能會失效。為解決這一問題,后續(xù)將引入主動探索機制,讓機器人能夠主動感知周圍環(huán)境,并將時間推理融入模型,利用序列觀測實現(xiàn)更穩(wěn)健的定位,使機器人在復雜環(huán)境中也能準確找到自身和目標的位置。
在本地導航與控制方面,Astra-Local 模塊也有提升空間。在實際機器人部署中,受限于模型的泛化能力以及基于規(guī)則的回退系統(tǒng)在邊緣情況下容易誤觸發(fā),導致回退率不可忽視。為了增強對分布外(OOD)場景的魯棒性,團隊將通過改進模型架構和訓練方法,使其能夠更好地應對各種未知情況。同時,重新設計回退系統(tǒng),使其更緊密地集成到整個系統(tǒng)中,實現(xiàn)更無縫的切換,提高系統(tǒng)的穩(wěn)定性和可靠性。此外,還計劃將指令跟隨能力集成到模型中,使機器人能夠理解和執(zhí)行人類的自然語言指令,進一步拓展其在動態(tài)、以人為中心的環(huán)境中的可用性,實現(xiàn)更自然、高效的人機交互。
相關知識
建筑模型的雙螺旋結構
六自由度汽車駕駛模擬器,動感汽車駕駛模擬器,六自由度動感汽車駕駛模擬器
雙人座動感汽車駕駛模擬器六自由度平臺
跳一跳輔助神器有哪些 跳一跳輔助器全自動軟件
字節(jié)跳動福利大變革:從下午茶自由到健康自由
工業(yè)巡檢機器人以先進機器人之力,護航工業(yè)運維巡檢之路
計算機輔助導航系統(tǒng)在骨腫瘤方面的治療進展
解構自動駕駛:有哪些關鍵技術、爆點在哪里、未來趨勢怎樣?
大規(guī)模數(shù)字化轉型: 健康險公司蓄勢待發(fā) – McKinsey Greater China
六自由度動感雙座汽車駕駛模擬器
網(wǎng)址: 我在哪?要去哪?字節(jié)跳動Astra雙模型架構助力機器人自由導航 http://m.u1s5d6.cn/newsview1528253.html
推薦資訊
- 1發(fā)朋友圈對老公徹底失望的心情 12775
- 2BMI體重指數(shù)計算公式是什么 11235
- 3補腎吃什么 補腎最佳食物推薦 11199
- 4性生活姿勢有哪些 盤點夫妻性 10428
- 5BMI正常值范圍一般是多少? 10137
- 6在線基礎代謝率(BMR)計算 9652
- 7一邊做飯一邊躁狂怎么辦 9138
- 8從出汗看健康 出汗透露你的健 9063
- 9早上怎么喝水最健康? 8613
- 10五大原因危害女性健康 如何保 7828