背景
用戶使用頭戴設備比使用傳統(tǒng)顯示器觀看 360 度視頻內(nèi)容時的滿意度對于擾亂更加敏感。
沉浸式的體驗受到不完美的視角預測和高度動態(tài)化的網(wǎng)絡狀況的消極影響。
目前主要面臨的挑戰(zhàn)有以下 4 個:
Viewport 預測
背景
HMD 的本質(zhì)特征是快速響應用戶頭部的移動。當用戶改變 viewport 時 HMD 處理交互并檢測相關的 viewport 來精確播放器的信息,這樣視野就能以正常的可視角度被提供給用戶。Viewport 預測在優(yōu)化的 360 度視頻推流中非常必要。配備有位置傳感器的可穿戴 HMD 允許客戶端更新其視角方向相應的視角場景。
分類
內(nèi)容不可知的方式基于歷史信息對 viewport 進行預測。內(nèi)容感知的方式需要視頻內(nèi)容信息來預測未來的 viewport。內(nèi)容不可知方式
分類平均線性回歸 LR航位推算 DR聚類機器學習 ML編解碼器體系結構現(xiàn)有成果Qian’s work——LR使用平均線性回歸和加權線性回歸模型來做 viewport 預測,之后對與預測區(qū)域重疊的 tile 進行整體推流。
當預測后 0.5s、1s、2s 加權線性回歸表現(xiàn)更好Petrangeli’s work——LR將被劃分成 tile 的等矩形的幀分成 3 個區(qū)域:viewport 區(qū)、相鄰區(qū)、其他區(qū)。
結合觀察者頭部的移動,將可變比特率分配給可見和不可見區(qū)域。
作者利用最近(100 毫秒)用戶觀看歷史的線性外推來預測未來的注視點。
Mavlankar and Girod’s work——運動向量使用運動向量比如觀察者的平移、傾斜、縮放等方向上的速度和加速度,來執(zhí)行視角區(qū)域預測。
La Fuente’s work——運動向量考慮了兩種預測變體:角速度和角加速度,從用戶以前的方向數(shù)據(jù)來估計未來的頭部方向。按照預測結果分配不同的量化參數(shù)到每個 tile 上。
當進行進一步的預測時(超過 2s),這種方式限制了預測的精度。
如果視頻 tile 被基于錯誤的預測而被請求,用戶的實際 viewport 可能會被沒有請求因而沒有內(nèi)容的黑色 tile 所覆蓋。
Ban’s work——KNN+LR使用 KNN 算法利用跨用戶觀看歷史,使用 LR 模型利用戶個體化的行為。
就視角預測的準確率而言,分別取得了 20%和 48%的絕對和相對改進。
Liu’s work——cluster提出了使用數(shù)據(jù)融合方法,通過考慮幾個特征來估計未來視角位置。特征例如:用戶的參與度、用戶觀看同一視頻的行為、單個用戶觀看多個視頻的行為、最終用戶設備、移動性水平。
Petrangeli’s work——cluster基于車輛軌跡預測的概念,考慮了類似的軌跡形成一個簇來預測未來的 viewport。
結果表明這種方法為更長的視野提高了精確度。
檢查了來自三個歐拉角的不同軌跡,這樣做可能導致性能不足。
Rossi’s work——cluster提出了一種聚類的方法,基于球形空間中有意義的 viewport 重疊來確認用戶的簇。
基于 Bron-Kerbosch(BK)算法的聚類算法能夠識別大量用戶,這些用戶觀看的是相同的 60%的 3s 長球形視頻塊。
與基準相比,該方法為簇提供了可兼容且重要的幾何 viewport 重疊。
Jiang’s work背景:
LR 方法對于長期的預測視野會導致較差的預測精度。長短時記憶(LSTM)是一種遞歸神經(jīng)網(wǎng)絡(RNN)架構,適用于序列建模和模式開發(fā)。
方法:
為了在 FoV 預測中獲取比 LR 方法更高的精確度,開發(fā)了一種使用帶有 128 個神經(jīng)元的 LSTM 模型的 viewport 預測方法。
分析了 360 度數(shù)據(jù)集,觀察到用戶在水平方向頭部有快速轉向,但是在垂直方向幾乎是穩(wěn)定的。實驗表明,這種方法同時考慮水平和垂直方向的頭部移動時,比 LR 等方法產(chǎn)生了更少的預測錯誤。Bao’s work背景:
對 150 個用戶進行了 16 個視頻剪輯的主觀實驗,并對其行為進行了分析。
使用 3 個方向的歐拉角$theta$, $phi$, $psi$來表示用戶在 3D 空間中頭部的移動,結果表明不同方向的動作有強自相關性和消極的互相關性。因此多個角度的預測可以分開進行。
方法:
開發(fā)兩個獨立的 LSTM 模型來分別預測$theta$和$phi$,之后將預測結果應用于目標區(qū)域流來有效利用可用網(wǎng)絡資源。
Hou’s work提出一種基于深度學習的視角產(chǎn)生方法來只對提前預測的 360 度視頻和 3 自由度的 VR 應用的 viewport tile 進行抽取和推流。(使用了大規(guī)模的數(shù)據(jù)集來訓練模型)使用包含多層感知器和 LSTM 模型來預測 6 自由度的 VR 環(huán)境中頭部乃至身體的移動,預測的視野被預渲染來做到低延遲的 VR 體驗。Heyse’s work背景:
在某些例子中,用戶的移動在視頻的不同部分中非常不穩(wěn)定。這增加了機器學習方式的訓練壓力。
方法:
提出了一個基于 RL 模型的上下文代理,這個模型首先檢測用戶的顯著移動,然后預測移動的方向。這種分層自學習執(zhí)行器優(yōu)于球形軌跡外推法(這種方法將用戶運動建模為軌跡的一部分,而不是單位球體上的完整軌跡)
Qian’s work提出了一種叫做 Flare 的算法來最小化實際 viewport 和預測 viewport 之間的不匹配。
應用了一種 ML 方法來執(zhí)行頻繁的 viewport 預測,包括從 130 名用戶收集的 1300 條頭部運動軌跡的 4 個間隔。使用 viewport 軌跡預測,F(xiàn)lare 可以將錯誤預測替換成最新預測。Yu and Liu’s work背景:
LSTM 網(wǎng)絡本身具有耗時的線性訓練特性。編解碼器的 LSTM 模型把訓練過程并行化,相比于 LR 和 LSTM 本身而言,改善了預測精度。
方法:
使用基于注意力的 LSTM 編解碼器網(wǎng)絡體系結構來避免昂貴的遞歸并能更好地捕獲 viewport 變化。
提出的體系結構相比于傳統(tǒng)的 RNN,獲得了更高的預測精度,更低的訓練復雜度和更快的收斂。Jamali’s work提出使用 LSTM 編解碼器網(wǎng)絡來做長期的 viewport 預測(例如 3.5s)。
收集了低延遲異質(zhì)網(wǎng)絡上跨用戶的方向反饋來調(diào)整高延遲網(wǎng)絡上目標用戶的預測性能。
內(nèi)容感知方式
背景內(nèi)容感知方式可以提高預測效率。
具體方法Aladagli’s work提出了一個顯著性驅(qū)動的模型來提高預測精度。
沒有考慮用戶在 360 度視頻中的視角行為。viewport 預測錯誤可以通過理解用戶對 360 度視頻獨特的可見注意力最小化。Nguyen’s work背景:
大多數(shù)現(xiàn)存的方法把顯著性圖看作是 360 度顯示中的位置信息來獲得更好的預測結果。
通用的顯著性和位置信息體系結構基于固定預測模型。
方法:
提出了PanoSalNet來捕獲用戶在 360 度幀中獨特的可見注意力來改善顯著性檢測的性能。
同時使用 HMD 特性和顯著性圖的固定預測模型獲得了可測量的結果。Xu’s work提出了兩個 DRL(Deep Reinforcement Learning)模型用于同時考慮運動軌跡和可見注意力特性的 viewport 預測網(wǎng)絡。
離線模型基于內(nèi)容流行度檢測每個幀里的顯著性。在線模型基于從離線模型獲得的顯著性圖和之前的 viewport 預測信息預測 viewport 方向和大小。這個網(wǎng)絡只能預測 30ms 的下一個 viewport 位置。Xu’s work收集了大規(guī)模的被使用帶有眼部軌跡跟蹤的 HMD 的 45 個觀測者觀察的動態(tài) 360 度視頻數(shù)據(jù)集,提出了基于歷史掃描路徑和圖像特征預測注視位移的方法。
在與當前注視點、viewport 和整個圖像相關的三個空間尺度上執(zhí)行了顯著性計算??赡艿膱D像特性被通過向 CNN 喂圖像和相應的顯著性圖,同時 LSTM 模型捕獲歷史信息來抽取出來。之后將 LSTM 和 CNN 特性耦合起來,用于下一次的用戶注視信息預測。Fan’s work用戶更容易被運動的物體吸引,因此除了顯著性圖之外,F(xiàn)an 等人也考慮了使用預訓練 的 CNN 來估計用戶未來注視點的內(nèi)容運動圖。
由于可能存在多個運動,這讓預測變得不可靠,因此運動貼圖的開發(fā)還需要進一步的研究。Yang’s work使用 CNN 模型基于歷史觀測角度信息預測了單 viewport。接著考慮了一種使用內(nèi)容不可知和內(nèi)容感知方法如 RNN 和 CFVT 模型的融合層的 viewport 軌跡預測策略。融合模型使其同時支持更好地預測并且提高了大概 40%的精度。Ozcinar’s work將 viewport 軌跡轉換為基于 viewport 的視覺注意圖,然后對不同大小的 tile 進行推流以保證更高的編碼效率。
Li’s work現(xiàn)有的預測模型對未來的預測能力有限,Li 等人提出了兩種模型,分別用于 viewport 相關和基于 tile 的推流系統(tǒng)。
第一個模型應用了基于用戶軌跡的 LSTM 編解碼網(wǎng)絡體系結構。第二個模型應用了卷積 LSTM 編解碼體系結構,使用序列的熱圖來預測用戶的未來方向。總結
精確的方向預測使 360 度視頻的客戶端可以以高分辨率下載最相關的 tile。
當前采用顯著性和位置信息的神經(jīng)網(wǎng)絡模型的性能比直接利用當前觀察位置進行未來 viewport 位置估計的簡單無運動的基線方法表現(xiàn)差。估計的顯著性中的噪音等級限制了這些模型的預測精度。并且這些模型也引入了額外的計算復雜度。
對于 360 度視頻注意點的可靠預測和用戶觀看可能性與顯著性圖之間關系的理解,顯著性模型必須被改善并通過訓練大規(guī)模的數(shù)據(jù)集來適應,尤其是被配備了不同攝像機旋轉的鏡頭所捕獲的數(shù)據(jù)。
另一方面,卷積 LSTM 編解碼器和基于軌跡的預測方法適合長期預測,并能帶來相當大的 QoE 改進,特別是在協(xié)作流媒體環(huán)境中。
QoE 評估
背景
由于全方位視頻非常普遍,因此,通過這種類型的視頻分發(fā)來確定用戶的特定質(zhì)量方面是至關重要的。QoE 在視頻推流應用中扮演著重要角色。在傳統(tǒng)視頻推流中,QoE 很大程度上被網(wǎng)絡負載和分發(fā)性能所影響?,F(xiàn)有的次優(yōu)目標度量方法并不適用于全向視頻,因為全向視頻受網(wǎng)絡狀況和用戶視角行為的影響很大。
主觀質(zhì)量評估
主觀質(zhì)量評估是估計 360 度視頻推流質(zhì)量的現(xiàn)實并且可靠的方法。
Upenik’s work用一臺 MergeVR HMD 執(zhí)行了主觀測試來體驗 360 度圖像。
實驗數(shù)據(jù)包括主觀分數(shù)、視角軌跡、在每個圖像上花費的時間由軟件上獲得。視角方向信息被用于計算顯著性圖。但是這項研究沒有考慮對 360 度視頻的評估。Zhang’s work為了彌補 360 度視頻和常規(guī)視頻度量方式之間的性能差距,為全景視頻提出了一種主觀質(zhì)量評估方法,稱為SAMPVIQ。
23 位參與者被允許觀看 4 個受損視頻,整體視頻質(zhì)量體驗的評分在 0~5 分之間。參與者之間存在較大的評分差異。Xu’s work提出兩種主觀測量方式:總體區(qū)分平均意見分數(shù)(O-DMOS)和矢量區(qū)分平均意見分數(shù)(V-DMOS)來獲得 360 度視頻的質(zhì)量損失。
類似于傳統(tǒng)食品的 DMOS 度量方式,O-DMOS 度量方式計算主觀測試序列的總計區(qū)分分數(shù)。Schatz’s work研究了使用 HMD 觀看 360 度內(nèi)容時停頓事件的影響。
沉浸式內(nèi)容的主觀質(zhì)量評估并非不重要,可能導致比實際推薦更多的開放性問題。通常來講人們的期望于傳統(tǒng)的 HAS 相似,即如果可能的話,根本沒有停頓。可用的開源工具AVTrack360,OpenTrack 和 360player 能捕獲用戶觀看 360 度視頻的頭部軌跡。
VRate 是一個在 VR 環(huán)境中提供主觀問卷調(diào)查的基于 Unity 的工具。
安卓應用*MIRO360*,支持未來 VR 主觀測試的指南開發(fā)。
CybersicknessCybersickness是一種獲得高 QoE 的潛在障礙,它能引起疲勞、惡心、不適和嘔吐。
Singla’s work使用受限的帶寬和分辨率,在不同的延遲情況下進行了兩個主觀實驗。
開發(fā)了主觀測試平臺、測試方法和指標來評估 viewport 自適應 360 度視頻推流中的視頻感知等級和Cybersickness?;?tile 的推流在帶寬受限的情況下表現(xiàn)很好。47ms 的延遲實際上不影響感知質(zhì)量。Tran’s work考慮了幾個影響因子例如內(nèi)容的空間復雜性,數(shù)量參數(shù),分辨率特性和渲染模型來評估 cybersickness,質(zhì)量,可用性和用戶的存在。
VR 環(huán)境中快速移動的內(nèi)容很容易引發(fā) cybersickness。由于高可用性和存在性,用戶的 cybersickness 也可能加劇。Singla’s work評估了 28 名受試者在 Oculus Rift 和 HTC Vive 頭戴式電腦上觀看 6 個全高清和超高清分辨率 YouTube 視頻時的觀看不適感。
HMD 的類型輕微地影響感知質(zhì)量。分辨率和內(nèi)容類型強烈影響個人體驗。女性用戶感到cybersickness的人數(shù)更多??臻g存在感空間存在感能增強沉浸感。
Zou’s work方法:
提出了一個主觀框架來測量 25 名受試者的空間存在感。
提出的框架包括三層,從上到下分別為:空間存在層、感知層、科技影響層。心理上的空間存在感形成了空間存在層。感知層以視頻真實感、音頻真實感和交互元素為特征??萍加绊憣佑蓭讉€模塊組成,這些模塊與感知層相連,以反映傳感器的真實性。Hupont’s work應用通用感知的原則來研究在 Oculus HMD 和傳統(tǒng) 2D 顯示器上玩游戲的用戶的空間存在感。
與 2D 顯示器相比,3D 虛擬現(xiàn)實主義顯示出更高的驚奇、沉浸感、存在感、可用性和興奮感。生理特征度量Salgado’s work方法:
捕獲多種多樣的生理度量,例如心率 HR,皮膚電活性 EDA、皮膚溫度、心電圖信號 ECG、呼吸速率、血壓 BVP、腦電圖信號 EEG 來評價沉浸式模擬器的質(zhì)量。
Egan’s work基于 HR 和 EDA 信號評估 VR 和非 VR 渲染模式質(zhì)量分數(shù)。
相比于 HR,EDA 對質(zhì)量分數(shù)有強烈的影響。技術因素感知不同的技術和感知特征,如失真、清晰度、色彩、對比度、閃爍等,用于評估感知視頻質(zhì)量。
Fremerey’s work確定了可視質(zhì)量強烈地依賴于應用的運動插值(MI)算法和視頻特征,例如相機旋轉和物體的運動。
在一項主觀實驗中,12 位視頻專家回顧了使用 FFmpeg 混合、FFmpeg MCI(運動補償插值)和 butterflow 插值到 90 fps 的四個視頻序列。作者發(fā)現(xiàn),與其他算法相比,MCI 在 QoE 方面提供了極好的改進。
總結主觀測試與人眼直接相關,并揭示了 360 度視頻質(zhì)量評估的不同方面的影響。
在這些方面中,空間存在感和由佩戴 VR 頭戴設備觀看 360 度視頻導致的cybersickness極為重要,因為這些效果并不在傳統(tǒng)的 2D 視頻觀看中出現(xiàn)。
主觀評估需要綜合的手工努力并因此昂貴耗時并易于出錯,相對而言,客觀評估更易于管理和可行。
客觀質(zhì)量評估
由于類似的編碼結構和 2D 平面投影格式,對 360 度內(nèi)容應用客觀質(zhì)量評估很自然。
計算 PSNR現(xiàn)有投影方式中的采樣密度在每個像素位置并不均勻。
Yu’s work為基于球形的 PSNR 計算引入 S-PSNR 和 L-PSNR。
S-PSNR 通過對球面上所有位置的像素點做同等加權來計算 PSNR。利用插值算法,S-PSNR 可以完成對支持多種投影模式的 360 度視頻的客觀質(zhì)量評估。L-PSNR 通過基于緯度和訪問頻率的像素點加權測量 PSNR。L-PSNR 可以測量 viewport 的平均 PSNR 而無需特定的頭部運動軌跡。Zakharchenko’s work提出了一種 Craster Parabolic Projection-PSNR (CPP-PSNR) 度量方式來比較多種投影方案,通過不改變空間分辨率和不計算實際像素位置的 PSNR,將像素重新映射成 CPP 投影。
CPP 投影方式可能使視頻分辨率大幅下降。Sun’s work提出了一種叫做 weighted-to-spherically-uniform PSNR (WS-PSNR)的質(zhì)量度量方式,以此來測量原始和受損內(nèi)容之間的質(zhì)量變化。
根據(jù)像素在球面上的位置考慮權重。計算 SSIMSSIM 是另一種質(zhì)量評估指標,它通過三個因素反映圖像失真,包括亮度、對比度和結構。
Chen’s work為 2D 和 360 度視頻分析了 SSIM 結果,引入了球型結構的相似性度量(S-SSIM)來計算原始和受損的 360 度視頻之間的相似性。
在 S-SSIM 中,使用重投影來計算兩個提取的 viewport 之間的相似性。Zhou’s work考慮相似性的權重提出了 WS-SSIM 來測量投影區(qū)域中窗口的相似性。
性能評估表明,與其他質(zhì)量評估指標相比,WS-SSIM 更接近人類感知。Van der Hooft’s work提出了ProbGaze度量方式,基于 tile 的空間尺寸和 viewport 中的注視點。
考慮外圍 tile 的權重來提供合適的質(zhì)量測量。相比于基于中心和基于平均的 PSNR 和 SSIM 度量方式,ProbGaze能估計當用戶突然改變 viewport 位置時的視頻質(zhì)量變化。Xu’s work引入了兩種客觀質(zhì)量評估度量手段:基于內(nèi)容感知的 PSNR 和非內(nèi)容感知的 PSNR,用于編碼 360 度視頻。
第一種方式基于空間全景內(nèi)容對像素失真進行加權。第二種方式考慮人類偏好的統(tǒng)計數(shù)據(jù)來估計質(zhì)量損失?;?PSNR 和 SSIM 方式的改進盡管各種基于 PSNR 和 SSIM 的方式被廣闊地應用到了 360 度視頻的質(zhì)量評估中,但這些方式都沒有真正地捕獲到感知質(zhì)量,特別是當 HMD 被用于觀看視頻時。因此需要為 360 度內(nèi)容特別設計一種優(yōu)化的質(zhì)量度量方式。
Upenik’s work考慮了一場使用 4 張高質(zhì)量 360 度全景圖像來讓 45 名受試者在不同的編碼設定下評估和比較客觀質(zhì)量度量方式性能的主觀實驗。
現(xiàn)有的客觀度量方式和主觀感知到的質(zhì)量相關性較低。Tran’s work論證主觀度量和客觀度量之間相關性較高,但是使用的數(shù)據(jù)集較小。
基于 ML 的方式基于 ML 的方式可以彌補客觀評估和主觀評估之間的差距。
Da Costa Filho’s work提出了一個有兩個階段的模型。
首先自適應 VR 視頻的播放性能由機器學習算法所確定。之后模型利用估計的度量手段如視頻質(zhì)量、質(zhì)量變化、卡頓時間和啟動延遲來確定用戶的 QoE。Li’s work引入了基于 DRL 的質(zhì)量獲取模型,在一次推流會話中同時考慮頭部和眼部的移動。
360 度視頻被分割成幾個補丁。低觀看概率的補丁被消除。參考和受損視頻序列都被輸入到深度學習可執(zhí)行文件中,以計算補丁的質(zhì)量分數(shù)。之后分數(shù)被加權并加到一起得到最終的分數(shù)。Yang’s work考慮了多質(zhì)量等級的特性和融合模型。
質(zhì)量特性用region of interest(ROI)圖來計算,其中包括像素點等級、區(qū)域等級、對象等級和赤道偏差。混合模型由后向傳播的神經(jīng)網(wǎng)絡構造而成,這個神經(jīng)網(wǎng)絡組合了多種質(zhì)量特性來獲取整體的質(zhì)量評分。總結
精確的 QoE 獲取是優(yōu)化 360 度視頻推流服務中重要的因素,也是自適應分發(fā)方案中基礎的一環(huán)。
單獨考慮 VR 中的可視質(zhì)量對完整的 QoE 框架而言并不足夠。
為能獲得學界的認可,找到其他因素的影響也很必要,例如cybersickness,生理癥狀,用戶的不適感,HMD 的重量和可用性,VR 音頻,viewport 降級率,網(wǎng)絡特性(延遲,抖動,帶寬等),內(nèi)容特性(相機動作,幀率,編碼,投影等),推流特性(viewport 偏差,播放緩沖區(qū),時空質(zhì)量變化等)。
低延遲推流
背景
360 度全景視頻推流過程中的延遲由幾部分組成:傳感器延遲、云/邊處理延遲、網(wǎng)絡延遲、請求開銷、緩沖延遲、渲染延遲和反饋延遲。
低延遲的要求對于云 VR 游戲、沉浸式臨場感和視頻會議等更為嚴格。
要求極低的終端處理延遲、快速的云/邊計算和極低的網(wǎng)絡延遲來確保對用戶頭部移動做出反饋。
現(xiàn)代 HMD 可以做到使傳感器延遲降低到用戶無法感知的程度。
傳輸延遲已經(jīng)由 5G 移動和無線通信技術大幅減少。
但是,對于減少處理、緩沖和渲染延遲的工作也是必要的。
許多沉浸式應用的目標是 MTP 的延遲少于 20ms,理想情況是小于 15ms。
減少啟動時間
減少初始化請求的數(shù)據(jù)量通常來講,較小的視頻 segment 能減少啟動和下載時間。
Van der Hooft’s work考慮了新聞相關內(nèi)容的推流,使用的技術有:
服務端編碼服務端的用戶分析服務器推送策略客戶端積極存儲視頻數(shù)據(jù)取得的效果:
降低了啟動時間允許不同網(wǎng)絡設定下的快速內(nèi)容切換較長的響應時間降低了性能Nguyen’s work基于 viewport 依賴的自適應策略分析了自適應間隔延遲和緩沖延遲的影響。
使用服務端比特率計算策略來最小化響應延遲的影響。根據(jù)客戶端的響應估計可用的網(wǎng)絡吞吐量和未來的 viewport 位置。服務端的決策引擎推流合適的 tile 來滿足延遲限制。取得的效果:
對于 viewport 依賴型推流方案而言,較少的自適應和緩沖延遲不可避免。降低由 tile 分塊帶來的網(wǎng)絡負載
在 HTTP/1.1 中,在空間上將視頻幀分成矩形 tile 會增加網(wǎng)絡負載,因為每個 tile 會產(chǎn)生獨立的網(wǎng)絡請求。
請求爆炸的問題導致了較長的響應延遲,但是可以通過使用 HTTP/2 的服務器推送特性解決。這個特型使服務器能使用一條 HTTP 請求復用多條消息。
Wei’s work利用 HTTP/2 協(xié)議來促進低延遲的 HTTP 自適應推流。
提出的服務端推送的策略使用一條請求同時發(fā)送幾個 segment 避免多個 GET 請求。Petrangeli’s work結合特定請求參數(shù)與 HTTP/2 的服務端推送特性來促進 360 度視頻推流。
客戶端為一個 segment 發(fā)送一條 call,服務器使用 FCFS 策略傳送 k 個 tile。利用 HTTP/2 的優(yōu)先級特性可以使高優(yōu)先級的 tile 以緊急的優(yōu)先級被獲取,進而改善網(wǎng)絡環(huán)境中的高往返時間的性能。Xu’s work為 360 度內(nèi)容采用了k-push策略:將 k 個 tile 推送到客戶端,組成一個單獨的時間段。
提出的方法與 QoE 感知的比特率自適應算法一起,在不同的 RTT 設定下,提高了 20%的視頻質(zhì)量,減少了 30%的網(wǎng)絡傳輸延遲。Yahia’s work使用 HTTP/2 的優(yōu)先級和多路復用功能,在兩個連續(xù)的 viewport 預測之間,即在交付相同片段之前和期間,組織緊急視頻塊的受控自適應傳輸。
Yen’s work開發(fā)了一種支持 QUIC 的體系結構來利用流優(yōu)先級和多路復用的特性來實現(xiàn) 360 度視頻的安全和低優(yōu)先級的傳輸。
當 viewport 變化發(fā)生時,QUIC 能讓常規(guī)的 tile 以低優(yōu)先級推流,viewport 內(nèi)的 tile 以高優(yōu)先級推流,都通過一條 QUIC 連接來降低 viewport tile 的缺失率。作者說測試表明基于 QUIC 的自適應 360 度推流比 HTTP/1.1 和 HTTP/2 的方案表現(xiàn)更好。使用移動邊緣計算降低延遲
Mangiante’s work提出了利用基于邊緣處理的 viewport 渲染方案來減少延遲,同時利用終端設備上的電源和計算負載。
但是作者沒有給出有效的算法或是建立一個實踐執(zhí)行平臺。Liu’s work采用遠端渲染技術,通過為不受約束的 VR 系統(tǒng)獲取高刷新率來隱藏網(wǎng)絡延遲。
采用 60GHz 的無線鏈路支持的高端 GPU,來加快計算速度和 4K 渲染,減少顯示延遲。盡管提供了高質(zhì)量和低延遲的推流,但是使用了昂貴的帶寬連接,這通常并不能獲得。Viitanen’s work引入了端到端的 VR 游戲系統(tǒng)。通過執(zhí)行邊緣渲染來降低延遲,能源和計算開銷。
為 1080p 30fps 的視頻格式實現(xiàn)了端到端的低延遲(30ms)的系統(tǒng)。前提是有充足的帶寬資源、終端設備需要性能強勁的游戲本。Shi’s work考慮了不重視 viewport 預測的高質(zhì)量 360 度視頻渲染。
提出的 MEC-VR 系統(tǒng)采用了一個遠端服務器通過使用一個自適應裁剪過濾器來動態(tài)適應 viewport 覆蓋率,這個過濾器按照觀測到的系統(tǒng)延遲增加 viewport 之外的區(qū)域?;?viewport 覆蓋率的延遲調(diào)整允許客戶端容納和補償突然的頭部移動。共享 VR 環(huán)境中的延遲處理
共享 VR 環(huán)境中用戶的延遲取決于用戶的位置和邊緣資源的分發(fā)。
Park’s work通過考慮多個用戶和邊緣服務器之間的雙向通信,提出了一種使用線性蜂窩拓撲中的帶寬分配策略,以最小化端到端系統(tǒng)延遲。確定了推流延遲強烈地依賴于:
邊緣服務器的處理性能多個交互用戶之間的物理和虛擬空間Perfecto’s work集成了深度神經(jīng)網(wǎng)絡和毫米波多播傳輸技術來降低協(xié)同 VR 環(huán)境中的延遲。
神經(jīng)網(wǎng)絡模型估計了用戶即將來臨的 viewport。用戶被基于預測的相關性和位置分組,以此來優(yōu)化正確的 viewport 許可。執(zhí)行積極的多播資源調(diào)度來最小化延遲和擁塞。總結
在單用戶和多用戶的環(huán)境中,邊緣輔助的解決方式對于控制延遲而言占主要地位。
此外還有服務端的 viewport 計算、服務端 push 機制和遠程渲染機制都能用于低延遲的控制。
現(xiàn)有的 4G 網(wǎng)絡足以支持早期的自適應沉浸式多媒體,正在成長的 5G 網(wǎng)絡更能滿足沉浸式內(nèi)容的需求。
360 度直播推流
背景
傳統(tǒng)的廣播電視頻道是直播推流的流行來源?,F(xiàn)在私人的 360 度直播視頻在各個社交媒體上也有大幅增長。
因為視頻生產(chǎn)者和消費者之間在云端的轉碼操作,360 度視頻推流是更為延遲敏感的應用。
現(xiàn)有的處理設備在諸如轉碼、渲染等實時處理任務上受到了限制。
內(nèi)容分發(fā)Hu’s work提出了一套基于云端的直播推流系統(tǒng),叫做MELiveOV,它使高分辨率的全向內(nèi)容的處理任務以毛細管分布的方式分發(fā)到多個支持 5G 的云端服務器。
端到端的直播推流系統(tǒng)包括內(nèi)容創(chuàng)作模塊、傳輸模塊和 viewport 預測模塊。移動邊緣輔助的推流設計減少了 50%的帶寬需求。Griwodz’s work為 360 度直播推流開發(fā)了優(yōu)化 FoV 的原型,結合了 RTP 和基于 DASH 的pull-patching來傳送兩種質(zhì)量等級的 360 度視頻給華為 IPTV 機頂盒和 Gear VR 頭戴設備。
作者通過在單個 H.265 硬件解碼器上多路復用多個解碼器來實現(xiàn)集體解碼器的想法,以此減少切換時間。視頻轉碼Liu’s work研究表明只轉碼 viewport 區(qū)域有潛力大幅減少高性能轉碼的計算需求。
Baig’s work開發(fā)了快速編碼方案來分發(fā)直播的 4K 視頻到消費端設備。
采用了分層視頻編碼的方式來在高度動態(tài)且不可預測的 WiGig 和 WiFi 鏈路上分發(fā)質(zhì)量可變的塊。Le’s work使用 RTSP 網(wǎng)絡控制協(xié)議為 CCTV 的 360 度直播推流提出了實時轉碼和加密系統(tǒng)。
轉碼方式基于 ARIA 加密庫,Intel 媒體 SDK 和 FFmpeg 庫。系統(tǒng)可以管理并行的轉碼操作,實現(xiàn)高速的轉碼性能。內(nèi)容拼接縫合相比于其他因素如捕獲、轉碼、解碼、渲染,內(nèi)容拼接在決定整體上的推流質(zhì)量時扮演至關重要的角色。
Chen’s work提出了一種內(nèi)容驅(qū)動的拼接方式,這種方式將 360 度幀的語義信息的不同類型看作事件,以此來優(yōu)化拼接時間預算。
基于 VR 幀中的語義信息,tile 執(zhí)行器模塊選擇合適的 tile 設計。拼接器模塊然后執(zhí)行基于 tile 的拼接,這樣,基于可用資源,事件 tile 有更高的拼接質(zhì)量。評估表明系統(tǒng)通過實現(xiàn) 89.4%的時間預算,很好地適應了不同的事件和時間限制。總結
相比于點播式流媒體,360 度直播推流面臨多個挑戰(zhàn),例如在事先不知情的情況下處理用戶導航、視頻的首次流式傳輸以及實時視頻的轉碼。在多用戶場景中,這些挑戰(zhàn)更為棘手。
關于處理多個用戶的觀看模式,可伸縮的多播可以用于在低帶寬和高帶寬網(wǎng)絡上以接近于按需推流的質(zhì)量等級。
基于 ROI 的 tile 拼接和轉碼可以顯著地減少延遲敏感的交互型應用的延遲需求。