背景
用戶使用頭戴設(shè)備比使用傳統(tǒng)顯示器觀看 360 度視頻內(nèi)容時(shí)的滿意度對(duì)于擾亂更加敏感。
沉浸式的體驗(yàn)受到不完美的視角預(yù)測(cè)和高度動(dòng)態(tài)化的網(wǎng)絡(luò)狀況的消極影響。
目前主要面臨的挑戰(zhàn)有以下 4 個(gè):
Viewport 預(yù)測(cè)
背景
HMD 的本質(zhì)特征是快速響應(yīng)用戶頭部的移動(dòng)。當(dāng)用戶改變 viewport 時(shí) HMD 處理交互并檢測(cè)相關(guān)的 viewport 來(lái)精確播放器的信息,這樣視野就能以正常的可視角度被提供給用戶。Viewport 預(yù)測(cè)在優(yōu)化的 360 度視頻推流中非常必要。配備有位置傳感器的可穿戴 HMD 允許客戶端更新其視角方向相應(yīng)的視角場(chǎng)景。
分類
內(nèi)容不可知的方式基于歷史信息對(duì) viewport 進(jìn)行預(yù)測(cè)。內(nèi)容感知的方式需要視頻內(nèi)容信息來(lái)預(yù)測(cè)未來(lái)的 viewport。內(nèi)容不可知方式
分類平均線性回歸 LR航位推算 DR聚類機(jī)器學(xué)習(xí) ML編解碼器體系結(jié)構(gòu)現(xiàn)有成果Qian’s work——LR使用平均線性回歸和加權(quán)線性回歸模型來(lái)做 viewport 預(yù)測(cè),之后對(duì)與預(yù)測(cè)區(qū)域重疊的 tile 進(jìn)行整體推流。
當(dāng)預(yù)測(cè)后 0.5s、1s、2s 加權(quán)線性回歸表現(xiàn)更好Petrangeli’s work——LR將被劃分成 tile 的等矩形的幀分成 3 個(gè)區(qū)域:viewport 區(qū)、相鄰區(qū)、其他區(qū)。
結(jié)合觀察者頭部的移動(dòng),將可變比特率分配給可見(jiàn)和不可見(jiàn)區(qū)域。
作者利用最近(100 毫秒)用戶觀看歷史的線性外推來(lái)預(yù)測(cè)未來(lái)的注視點(diǎn)。
Mavlankar and Girod’s work——運(yùn)動(dòng)向量使用運(yùn)動(dòng)向量比如觀察者的平移、傾斜、縮放等方向上的速度和加速度,來(lái)執(zhí)行視角區(qū)域預(yù)測(cè)。
La Fuente’s work——運(yùn)動(dòng)向量考慮了兩種預(yù)測(cè)變體:角速度和角加速度,從用戶以前的方向數(shù)據(jù)來(lái)估計(jì)未來(lái)的頭部方向。按照預(yù)測(cè)結(jié)果分配不同的量化參數(shù)到每個(gè) tile 上。
當(dāng)進(jìn)行進(jìn)一步的預(yù)測(cè)時(shí)(超過(guò) 2s),這種方式限制了預(yù)測(cè)的精度。
如果視頻 tile 被基于錯(cuò)誤的預(yù)測(cè)而被請(qǐng)求,用戶的實(shí)際 viewport 可能會(huì)被沒(méi)有請(qǐng)求因而沒(méi)有內(nèi)容的黑色 tile 所覆蓋。
Ban’s work——KNN+LR使用 KNN 算法利用跨用戶觀看歷史,使用 LR 模型利用戶個(gè)體化的行為。
就視角預(yù)測(cè)的準(zhǔn)確率而言,分別取得了 20%和 48%的絕對(duì)和相對(duì)改進(jìn)。
Liu’s work——cluster提出了使用數(shù)據(jù)融合方法,通過(guò)考慮幾個(gè)特征來(lái)估計(jì)未來(lái)視角位置。特征例如:用戶的參與度、用戶觀看同一視頻的行為、單個(gè)用戶觀看多個(gè)視頻的行為、最終用戶設(shè)備、移動(dòng)性水平。
Petrangeli’s work——cluster基于車輛軌跡預(yù)測(cè)的概念,考慮了類似的軌跡形成一個(gè)簇來(lái)預(yù)測(cè)未來(lái)的 viewport。
結(jié)果表明這種方法為更長(zhǎng)的視野提高了精確度。
檢查了來(lái)自三個(gè)歐拉角的不同軌跡,這樣做可能導(dǎo)致性能不足。
Rossi’s work——cluster提出了一種聚類的方法,基于球形空間中有意義的 viewport 重疊來(lái)確認(rèn)用戶的簇。
基于 Bron-Kerbosch(BK)算法的聚類算法能夠識(shí)別大量用戶,這些用戶觀看的是相同的 60%的 3s 長(zhǎng)球形視頻塊。
與基準(zhǔn)相比,該方法為簇提供了可兼容且重要的幾何 viewport 重疊。
Jiang’s work背景:
LR 方法對(duì)于長(zhǎng)期的預(yù)測(cè)視野會(huì)導(dǎo)致較差的預(yù)測(cè)精度。長(zhǎng)短時(shí)記憶(LSTM)是一種遞歸神經(jīng)網(wǎng)絡(luò)(RNN)架構(gòu),適用于序列建模和模式開發(fā)。
方法:
為了在 FoV 預(yù)測(cè)中獲取比 LR 方法更高的精確度,開發(fā)了一種使用帶有 128 個(gè)神經(jīng)元的 LSTM 模型的 viewport 預(yù)測(cè)方法。
分析了 360 度數(shù)據(jù)集,觀察到用戶在水平方向頭部有快速轉(zhuǎn)向,但是在垂直方向幾乎是穩(wěn)定的。實(shí)驗(yàn)表明,這種方法同時(shí)考慮水平和垂直方向的頭部移動(dòng)時(shí),比 LR 等方法產(chǎn)生了更少的預(yù)測(cè)錯(cuò)誤。Bao’s work背景:
對(duì) 150 個(gè)用戶進(jìn)行了 16 個(gè)視頻剪輯的主觀實(shí)驗(yàn),并對(duì)其行為進(jìn)行了分析。
使用 3 個(gè)方向的歐拉角$theta$, $phi$, $psi$來(lái)表示用戶在 3D 空間中頭部的移動(dòng),結(jié)果表明不同方向的動(dòng)作有強(qiáng)自相關(guān)性和消極的互相關(guān)性。因此多個(gè)角度的預(yù)測(cè)可以分開進(jìn)行。
方法:
開發(fā)兩個(gè)獨(dú)立的 LSTM 模型來(lái)分別預(yù)測(cè)$theta$和$phi$,之后將預(yù)測(cè)結(jié)果應(yīng)用于目標(biāo)區(qū)域流來(lái)有效利用可用網(wǎng)絡(luò)資源。
Hou’s work提出一種基于深度學(xué)習(xí)的視角產(chǎn)生方法來(lái)只對(duì)提前預(yù)測(cè)的 360 度視頻和 3 自由度的 VR 應(yīng)用的 viewport tile 進(jìn)行抽取和推流。(使用了大規(guī)模的數(shù)據(jù)集來(lái)訓(xùn)練模型)使用包含多層感知器和 LSTM 模型來(lái)預(yù)測(cè) 6 自由度的 VR 環(huán)境中頭部乃至身體的移動(dòng),預(yù)測(cè)的視野被預(yù)渲染來(lái)做到低延遲的 VR 體驗(yàn)。Heyse’s work背景:
在某些例子中,用戶的移動(dòng)在視頻的不同部分中非常不穩(wěn)定。這增加了機(jī)器學(xué)習(xí)方式的訓(xùn)練壓力。
方法:
提出了一個(gè)基于 RL 模型的上下文代理,這個(gè)模型首先檢測(cè)用戶的顯著移動(dòng),然后預(yù)測(cè)移動(dòng)的方向。這種分層自學(xué)習(xí)執(zhí)行器優(yōu)于球形軌跡外推法(這種方法將用戶運(yùn)動(dòng)建模為軌跡的一部分,而不是單位球體上的完整軌跡)
Qian’s work提出了一種叫做 Flare 的算法來(lái)最小化實(shí)際 viewport 和預(yù)測(cè) viewport 之間的不匹配。
應(yīng)用了一種 ML 方法來(lái)執(zhí)行頻繁的 viewport 預(yù)測(cè),包括從 130 名用戶收集的 1300 條頭部運(yùn)動(dòng)軌跡的 4 個(gè)間隔。使用 viewport 軌跡預(yù)測(cè),F(xiàn)lare 可以將錯(cuò)誤預(yù)測(cè)替換成最新預(yù)測(cè)。Yu and Liu’s work背景:
LSTM 網(wǎng)絡(luò)本身具有耗時(shí)的線性訓(xùn)練特性。編解碼器的 LSTM 模型把訓(xùn)練過(guò)程并行化,相比于 LR 和 LSTM 本身而言,改善了預(yù)測(cè)精度。
方法:
使用基于注意力的 LSTM 編解碼器網(wǎng)絡(luò)體系結(jié)構(gòu)來(lái)避免昂貴的遞歸并能更好地捕獲 viewport 變化。
提出的體系結(jié)構(gòu)相比于傳統(tǒng)的 RNN,獲得了更高的預(yù)測(cè)精度,更低的訓(xùn)練復(fù)雜度和更快的收斂。Jamali’s work提出使用 LSTM 編解碼器網(wǎng)絡(luò)來(lái)做長(zhǎng)期的 viewport 預(yù)測(cè)(例如 3.5s)。
收集了低延遲異質(zhì)網(wǎng)絡(luò)上跨用戶的方向反饋來(lái)調(diào)整高延遲網(wǎng)絡(luò)上目標(biāo)用戶的預(yù)測(cè)性能。
內(nèi)容感知方式
背景內(nèi)容感知方式可以提高預(yù)測(cè)效率。
具體方法Aladagli’s work提出了一個(gè)顯著性驅(qū)動(dòng)的模型來(lái)提高預(yù)測(cè)精度。
沒(méi)有考慮用戶在 360 度視頻中的視角行為。viewport 預(yù)測(cè)錯(cuò)誤可以通過(guò)理解用戶對(duì) 360 度視頻獨(dú)特的可見(jiàn)注意力最小化。Nguyen’s work背景:
大多數(shù)現(xiàn)存的方法把顯著性圖看作是 360 度顯示中的位置信息來(lái)獲得更好的預(yù)測(cè)結(jié)果。
通用的顯著性和位置信息體系結(jié)構(gòu)基于固定預(yù)測(cè)模型。
方法:
提出了PanoSalNet來(lái)捕獲用戶在 360 度幀中獨(dú)特的可見(jiàn)注意力來(lái)改善顯著性檢測(cè)的性能。
同時(shí)使用 HMD 特性和顯著性圖的固定預(yù)測(cè)模型獲得了可測(cè)量的結(jié)果。Xu’s work提出了兩個(gè) DRL(Deep Reinforcement Learning)模型用于同時(shí)考慮運(yùn)動(dòng)軌跡和可見(jiàn)注意力特性的 viewport 預(yù)測(cè)網(wǎng)絡(luò)。
離線模型基于內(nèi)容流行度檢測(cè)每個(gè)幀里的顯著性。在線模型基于從離線模型獲得的顯著性圖和之前的 viewport 預(yù)測(cè)信息預(yù)測(cè) viewport 方向和大小。這個(gè)網(wǎng)絡(luò)只能預(yù)測(cè) 30ms 的下一個(gè) viewport 位置。Xu’s work收集了大規(guī)模的被使用帶有眼部軌跡跟蹤的 HMD 的 45 個(gè)觀測(cè)者觀察的動(dòng)態(tài) 360 度視頻數(shù)據(jù)集,提出了基于歷史掃描路徑和圖像特征預(yù)測(cè)注視位移的方法。
在與當(dāng)前注視點(diǎn)、viewport 和整個(gè)圖像相關(guān)的三個(gè)空間尺度上執(zhí)行了顯著性計(jì)算??赡艿膱D像特性被通過(guò)向 CNN 喂圖像和相應(yīng)的顯著性圖,同時(shí) LSTM 模型捕獲歷史信息來(lái)抽取出來(lái)。之后將 LSTM 和 CNN 特性耦合起來(lái),用于下一次的用戶注視信息預(yù)測(cè)。Fan’s work用戶更容易被運(yùn)動(dòng)的物體吸引,因此除了顯著性圖之外,F(xiàn)an 等人也考慮了使用預(yù)訓(xùn)練 的 CNN 來(lái)估計(jì)用戶未來(lái)注視點(diǎn)的內(nèi)容運(yùn)動(dòng)圖。
由于可能存在多個(gè)運(yùn)動(dòng),這讓預(yù)測(cè)變得不可靠,因此運(yùn)動(dòng)貼圖的開發(fā)還需要進(jìn)一步的研究。Yang’s work使用 CNN 模型基于歷史觀測(cè)角度信息預(yù)測(cè)了單 viewport。接著考慮了一種使用內(nèi)容不可知和內(nèi)容感知方法如 RNN 和 CFVT 模型的融合層的 viewport 軌跡預(yù)測(cè)策略。融合模型使其同時(shí)支持更好地預(yù)測(cè)并且提高了大概 40%的精度。Ozcinar’s work將 viewport 軌跡轉(zhuǎn)換為基于 viewport 的視覺(jué)注意圖,然后對(duì)不同大小的 tile 進(jìn)行推流以保證更高的編碼效率。
Li’s work現(xiàn)有的預(yù)測(cè)模型對(duì)未來(lái)的預(yù)測(cè)能力有限,Li 等人提出了兩種模型,分別用于 viewport 相關(guān)和基于 tile 的推流系統(tǒng)。
第一個(gè)模型應(yīng)用了基于用戶軌跡的 LSTM 編解碼網(wǎng)絡(luò)體系結(jié)構(gòu)。第二個(gè)模型應(yīng)用了卷積 LSTM 編解碼體系結(jié)構(gòu),使用序列的熱圖來(lái)預(yù)測(cè)用戶的未來(lái)方向。總結(jié)
精確的方向預(yù)測(cè)使 360 度視頻的客戶端可以以高分辨率下載最相關(guān)的 tile。
當(dāng)前采用顯著性和位置信息的神經(jīng)網(wǎng)絡(luò)模型的性能比直接利用當(dāng)前觀察位置進(jìn)行未來(lái) viewport 位置估計(jì)的簡(jiǎn)單無(wú)運(yùn)動(dòng)的基線方法表現(xiàn)差。估計(jì)的顯著性中的噪音等級(jí)限制了這些模型的預(yù)測(cè)精度。并且這些模型也引入了額外的計(jì)算復(fù)雜度。
對(duì)于 360 度視頻注意點(diǎn)的可靠預(yù)測(cè)和用戶觀看可能性與顯著性圖之間關(guān)系的理解,顯著性模型必須被改善并通過(guò)訓(xùn)練大規(guī)模的數(shù)據(jù)集來(lái)適應(yīng),尤其是被配備了不同攝像機(jī)旋轉(zhuǎn)的鏡頭所捕獲的數(shù)據(jù)。
另一方面,卷積 LSTM 編解碼器和基于軌跡的預(yù)測(cè)方法適合長(zhǎng)期預(yù)測(cè),并能帶來(lái)相當(dāng)大的 QoE 改進(jìn),特別是在協(xié)作流媒體環(huán)境中。
QoE 評(píng)估
背景
由于全方位視頻非常普遍,因此,通過(guò)這種類型的視頻分發(fā)來(lái)確定用戶的特定質(zhì)量方面是至關(guān)重要的。QoE 在視頻推流應(yīng)用中扮演著重要角色。在傳統(tǒng)視頻推流中,QoE 很大程度上被網(wǎng)絡(luò)負(fù)載和分發(fā)性能所影響?,F(xiàn)有的次優(yōu)目標(biāo)度量方法并不適用于全向視頻,因?yàn)槿蛞曨l受網(wǎng)絡(luò)狀況和用戶視角行為的影響很大。
主觀質(zhì)量評(píng)估
主觀質(zhì)量評(píng)估是估計(jì) 360 度視頻推流質(zhì)量的現(xiàn)實(shí)并且可靠的方法。
Upenik’s work用一臺(tái) MergeVR HMD 執(zhí)行了主觀測(cè)試來(lái)體驗(yàn) 360 度圖像。
實(shí)驗(yàn)數(shù)據(jù)包括主觀分?jǐn)?shù)、視角軌跡、在每個(gè)圖像上花費(fèi)的時(shí)間由軟件上獲得。視角方向信息被用于計(jì)算顯著性圖。但是這項(xiàng)研究沒(méi)有考慮對(duì) 360 度視頻的評(píng)估。Zhang’s work為了彌補(bǔ) 360 度視頻和常規(guī)視頻度量方式之間的性能差距,為全景視頻提出了一種主觀質(zhì)量評(píng)估方法,稱為SAMPVIQ。
23 位參與者被允許觀看 4 個(gè)受損視頻,整體視頻質(zhì)量體驗(yàn)的評(píng)分在 0~5 分之間。參與者之間存在較大的評(píng)分差異。Xu’s work提出兩種主觀測(cè)量方式:總體區(qū)分平均意見(jiàn)分?jǐn)?shù)(O-DMOS)和矢量區(qū)分平均意見(jiàn)分?jǐn)?shù)(V-DMOS)來(lái)獲得 360 度視頻的質(zhì)量損失。
類似于傳統(tǒng)食品的 DMOS 度量方式,O-DMOS 度量方式計(jì)算主觀測(cè)試序列的總計(jì)區(qū)分分?jǐn)?shù)。Schatz’s work研究了使用 HMD 觀看 360 度內(nèi)容時(shí)停頓事件的影響。
沉浸式內(nèi)容的主觀質(zhì)量評(píng)估并非不重要,可能導(dǎo)致比實(shí)際推薦更多的開放性問(wèn)題。通常來(lái)講人們的期望于傳統(tǒng)的 HAS 相似,即如果可能的話,根本沒(méi)有停頓??捎玫拈_源工具AVTrack360,OpenTrack 和 360player 能捕獲用戶觀看 360 度視頻的頭部軌跡。
VRate 是一個(gè)在 VR 環(huán)境中提供主觀問(wèn)卷調(diào)查的基于 Unity 的工具。
安卓應(yīng)用*MIRO360*,支持未來(lái) VR 主觀測(cè)試的指南開發(fā)。
CybersicknessCybersickness是一種獲得高 QoE 的潛在障礙,它能引起疲勞、惡心、不適和嘔吐。
Singla’s work使用受限的帶寬和分辨率,在不同的延遲情況下進(jìn)行了兩個(gè)主觀實(shí)驗(yàn)。
開發(fā)了主觀測(cè)試平臺(tái)、測(cè)試方法和指標(biāo)來(lái)評(píng)估 viewport 自適應(yīng) 360 度視頻推流中的視頻感知等級(jí)和Cybersickness?;?tile 的推流在帶寬受限的情況下表現(xiàn)很好。47ms 的延遲實(shí)際上不影響感知質(zhì)量。Tran’s work考慮了幾個(gè)影響因子例如內(nèi)容的空間復(fù)雜性,數(shù)量參數(shù),分辨率特性和渲染模型來(lái)評(píng)估 cybersickness,質(zhì)量,可用性和用戶的存在。
VR 環(huán)境中快速移動(dòng)的內(nèi)容很容易引發(fā) cybersickness。由于高可用性和存在性,用戶的 cybersickness 也可能加劇。Singla’s work評(píng)估了 28 名受試者在 Oculus Rift 和 HTC Vive 頭戴式電腦上觀看 6 個(gè)全高清和超高清分辨率 YouTube 視頻時(shí)的觀看不適感。
HMD 的類型輕微地影響感知質(zhì)量。分辨率和內(nèi)容類型強(qiáng)烈影響個(gè)人體驗(yàn)。女性用戶感到cybersickness的人數(shù)更多。空間存在感空間存在感能增強(qiáng)沉浸感。
Zou’s work方法:
提出了一個(gè)主觀框架來(lái)測(cè)量 25 名受試者的空間存在感。
提出的框架包括三層,從上到下分別為:空間存在層、感知層、科技影響層。心理上的空間存在感形成了空間存在層。感知層以視頻真實(shí)感、音頻真實(shí)感和交互元素為特征??萍加绊憣佑蓭讉€(gè)模塊組成,這些模塊與感知層相連,以反映傳感器的真實(shí)性。Hupont’s work應(yīng)用通用感知的原則來(lái)研究在 Oculus HMD 和傳統(tǒng) 2D 顯示器上玩游戲的用戶的空間存在感。
與 2D 顯示器相比,3D 虛擬現(xiàn)實(shí)主義顯示出更高的驚奇、沉浸感、存在感、可用性和興奮感。生理特征度量Salgado’s work方法:
捕獲多種多樣的生理度量,例如心率 HR,皮膚電活性 EDA、皮膚溫度、心電圖信號(hào) ECG、呼吸速率、血壓 BVP、腦電圖信號(hào) EEG 來(lái)評(píng)價(jià)沉浸式模擬器的質(zhì)量。
Egan’s work基于 HR 和 EDA 信號(hào)評(píng)估 VR 和非 VR 渲染模式質(zhì)量分?jǐn)?shù)。
相比于 HR,EDA 對(duì)質(zhì)量分?jǐn)?shù)有強(qiáng)烈的影響。技術(shù)因素感知不同的技術(shù)和感知特征,如失真、清晰度、色彩、對(duì)比度、閃爍等,用于評(píng)估感知視頻質(zhì)量。
Fremerey’s work確定了可視質(zhì)量強(qiáng)烈地依賴于應(yīng)用的運(yùn)動(dòng)插值(MI)算法和視頻特征,例如相機(jī)旋轉(zhuǎn)和物體的運(yùn)動(dòng)。
在一項(xiàng)主觀實(shí)驗(yàn)中,12 位視頻專家回顧了使用 FFmpeg 混合、FFmpeg MCI(運(yùn)動(dòng)補(bǔ)償插值)和 butterflow 插值到 90 fps 的四個(gè)視頻序列。作者發(fā)現(xiàn),與其他算法相比,MCI 在 QoE 方面提供了極好的改進(jìn)。
總結(jié)主觀測(cè)試與人眼直接相關(guān),并揭示了 360 度視頻質(zhì)量評(píng)估的不同方面的影響。
在這些方面中,空間存在感和由佩戴 VR 頭戴設(shè)備觀看 360 度視頻導(dǎo)致的cybersickness極為重要,因?yàn)檫@些效果并不在傳統(tǒng)的 2D 視頻觀看中出現(xiàn)。
主觀評(píng)估需要綜合的手工努力并因此昂貴耗時(shí)并易于出錯(cuò),相對(duì)而言,客觀評(píng)估更易于管理和可行。
客觀質(zhì)量評(píng)估
由于類似的編碼結(jié)構(gòu)和 2D 平面投影格式,對(duì) 360 度內(nèi)容應(yīng)用客觀質(zhì)量評(píng)估很自然。
計(jì)算 PSNR現(xiàn)有投影方式中的采樣密度在每個(gè)像素位置并不均勻。
Yu’s work為基于球形的 PSNR 計(jì)算引入 S-PSNR 和 L-PSNR。
S-PSNR 通過(guò)對(duì)球面上所有位置的像素點(diǎn)做同等加權(quán)來(lái)計(jì)算 PSNR。利用插值算法,S-PSNR 可以完成對(duì)支持多種投影模式的 360 度視頻的客觀質(zhì)量評(píng)估。L-PSNR 通過(guò)基于緯度和訪問(wèn)頻率的像素點(diǎn)加權(quán)測(cè)量 PSNR。L-PSNR 可以測(cè)量 viewport 的平均 PSNR 而無(wú)需特定的頭部運(yùn)動(dòng)軌跡。Zakharchenko’s work提出了一種 Craster Parabolic Projection-PSNR (CPP-PSNR) 度量方式來(lái)比較多種投影方案,通過(guò)不改變空間分辨率和不計(jì)算實(shí)際像素位置的 PSNR,將像素重新映射成 CPP 投影。
CPP 投影方式可能使視頻分辨率大幅下降。Sun’s work提出了一種叫做 weighted-to-spherically-uniform PSNR (WS-PSNR)的質(zhì)量度量方式,以此來(lái)測(cè)量原始和受損內(nèi)容之間的質(zhì)量變化。
根據(jù)像素在球面上的位置考慮權(quán)重。計(jì)算 SSIMSSIM 是另一種質(zhì)量評(píng)估指標(biāo),它通過(guò)三個(gè)因素反映圖像失真,包括亮度、對(duì)比度和結(jié)構(gòu)。
Chen’s work為 2D 和 360 度視頻分析了 SSIM 結(jié)果,引入了球型結(jié)構(gòu)的相似性度量(S-SSIM)來(lái)計(jì)算原始和受損的 360 度視頻之間的相似性。
在 S-SSIM 中,使用重投影來(lái)計(jì)算兩個(gè)提取的 viewport 之間的相似性。Zhou’s work考慮相似性的權(quán)重提出了 WS-SSIM 來(lái)測(cè)量投影區(qū)域中窗口的相似性。
性能評(píng)估表明,與其他質(zhì)量評(píng)估指標(biāo)相比,WS-SSIM 更接近人類感知。Van der Hooft’s work提出了ProbGaze度量方式,基于 tile 的空間尺寸和 viewport 中的注視點(diǎn)。
考慮外圍 tile 的權(quán)重來(lái)提供合適的質(zhì)量測(cè)量。相比于基于中心和基于平均的 PSNR 和 SSIM 度量方式,ProbGaze能估計(jì)當(dāng)用戶突然改變 viewport 位置時(shí)的視頻質(zhì)量變化。Xu’s work引入了兩種客觀質(zhì)量評(píng)估度量手段:基于內(nèi)容感知的 PSNR 和非內(nèi)容感知的 PSNR,用于編碼 360 度視頻。
第一種方式基于空間全景內(nèi)容對(duì)像素失真進(jìn)行加權(quán)。第二種方式考慮人類偏好的統(tǒng)計(jì)數(shù)據(jù)來(lái)估計(jì)質(zhì)量損失?;?PSNR 和 SSIM 方式的改進(jìn)盡管各種基于 PSNR 和 SSIM 的方式被廣闊地應(yīng)用到了 360 度視頻的質(zhì)量評(píng)估中,但這些方式都沒(méi)有真正地捕獲到感知質(zhì)量,特別是當(dāng) HMD 被用于觀看視頻時(shí)。因此需要為 360 度內(nèi)容特別設(shè)計(jì)一種優(yōu)化的質(zhì)量度量方式。
Upenik’s work考慮了一場(chǎng)使用 4 張高質(zhì)量 360 度全景圖像來(lái)讓 45 名受試者在不同的編碼設(shè)定下評(píng)估和比較客觀質(zhì)量度量方式性能的主觀實(shí)驗(yàn)。
現(xiàn)有的客觀度量方式和主觀感知到的質(zhì)量相關(guān)性較低。Tran’s work論證主觀度量和客觀度量之間相關(guān)性較高,但是使用的數(shù)據(jù)集較小。
基于 ML 的方式基于 ML 的方式可以彌補(bǔ)客觀評(píng)估和主觀評(píng)估之間的差距。
Da Costa Filho’s work提出了一個(gè)有兩個(gè)階段的模型。
首先自適應(yīng) VR 視頻的播放性能由機(jī)器學(xué)習(xí)算法所確定。之后模型利用估計(jì)的度量手段如視頻質(zhì)量、質(zhì)量變化、卡頓時(shí)間和啟動(dòng)延遲來(lái)確定用戶的 QoE。Li’s work引入了基于 DRL 的質(zhì)量獲取模型,在一次推流會(huì)話中同時(shí)考慮頭部和眼部的移動(dòng)。
360 度視頻被分割成幾個(gè)補(bǔ)丁。低觀看概率的補(bǔ)丁被消除。參考和受損視頻序列都被輸入到深度學(xué)習(xí)可執(zhí)行文件中,以計(jì)算補(bǔ)丁的質(zhì)量分?jǐn)?shù)。之后分?jǐn)?shù)被加權(quán)并加到一起得到最終的分?jǐn)?shù)。Yang’s work考慮了多質(zhì)量等級(jí)的特性和融合模型。
質(zhì)量特性用region of interest(ROI)圖來(lái)計(jì)算,其中包括像素點(diǎn)等級(jí)、區(qū)域等級(jí)、對(duì)象等級(jí)和赤道偏差?;旌夏P陀珊笙騻鞑サ纳窠?jīng)網(wǎng)絡(luò)構(gòu)造而成,這個(gè)神經(jīng)網(wǎng)絡(luò)組合了多種質(zhì)量特性來(lái)獲取整體的質(zhì)量評(píng)分。總結(jié)
精確的 QoE 獲取是優(yōu)化 360 度視頻推流服務(wù)中重要的因素,也是自適應(yīng)分發(fā)方案中基礎(chǔ)的一環(huán)。
單獨(dú)考慮 VR 中的可視質(zhì)量對(duì)完整的 QoE 框架而言并不足夠。
為能獲得學(xué)界的認(rèn)可,找到其他因素的影響也很必要,例如cybersickness,生理癥狀,用戶的不適感,HMD 的重量和可用性,VR 音頻,viewport 降級(jí)率,網(wǎng)絡(luò)特性(延遲,抖動(dòng),帶寬等),內(nèi)容特性(相機(jī)動(dòng)作,幀率,編碼,投影等),推流特性(viewport 偏差,播放緩沖區(qū),時(shí)空質(zhì)量變化等)。
低延遲推流
背景
360 度全景視頻推流過(guò)程中的延遲由幾部分組成:傳感器延遲、云/邊處理延遲、網(wǎng)絡(luò)延遲、請(qǐng)求開銷、緩沖延遲、渲染延遲和反饋延遲。
低延遲的要求對(duì)于云 VR 游戲、沉浸式臨場(chǎng)感和視頻會(huì)議等更為嚴(yán)格。
要求極低的終端處理延遲、快速的云/邊計(jì)算和極低的網(wǎng)絡(luò)延遲來(lái)確保對(duì)用戶頭部移動(dòng)做出反饋。
現(xiàn)代 HMD 可以做到使傳感器延遲降低到用戶無(wú)法感知的程度。
傳輸延遲已經(jīng)由 5G 移動(dòng)和無(wú)線通信技術(shù)大幅減少。
但是,對(duì)于減少處理、緩沖和渲染延遲的工作也是必要的。
許多沉浸式應(yīng)用的目標(biāo)是 MTP 的延遲少于 20ms,理想情況是小于 15ms。
減少啟動(dòng)時(shí)間
減少初始化請(qǐng)求的數(shù)據(jù)量通常來(lái)講,較小的視頻 segment 能減少啟動(dòng)和下載時(shí)間。
Van der Hooft’s work考慮了新聞相關(guān)內(nèi)容的推流,使用的技術(shù)有:
服務(wù)端編碼服務(wù)端的用戶分析服務(wù)器推送策略客戶端積極存儲(chǔ)視頻數(shù)據(jù)取得的效果:
降低了啟動(dòng)時(shí)間允許不同網(wǎng)絡(luò)設(shè)定下的快速內(nèi)容切換較長(zhǎng)的響應(yīng)時(shí)間降低了性能Nguyen’s work基于 viewport 依賴的自適應(yīng)策略分析了自適應(yīng)間隔延遲和緩沖延遲的影響。
使用服務(wù)端比特率計(jì)算策略來(lái)最小化響應(yīng)延遲的影響。根據(jù)客戶端的響應(yīng)估計(jì)可用的網(wǎng)絡(luò)吞吐量和未來(lái)的 viewport 位置。服務(wù)端的決策引擎推流合適的 tile 來(lái)滿足延遲限制。取得的效果:
對(duì)于 viewport 依賴型推流方案而言,較少的自適應(yīng)和緩沖延遲不可避免。降低由 tile 分塊帶來(lái)的網(wǎng)絡(luò)負(fù)載
在 HTTP/1.1 中,在空間上將視頻幀分成矩形 tile 會(huì)增加網(wǎng)絡(luò)負(fù)載,因?yàn)槊總€(gè) tile 會(huì)產(chǎn)生獨(dú)立的網(wǎng)絡(luò)請(qǐng)求。
請(qǐng)求爆炸的問(wèn)題導(dǎo)致了較長(zhǎng)的響應(yīng)延遲,但是可以通過(guò)使用 HTTP/2 的服務(wù)器推送特性解決。這個(gè)特型使服務(wù)器能使用一條 HTTP 請(qǐng)求復(fù)用多條消息。
Wei’s work利用 HTTP/2 協(xié)議來(lái)促進(jìn)低延遲的 HTTP 自適應(yīng)推流。
提出的服務(wù)端推送的策略使用一條請(qǐng)求同時(shí)發(fā)送幾個(gè) segment 避免多個(gè) GET 請(qǐng)求。Petrangeli’s work結(jié)合特定請(qǐng)求參數(shù)與 HTTP/2 的服務(wù)端推送特性來(lái)促進(jìn) 360 度視頻推流。
客戶端為一個(gè) segment 發(fā)送一條 call,服務(wù)器使用 FCFS 策略傳送 k 個(gè) tile。利用 HTTP/2 的優(yōu)先級(jí)特性可以使高優(yōu)先級(jí)的 tile 以緊急的優(yōu)先級(jí)被獲取,進(jìn)而改善網(wǎng)絡(luò)環(huán)境中的高往返時(shí)間的性能。Xu’s work為 360 度內(nèi)容采用了k-push策略:將 k 個(gè) tile 推送到客戶端,組成一個(gè)單獨(dú)的時(shí)間段。
提出的方法與 QoE 感知的比特率自適應(yīng)算法一起,在不同的 RTT 設(shè)定下,提高了 20%的視頻質(zhì)量,減少了 30%的網(wǎng)絡(luò)傳輸延遲。Yahia’s work使用 HTTP/2 的優(yōu)先級(jí)和多路復(fù)用功能,在兩個(gè)連續(xù)的 viewport 預(yù)測(cè)之間,即在交付相同片段之前和期間,組織緊急視頻塊的受控自適應(yīng)傳輸。
Yen’s work開發(fā)了一種支持 QUIC 的體系結(jié)構(gòu)來(lái)利用流優(yōu)先級(jí)和多路復(fù)用的特性來(lái)實(shí)現(xiàn) 360 度視頻的安全和低優(yōu)先級(jí)的傳輸。
當(dāng) viewport 變化發(fā)生時(shí),QUIC 能讓常規(guī)的 tile 以低優(yōu)先級(jí)推流,viewport 內(nèi)的 tile 以高優(yōu)先級(jí)推流,都通過(guò)一條 QUIC 連接來(lái)降低 viewport tile 的缺失率。作者說(shuō)測(cè)試表明基于 QUIC 的自適應(yīng) 360 度推流比 HTTP/1.1 和 HTTP/2 的方案表現(xiàn)更好。使用移動(dòng)邊緣計(jì)算降低延遲
Mangiante’s work提出了利用基于邊緣處理的 viewport 渲染方案來(lái)減少延遲,同時(shí)利用終端設(shè)備上的電源和計(jì)算負(fù)載。
但是作者沒(méi)有給出有效的算法或是建立一個(gè)實(shí)踐執(zhí)行平臺(tái)。Liu’s work采用遠(yuǎn)端渲染技術(shù),通過(guò)為不受約束的 VR 系統(tǒng)獲取高刷新率來(lái)隱藏網(wǎng)絡(luò)延遲。
采用 60GHz 的無(wú)線鏈路支持的高端 GPU,來(lái)加快計(jì)算速度和 4K 渲染,減少顯示延遲。盡管提供了高質(zhì)量和低延遲的推流,但是使用了昂貴的帶寬連接,這通常并不能獲得。Viitanen’s work引入了端到端的 VR 游戲系統(tǒng)。通過(guò)執(zhí)行邊緣渲染來(lái)降低延遲,能源和計(jì)算開銷。
為 1080p 30fps 的視頻格式實(shí)現(xiàn)了端到端的低延遲(30ms)的系統(tǒng)。前提是有充足的帶寬資源、終端設(shè)備需要性能強(qiáng)勁的游戲本。Shi’s work考慮了不重視 viewport 預(yù)測(cè)的高質(zhì)量 360 度視頻渲染。
提出的 MEC-VR 系統(tǒng)采用了一個(gè)遠(yuǎn)端服務(wù)器通過(guò)使用一個(gè)自適應(yīng)裁剪過(guò)濾器來(lái)動(dòng)態(tài)適應(yīng) viewport 覆蓋率,這個(gè)過(guò)濾器按照觀測(cè)到的系統(tǒng)延遲增加 viewport 之外的區(qū)域?;?viewport 覆蓋率的延遲調(diào)整允許客戶端容納和補(bǔ)償突然的頭部移動(dòng)。共享 VR 環(huán)境中的延遲處理
共享 VR 環(huán)境中用戶的延遲取決于用戶的位置和邊緣資源的分發(fā)。
Park’s work通過(guò)考慮多個(gè)用戶和邊緣服務(wù)器之間的雙向通信,提出了一種使用線性蜂窩拓?fù)渲械膸挿峙洳呗?,以最小化端到端系統(tǒng)延遲。確定了推流延遲強(qiáng)烈地依賴于:
邊緣服務(wù)器的處理性能多個(gè)交互用戶之間的物理和虛擬空間Perfecto’s work集成了深度神經(jīng)網(wǎng)絡(luò)和毫米波多播傳輸技術(shù)來(lái)降低協(xié)同 VR 環(huán)境中的延遲。
神經(jīng)網(wǎng)絡(luò)模型估計(jì)了用戶即將來(lái)臨的 viewport。用戶被基于預(yù)測(cè)的相關(guān)性和位置分組,以此來(lái)優(yōu)化正確的 viewport 許可。執(zhí)行積極的多播資源調(diào)度來(lái)最小化延遲和擁塞。總結(jié)
在單用戶和多用戶的環(huán)境中,邊緣輔助的解決方式對(duì)于控制延遲而言占主要地位。
此外還有服務(wù)端的 viewport 計(jì)算、服務(wù)端 push 機(jī)制和遠(yuǎn)程渲染機(jī)制都能用于低延遲的控制。
現(xiàn)有的 4G 網(wǎng)絡(luò)足以支持早期的自適應(yīng)沉浸式多媒體,正在成長(zhǎng)的 5G 網(wǎng)絡(luò)更能滿足沉浸式內(nèi)容的需求。
360 度直播推流
背景
傳統(tǒng)的廣播電視頻道是直播推流的流行來(lái)源?,F(xiàn)在私人的 360 度直播視頻在各個(gè)社交媒體上也有大幅增長(zhǎng)。
因?yàn)橐曨l生產(chǎn)者和消費(fèi)者之間在云端的轉(zhuǎn)碼操作,360 度視頻推流是更為延遲敏感的應(yīng)用。
現(xiàn)有的處理設(shè)備在諸如轉(zhuǎn)碼、渲染等實(shí)時(shí)處理任務(wù)上受到了限制。
內(nèi)容分發(fā)Hu’s work提出了一套基于云端的直播推流系統(tǒng),叫做MELiveOV,它使高分辨率的全向內(nèi)容的處理任務(wù)以毛細(xì)管分布的方式分發(fā)到多個(gè)支持 5G 的云端服務(wù)器。
端到端的直播推流系統(tǒng)包括內(nèi)容創(chuàng)作模塊、傳輸模塊和 viewport 預(yù)測(cè)模塊。移動(dòng)邊緣輔助的推流設(shè)計(jì)減少了 50%的帶寬需求。Griwodz’s work為 360 度直播推流開發(fā)了優(yōu)化 FoV 的原型,結(jié)合了 RTP 和基于 DASH 的pull-patching來(lái)傳送兩種質(zhì)量等級(jí)的 360 度視頻給華為 IPTV 機(jī)頂盒和 Gear VR 頭戴設(shè)備。
作者通過(guò)在單個(gè) H.265 硬件解碼器上多路復(fù)用多個(gè)解碼器來(lái)實(shí)現(xiàn)集體解碼器的想法,以此減少切換時(shí)間。視頻轉(zhuǎn)碼Liu’s work研究表明只轉(zhuǎn)碼 viewport 區(qū)域有潛力大幅減少高性能轉(zhuǎn)碼的計(jì)算需求。
Baig’s work開發(fā)了快速編碼方案來(lái)分發(fā)直播的 4K 視頻到消費(fèi)端設(shè)備。
采用了分層視頻編碼的方式來(lái)在高度動(dòng)態(tài)且不可預(yù)測(cè)的 WiGig 和 WiFi 鏈路上分發(fā)質(zhì)量可變的塊。Le’s work使用 RTSP 網(wǎng)絡(luò)控制協(xié)議為 CCTV 的 360 度直播推流提出了實(shí)時(shí)轉(zhuǎn)碼和加密系統(tǒng)。
轉(zhuǎn)碼方式基于 ARIA 加密庫(kù),Intel 媒體 SDK 和 FFmpeg 庫(kù)。系統(tǒng)可以管理并行的轉(zhuǎn)碼操作,實(shí)現(xiàn)高速的轉(zhuǎn)碼性能。內(nèi)容拼接縫合相比于其他因素如捕獲、轉(zhuǎn)碼、解碼、渲染,內(nèi)容拼接在決定整體上的推流質(zhì)量時(shí)扮演至關(guān)重要的角色。
Chen’s work提出了一種內(nèi)容驅(qū)動(dòng)的拼接方式,這種方式將 360 度幀的語(yǔ)義信息的不同類型看作事件,以此來(lái)優(yōu)化拼接時(shí)間預(yù)算。
基于 VR 幀中的語(yǔ)義信息,tile 執(zhí)行器模塊選擇合適的 tile 設(shè)計(jì)。拼接器模塊然后執(zhí)行基于 tile 的拼接,這樣,基于可用資源,事件 tile 有更高的拼接質(zhì)量。評(píng)估表明系統(tǒng)通過(guò)實(shí)現(xiàn) 89.4%的時(shí)間預(yù)算,很好地適應(yīng)了不同的事件和時(shí)間限制。總結(jié)
相比于點(diǎn)播式流媒體,360 度直播推流面臨多個(gè)挑戰(zhàn),例如在事先不知情的情況下處理用戶導(dǎo)航、視頻的首次流式傳輸以及實(shí)時(shí)視頻的轉(zhuǎn)碼。在多用戶場(chǎng)景中,這些挑戰(zhàn)更為棘手。
關(guān)于處理多個(gè)用戶的觀看模式,可伸縮的多播可以用于在低帶寬和高帶寬網(wǎng)絡(luò)上以接近于按需推流的質(zhì)量等級(jí)。
基于 ROI 的 tile 拼接和轉(zhuǎn)碼可以顯著地減少延遲敏感的交互型應(yīng)用的延遲需求。