谷歌發(fā)布MediaPipe Holistic,優(yōu)化人體姿態(tài)、面部和手部
查看引用/信息源請(qǐng)點(diǎn)擊:映維網(wǎng)
具有優(yōu)化的姿態(tài)、面部和手部組件
(映維網(wǎng) 2020年12月11日)支持移動(dòng)設(shè)備實(shí)時(shí)、同步地感知人體姿態(tài)和面部特征并進(jìn)行手部追蹤,這可以實(shí)現(xiàn)多種有影響力的應(yīng)用,如健身和運(yùn)動(dòng)分析、手勢(shì)控制和手語識(shí)別、以及增強(qiáng)現(xiàn)實(shí)效果等等。開源框架MediaPipe專門為利用加速推理的復(fù)雜感知管道而設(shè)計(jì)(如GPU或CPU),而它已經(jīng)在為上述任務(wù)提供快速而精確的解決方案。將它們實(shí)時(shí)地組合成一個(gè)語義一致的端到端解決方案是一個(gè)獨(dú)特的難題,需要多個(gè)相互依賴的神經(jīng)網(wǎng)絡(luò)同時(shí)進(jìn)行推理。
谷歌日前正式發(fā)布了MediaPipe Holistic。這個(gè)旨在解決上述挑戰(zhàn)的方案提供了一種新穎的、先進(jìn)的人體姿態(tài)拓?fù)?,并可以打開全新的用例。MediaPipe Holistic由一個(gè)全新的管道組成,而所述管道具有優(yōu)化的姿態(tài)、面部和手部組件。每個(gè)組件都實(shí)時(shí)運(yùn)行,推理后端之間的內(nèi)存?zhèn)鬏斪钌?,并且根?jù)質(zhì)量/速度權(quán)衡增加了對(duì)三個(gè)組件互換性的支持。當(dāng)包含這三個(gè)組件時(shí),MediaPipe Holistic能夠?yàn)?40多個(gè)關(guān)鍵點(diǎn)提供統(tǒng)一的拓?fù)浣Y(jié)構(gòu),并在移動(dòng)設(shè)備實(shí)現(xiàn)近乎實(shí)時(shí)的性能。MediaPipe Holistic將作為MediaPipe的一部分發(fā)布,可用于移動(dòng)設(shè)備(Android、iOS)和PC桌面。谷歌同時(shí)為研究(Python)和Web(JavaScript)發(fā)布了全新的即用API,以方便大家對(duì)所述技術(shù)的訪問。
最上方:MediaPipe Holistic對(duì)體育和舞蹈用例的結(jié)果。最下方:“別出聲”和“你好”手勢(shì)。請(qǐng)注意,谷歌的解決方案始終將手識(shí)別為右(藍(lán)色)或左(橙色)。
1. 管道和質(zhì)量
MediaPipe Holistic管道集成了姿態(tài)、面部和手部組件的單獨(dú)模型,每個(gè)模型都針對(duì)特定領(lǐng)域進(jìn)行了優(yōu)化。但由于它們的專長(zhǎng)不同,對(duì)一個(gè)組件的輸入并不適合其他組件。例如,姿態(tài)估計(jì)模型以較低的、固定分辨率的視頻幀(256x256)作為輸入。但如果要從圖像中裁剪手部和面部區(qū)域以傳遞給各自的模型,圖像分辨率會(huì)過低,無法準(zhǔn)確表達(dá)。所以,谷歌將MediaPipe Holistic設(shè)計(jì)為一個(gè)多級(jí)管道,使用一個(gè)區(qū)域適配圖像分辨率來處理不同的區(qū)域。
首先,MediaPipe Holistic通過BlazePose的姿態(tài)檢測(cè)器和隨后的關(guān)鍵點(diǎn)模型估計(jì)人體姿態(tài)。然后,使用推斷出的姿態(tài)關(guān)鍵點(diǎn),為每只手(2x)和面部導(dǎo)出三個(gè)感興趣區(qū)域(ROI;Region of Interest)裁剪,并使用重新裁剪模型來提升ROI。然后,管道將全分辨率輸入幀裁剪到ROI之中,并應(yīng)用特定于任務(wù)的面部和手部模型來估計(jì)它們的對(duì)應(yīng)關(guān)鍵點(diǎn)。最后,將所有關(guān)鍵點(diǎn)與姿態(tài)模型的關(guān)鍵點(diǎn)合并,并得到完整的540+個(gè)關(guān)鍵點(diǎn)。
管道概覽
為了簡(jiǎn)化ROI的識(shí)別,團(tuán)隊(duì)采用了一種類似用于獨(dú)立面部和手部管道的追蹤方法。所述方法假設(shè)對(duì)象在幀之間沒有顯著移動(dòng),然后使用前一幀的估計(jì)作為當(dāng)前幀的對(duì)象區(qū)域的引導(dǎo)。但在快速移動(dòng)過程中,追蹤器可能會(huì)丟失目標(biāo),所以這需要探測(cè)器在圖像中重新定位目標(biāo)。MediaPipe Holistic先使用姿態(tài)預(yù)測(cè)作為額外的ROI,以減少管道對(duì)快速移動(dòng)的響應(yīng)時(shí)間。這同時(shí)使得模型能夠防止左右手或一個(gè)人的身體部分與另一個(gè)人的身體部分之間出現(xiàn)混淆,從而保持整個(gè)身體及其各部分的語義一致性。
另外,姿態(tài)模型的輸入幀分辨率很低,所以生成的面部和手部ROI依然不夠準(zhǔn)確,無法引導(dǎo)所述區(qū)域的重新裁剪(所述區(qū)域需要精確的輸入裁剪以保持輕量化)。為了縮小精度差距,團(tuán)隊(duì)使用了輕量級(jí)的面部和手部重裁剪模型,而它們起到了空間變換器的作用,其推理時(shí)間僅為相應(yīng)模型的10%左右。
- MEH FLE 追蹤管道(基線) 9.8% 3.1% 不含重新裁剪的管道 11.8% 3.5% 含重新裁剪的管道 9.7% 3.1%手部預(yù)測(cè)質(zhì)量。每只手的平均誤差(MEH)已經(jīng)根據(jù)手部尺寸歸一化。用瞳孔間距離對(duì)人臉標(biāo)志誤差(FLE)進(jìn)行歸一化處理。
2. 性能
MediaPipe Holistic需要每個(gè)幀最多8個(gè)模型之間的協(xié)調(diào):1個(gè)姿態(tài)檢測(cè)器、1個(gè)姿態(tài)特征模型、3個(gè)重新裁剪模型、以及3個(gè)用于手部和面部的關(guān)鍵點(diǎn)模型。在構(gòu)建解決方案時(shí),團(tuán)隊(duì)不僅優(yōu)化了機(jī)器學(xué)習(xí)模型,同時(shí)優(yōu)化了預(yù)處理和后處理算法(如仿射變換)。因?yàn)橛捎诠艿赖膹?fù)雜性,所述算法對(duì)于大多數(shù)設(shè)備而言都需要花費(fèi)大量時(shí)間。在這種情況下,根據(jù)設(shè)備的不同,將所有預(yù)處理計(jì)算轉(zhuǎn)移到GPU會(huì)導(dǎo)致大約1.5倍的總體管道加速。所以即便是在中端設(shè)備和瀏覽器中,MediaPipe Holistic都能以近乎實(shí)時(shí)的性能運(yùn)行。
Phone FPS Google Pixel 2 XL 18 Samsung S9+ 20 15-inch MacBook Pro 2017 15各種中端設(shè)備的性能,使用TFLite GPU以每秒幀數(shù)進(jìn)行測(cè)量。
管道的多階段特性提供了另外兩個(gè)性能優(yōu)勢(shì)。由于模型大多獨(dú)立,所以根據(jù)性能和精度要求,可以使用更輕量級(jí)或更重量級(jí)的版本替換它們。另外,一旦推斷出姿態(tài),就可以精確地判斷手和臉是否在幀邊界內(nèi),從而允許管道跳過對(duì)所述身體部位的推斷。
3. 應(yīng)用
覆蓋540多個(gè)關(guān)鍵點(diǎn)的MediaPipe Holistic旨在實(shí)現(xiàn)對(duì)肢體語言、手勢(shì)和面部表情進(jìn)行整體的和同步的感知。這種混合方法支持遠(yuǎn)程手勢(shì)界面,以及全身AR、運(yùn)動(dòng)分析和手語識(shí)別。為了展示MediaPipe Holistic的質(zhì)量和性能,團(tuán)隊(duì)構(gòu)建了一個(gè)能夠在瀏覽器本地運(yùn)行的簡(jiǎn)單遠(yuǎn)程控制界面,并實(shí)現(xiàn)了引人入勝的用戶交互。無需鼠標(biāo)或鍵盤,用戶可以通過動(dòng)作操作屏幕中的對(duì)象,通過虛擬鍵盤鍵入文本,并通過指向或觸碰特定的面部區(qū)域?qū)崿F(xiàn)不同的動(dòng)作,如靜音或關(guān)閉攝像頭。這依靠精確的手部檢測(cè),隨后的手勢(shì)識(shí)別將映射到一個(gè)固定在用戶肩膀的“觸控板”空間,從而實(shí)現(xiàn)了4米以內(nèi)的遠(yuǎn)程控制。
在其他人機(jī)交互方式都不便使用的情況下,這種手勢(shì)控制方式能夠解鎖一系列的新用例。你可以通過這個(gè)Web Demo進(jìn)行嘗試,并用它制作你構(gòu)思的概念的原型。
落實(shí)控制演示。左:掌心拾取器,觸控界面,鍵盤。右:遠(yuǎn)程觸控鍵盤。
4. 研究與Web
為了加速機(jī)器學(xué)習(xí)的研究以及它在Web開發(fā)者社區(qū)中的采用,MediaPipe現(xiàn)在提供了面向Python和JavaScript的可定制機(jī)器學(xué)習(xí)解決方案。你可以直接通過Web瀏覽器進(jìn)行嘗試:對(duì)于Python,請(qǐng)使用Google Colab和Notebook;對(duì)于JavaScript,請(qǐng)使用CodePen和你的網(wǎng)絡(luò)攝像頭輸入。
5. 總結(jié)
谷歌表示:“我們希望MediaPipe Holistic將激勵(lì)研發(fā)社區(qū)成員構(gòu)建新的和獨(dú)特的應(yīng)用程序。我們預(yù)計(jì)所述管道將為未來研究具有挑戰(zhàn)性的領(lǐng)域開辟道路,如手語識(shí)別、裸手控制界面或其他復(fù)雜的用例。我們非常期待你的創(chuàng)意。”
復(fù)雜和動(dòng)態(tài)的手勢(shì)。視頻來源Bill Vicars
映維網(wǎng)(nweon.com)
映維網(wǎng)(nweon.com)
映維網(wǎng)(nweon.com)
映維網(wǎng)(nweon.com)
映維網(wǎng)(nweon.com)
映維網(wǎng)(nweon.com)
映維網(wǎng)(nweon.com)
映維網(wǎng)(nweon.com)
映維網(wǎng)(nweon.com)
相關(guān)知識(shí)
Stable Diffusion: 高清局部重繪技術(shù)——優(yōu)化臉部和手部細(xì)節(jié)
做跨境零售電商站內(nèi)部?jī)?yōu)化健康度評(píng)估
面部吸脂的優(yōu)勢(shì)有哪些 改善面部形態(tài)
谷歌描繪未來浴室:分析人體排便監(jiān)測(cè)健康狀況
如何通過睡姿優(yōu)化體態(tài)?睡前小調(diào)整,大改變!
光明暢優(yōu)牽手百變胡歌 開啟舒暢人生
光明暢優(yōu)牽手胡歌 開啟舒暢人生
薇姿新品發(fā)布
如何優(yōu)化背部線條?這么鍛煉,優(yōu)化后背線條,提升個(gè)人氣質(zhì)
面部吸脂的具體步驟,面部吸脂
網(wǎng)址: 谷歌發(fā)布MediaPipe Holistic,優(yōu)化人體姿態(tài)、面部和手部 http://m.u1s5d6.cn/newsview795835.html
推薦資訊
- 1發(fā)朋友圈對(duì)老公徹底失望的心情 12775
- 2BMI體重指數(shù)計(jì)算公式是什么 11235
- 3補(bǔ)腎吃什么 補(bǔ)腎最佳食物推薦 11199
- 4性生活姿勢(shì)有哪些 盤點(diǎn)夫妻性 10428
- 5BMI正常值范圍一般是多少? 10137
- 6在線基礎(chǔ)代謝率(BMR)計(jì)算 9652
- 7一邊做飯一邊躁狂怎么辦 9138
- 8從出汗看健康 出汗透露你的健 9063
- 9早上怎么喝水最健康? 8613
- 10五大原因危害女性健康 如何保 7828