優(yōu)酷戴洵:大型活動直播沉浸式體驗(yàn)的技術(shù)解密

近年來多視角、自由視角、XR/AR等等新興技術(shù)的出現(xiàn)為直播形態(tài)發(fā)展提供了無限可能,應(yīng)用場景與市場需求滲透促進(jìn),如今視頻直播越來越強(qiáng)調(diào)為用戶打造可交互、超高清、沉浸式的觀看體驗(yàn),
優(yōu)酷直播技術(shù)負(fù)責(zé)人戴洵在7月8日的阿里云直播峰會上分享了《大型活動直播沉浸式體驗(yàn)的技術(shù)解密》主題演講,對大型活動直播中多視角、自由視角、XR直播技術(shù)應(yīng)用場景與技術(shù)鏈路進(jìn)行了全面解讀,深入分析了當(dāng)前環(huán)境下大型活動直播的供需變化。以下為整理內(nèi)容:
隨著技術(shù)的發(fā)展與基礎(chǔ)設(shè)施的夯實(shí),大型活動直播在供需上產(chǎn)生了多方面變化:
大型現(xiàn)場節(jié)目需求從線下往線上溢出;
用戶越來越愿意為線上直播付費(fèi);
用戶更偏向?yàn)槌两袃?nèi)容買單;
而作為平臺與創(chuàng)作者,也更愿意制作線上的、沉浸式的內(nèi)容:如綜藝節(jié)目、體育賽事以及藝術(shù)演出,都開始嘗試多視角、自由視角、XR的直播形式,大型沉浸式直播的行業(yè)應(yīng)用場景不斷拓寬,覆蓋產(chǎn)業(yè)范圍持續(xù)擴(kuò)大。

本次分享也將重點(diǎn)從以上三種直播技術(shù)的挑戰(zhàn)、實(shí)踐、應(yīng)用去展開。
多視角在大型活動直播中的應(yīng)用場景廣泛,如演唱會、晚會、體育賽事等,但是在技術(shù)實(shí)踐上仍然存在諸多挑戰(zhàn):
首先是無法實(shí)現(xiàn)多畫預(yù)覽,如果采用拉多路流的方式實(shí)現(xiàn)多畫預(yù)覽將導(dǎo)致占滿帶寬,造成卡頓率飆升。
其次,拉多路流難以實(shí)現(xiàn)時(shí)間軸對齊,如果采用點(diǎn)擊按鈕刷新播放器的方式來完成切換流的工作,則每次切換都需要重新加載數(shù)據(jù),破壞用戶體驗(yàn)。
重新加載還會造成時(shí)間軸跳躍的問題,在解碼過程中從最近GOP的第一幀開始播放,如果有多個(gè)視角同時(shí)切換流,畫面將發(fā)生回跳。
針對上述挑戰(zhàn),提出的技術(shù)方案需實(shí)現(xiàn)平滑切換、快速切換、同時(shí)預(yù)覽。方案中共包含四個(gè)部分:現(xiàn)場、中心、邊緣、端:

多個(gè)機(jī)位將信號輸出給導(dǎo)播臺,再由導(dǎo)播人員輸入信號并將不同機(jī)位信號供給編碼集群,編碼集群對信號進(jìn)行編碼并上傳到云。需要強(qiáng)調(diào)的是,編碼集群時(shí)間戳提前對齊,在推流時(shí)將對齊的時(shí)間戳加入對應(yīng)流的metadata。
根據(jù)metadata對多個(gè)視角的流進(jìn)行幀對齊,同時(shí)將每一路視角的大小畫面關(guān)系進(jìn)行枚舉,多視角直播服務(wù)需將云導(dǎo)播拼接完成的每一路流進(jìn)行下載緩存,當(dāng)接收到端側(cè)的切流信令后,切換相應(yīng)的音視頻數(shù)據(jù),使用RTP協(xié)議進(jìn)行渲染。
為了離用戶更近需要將多視角直播服務(wù)部署到邊緣云,結(jié)合RTP協(xié)議做到更低延時(shí),提升切流操作的體驗(yàn)。
最后需要將多個(gè)視角的流通過絕對時(shí)間戳進(jìn)行幀對齊,在收到流后進(jìn)行解碼、拆分畫面,并且渲染成為可交互式的播放器。
以上就是一個(gè)完整的多視角直播技術(shù)鏈路。
值得注意的是,多視角直播服務(wù)不需要對云導(dǎo)播輸出的所有信號進(jìn)行解碼,也不需要對發(fā)送給播放器的數(shù)據(jù)進(jìn)行編碼。為了避免大量消耗計(jì)算資源,只需要將對應(yīng)流的音視頻數(shù)據(jù)拷貝并通過RTP協(xié)議發(fā)送給播放器。

圖中綠色與藍(lán)色的流分別為主舞臺視角與演出嘉賓的視角,最底層的一路代表發(fā)送給播放器的用戶流。
切換視角前,拷貝綠色的流;切換視角后,拷貝藍(lán)色的流。如果切換發(fā)生在GOP中間位置,立刻結(jié)束當(dāng)前拷貝的GOP,將剩余的GOP用藍(lán)色流重新編碼,以形成一個(gè)新的GOP,即圖中黃色部分,再繼續(xù)拷貝藍(lán)色流。
采取上述技術(shù)方案能夠?qū)崿F(xiàn)平滑切換同時(shí)節(jié)省大量計(jì)算資源。
自由視角與VR類似,都屬于6DoF視頻,是對3D視頻的一種呈現(xiàn):
VR從一個(gè)點(diǎn)向外、向多個(gè)角度去看,適用于從一個(gè)點(diǎn)環(huán)顧全場的場景。
自由視角從外向內(nèi)看,適用于多個(gè)視角聚焦觀看舞臺場景。
自由視角直播應(yīng)用場景主要包括賽事直播與綜藝直播,用于為節(jié)目呈現(xiàn)特定效果。
下圖展現(xiàn)了自由視角直播技術(shù)完整鏈路以及核心技術(shù)點(diǎn):

采集系統(tǒng)包含了36個(gè)相機(jī)部署在150°的圓弧形支架上,并且對每一路相機(jī)進(jìn)行標(biāo)定。采集系統(tǒng)將36路信號以及標(biāo)定的數(shù)據(jù)同時(shí)輸出給3D“重建”服務(wù)。
3D“重建”服務(wù)是對原始畫面以及深度圖進(jìn)行提取的過程。原始圖像為二維,每一個(gè)像素點(diǎn)具有X\Y坐標(biāo),如果加上Z坐標(biāo)即可完整描述3D畫面,深度圖就具備添加Z坐標(biāo)的作用。深度圖通過相機(jī)原始畫面與標(biāo)定數(shù)據(jù)共同計(jì)算得出。
在提取出原始畫面與深度圖后,將二者進(jìn)行拼接,形成圖中右上角的畫面,即一個(gè)完整描述的3D圖像畫面,并對其進(jìn)行編碼。
最后將完整描述的3D圖像畫面通過CDN分發(fā)到端側(cè)進(jìn)行渲染。端側(cè)在收到流后進(jìn)行解碼,并將拼接畫面因素拆分,最后進(jìn)行上屏渲染。
此處需要強(qiáng)調(diào)的是,36路相機(jī)無法做到150度范圍內(nèi)每一度的精準(zhǔn)切換,由于每兩個(gè)相機(jī)間間隔4°,所以存在2°范圍的空白,需要使用基于深度圖的視點(diǎn)合成技術(shù)來實(shí)時(shí)生成,最終達(dá)到一度精度的切換體驗(yàn)。
以上技術(shù)方案應(yīng)用到直播場景還面臨著一系列挑戰(zhàn):
首先是采集上傳的挑戰(zhàn)。由于3D重建需要計(jì)算深度圖,過程耗費(fèi)大量計(jì)算資源。另外為保證視頻清晰度,拼接后的3D視頻通常能夠達(dá)到8K分辨率,對其進(jìn)行編碼同樣需要耗費(fèi)大量計(jì)算資源。
其次是客戶端下載8K視頻過程中帶寬帶來的壓力。由于8K視頻往往碼率在200M上下,普通用戶很難達(dá)到對應(yīng)網(wǎng)絡(luò)條件。即使是下載到終端,對于終端造成的渲染壓力也是巨大的,并且還需要對空白的視點(diǎn)進(jìn)行實(shí)時(shí)合成。

為了解決上述問題,引入了邊緣計(jì)算層,將8K視頻解碼過程與視點(diǎn)合成工作部署到邊緣云。端側(cè)與邊緣云通過低延時(shí)的RTP協(xié)議傳輸視頻信號與切換信令,能夠有效緩解計(jì)算、帶寬壓力。采集上傳的壓力則是通過特定的硬件與板卡集成來滿足需求,比如集成多路的SDI采集卡與FPGA板卡。
XR直播技術(shù)應(yīng)用場景表現(xiàn)為幀享數(shù)字影棚XR制作系統(tǒng),能夠讓真實(shí)的舞者完全融入虛擬的空間。

舞臺包含了真實(shí)LED背景舞臺,而舞臺外的虛擬背景與AR前景疊加則是由制作系統(tǒng)中的虛擬渲染引擎實(shí)時(shí)渲染拼接而成。最后監(jiān)視器中的畫面通過XR系統(tǒng)制作輸出,已經(jīng)包含了完整的擴(kuò)展背景與疊加后的AR前景。
XR制作系統(tǒng)的技術(shù)鏈路如下圖所示:

首先在攝像機(jī)上安裝攝像跟蹤系統(tǒng),實(shí)時(shí)跟蹤攝像機(jī)位置與焦距等信息,并實(shí)時(shí)輸出給虛擬渲染服務(wù)。虛擬渲染服務(wù)根據(jù)攝像跟蹤系統(tǒng)將虛擬空間內(nèi)容進(jìn)行渲染,通過LED背景投射系統(tǒng)投射到LED背景舞臺,令攝像機(jī)采集到的視頻信號同時(shí)包括真實(shí)的舞者與LED背景與渲染過后的虛擬背景。
最終虛擬渲染服務(wù)收到攝像機(jī)采集信號,結(jié)合攝像跟蹤系統(tǒng)信號,對真實(shí)LED背景屏進(jìn)行拓展,疊加AR前景,形成PGM直播信號。

多視角、自由視角、XR直播技術(shù)的出現(xiàn)將線下活動以全景無死角、互動性更強(qiáng)、沉浸度更深的方式展現(xiàn)在觀眾面前,滿足了觀眾對于大型活動直播日益增長的觀看需求,推動了直播產(chǎn)業(yè)發(fā)展,為行業(yè)帶來了全新機(jī)遇。
