6萬(wàn)獎(jiǎng)金!超分辨率新賽事來(lái)了!
今年,音視頻場(chǎng)景異常火熱,視頻會(huì)議、視頻社交、互動(dòng)直播。而 AI 也給音視頻領(lǐng)域都帶來(lái)了新的機(jī)遇與挑戰(zhàn)。
AI 在音視頻領(lǐng)域中有很多應(yīng)用方向,比如用于優(yōu)化編解碼性能,據(jù)說(shuō)幾乎所有下一代編解碼標(biāo)準(zhǔn)中都有 AI 的身影;還有音頻、視頻的處理,比如 AI 降噪、視頻超分辨率算法。
僅以視頻來(lái)講,視頻的AI模型網(wǎng)絡(luò)深度更深、模型更大,但是處理流程卻比較簡(jiǎn)單,沒(méi)有像音頻數(shù)據(jù)的時(shí)域和頻域互轉(zhuǎn)的前后處理過(guò)程。
?
目前在視頻領(lǐng)域中,大家討論最多的算法之一就是超分辨率算法。這個(gè)算法的功能就是把一張圖片、視頻實(shí)現(xiàn)高質(zhì)量的放大。這個(gè)功能用普通的圖片編輯或查看工具也可以實(shí)現(xiàn),只是通過(guò)這些工具你得到的會(huì)是一張比較模糊的圖片。但是,超分辨率算法與傳統(tǒng)的圖像放大算法的核心區(qū)別就在于,它能實(shí)現(xiàn)圖像細(xì)節(jié)增強(qiáng)和去模糊。
兩者會(huì)有大區(qū)別呢?我們可以看看下面這張圖。左半張圖是通過(guò)超分辨率算法放大后的,而右邊是用圖像瀏覽器修改尺寸放大的。傳統(tǒng)的放大一般是使用線性插值來(lái)填充新的像素點(diǎn),實(shí)際上就像是一種平滑處理,所以放大后會(huì)導(dǎo)致圖片看起來(lái)很模糊,比如右邊圖中的尖毛看起來(lái)就會(huì)更模糊一點(diǎn)。
?
? ? ? ?
? ? ? ?
?
相較于傳統(tǒng)的插值方式,超分辨算法就像是一種更智能的插值技術(shù),在不同的紋理區(qū)域有不同的插值選擇,而且插值的計(jì)算方式也更復(fù)雜。? ? ??
這個(gè)應(yīng)用下的網(wǎng)絡(luò)模型一般是由卷積和反卷積,以及一些激活函數(shù)構(gòu)成的。 卷積層用于計(jì)算特征圖,反卷積用于上采樣計(jì)算新的像素點(diǎn)。這種模型結(jié)構(gòu)的好處很明顯,你可以輸入任意大小的圖片尺寸,最終都能得到一個(gè)固定系數(shù)放大后的輸出圖像。
那么這項(xiàng)技術(shù)對(duì)于音視頻領(lǐng)域有什么意義呢?
?
最重要的意義在于,可以減少數(shù)據(jù)傳輸量,比如我可以只傳輸一個(gè) 360P 的視頻數(shù)據(jù),但是在你收到視頻后,數(shù)據(jù)通過(guò)超分算法放大為 720P,然后渲染顯示出來(lái)。你看,傳輸數(shù)據(jù)量變小了,對(duì)于帶寬的壓力小了,但你仍能看到高清視頻。
但比較遺憾的是,目前這個(gè)技術(shù)在運(yùn)用到實(shí)際場(chǎng)景時(shí),還是存在很多讓人意想不到的問(wèn)題。我們還是拿“貓尾巴”做例子,可以看下面這張圖,左半部分的紅框中的條紋,是經(jīng)過(guò)超分辨率神經(jīng)網(wǎng)絡(luò)模型處理后,額外產(chǎn)生的。這也是目前很多超分網(wǎng)絡(luò)的通病。這是由于神經(jīng)網(wǎng)絡(luò)需要抗模糊和銳化圖像,但這也會(huì)導(dǎo)致本來(lái)應(yīng)該是平滑的區(qū)域,卻出現(xiàn)銳化的條紋。?
?
? ? ? ?
? ? ?
不僅如此,正如剛剛所說(shuō)的,超分辨率算法模型還要面臨算法復(fù)雜度、性能與質(zhì)量的挑戰(zhàn)。因?yàn)楫?dāng)我們將這些算法應(yīng)用到不同實(shí)際運(yùn)行環(huán)境中時(shí),也會(huì)收到硬件設(shè)備性能等因素的限制。現(xiàn)在很多院校、機(jī)構(gòu)、技術(shù)團(tuán)隊(duì)也都在做相關(guān)研究。相關(guān)的專業(yè)比賽也有不少。最近就有這么一場(chǎng)圍繞“超分辨率圖像性能”的技術(shù)挑戰(zhàn)賽正在進(jìn)行中。
近期,由聲網(wǎng) Agora、RTC 開發(fā)者社區(qū)聯(lián)合DataCastle數(shù)據(jù)城堡,正式發(fā)布了超分辨率圖像性能挑戰(zhàn)賽,旨在吸引更多研究人員參與超分辨率算法的研究,推動(dòng)超分辨率算法在RTE場(chǎng)景應(yīng)用,促進(jìn)工業(yè)界與學(xué)術(shù)界的深度合作。

聲網(wǎng)Agora成立于2013年,是全球?qū)崟r(shí)互動(dòng)云行業(yè)開創(chuàng)者,是全球領(lǐng)先的專業(yè)服務(wù)商。聲網(wǎng)Agora為開發(fā)者提供簡(jiǎn)單易用、高度可定制和廣泛兼容的應(yīng)用編程接口API,使得開發(fā)者不需要研發(fā)或自己構(gòu)建底層基礎(chǔ)設(shè)施,只需簡(jiǎn)單調(diào)用Agora API,即可在應(yīng)用內(nèi)構(gòu)建多種實(shí)時(shí)音視頻互動(dòng)場(chǎng)景。2020年3月單月,聲網(wǎng)Agora通過(guò)10,000多個(gè)活躍應(yīng)用程序?yàn)?00多個(gè)國(guó)家的終端用戶提供超過(guò)400億分鐘的實(shí)時(shí)互動(dòng)。2020年6月,聲網(wǎng)Agora登陸納斯達(dá)克,成為全球?qū)崟r(shí)互動(dòng)云第一股。
聲網(wǎng)Agora 的實(shí)時(shí)互動(dòng)技術(shù)已經(jīng)賦能到社交直播、在線教育、游戲電競(jìng)、IoT、AR/VR、保險(xiǎn)、醫(yī)療、企業(yè)協(xié)作等10余行業(yè),共計(jì)100多種場(chǎng)景。使用聲網(wǎng)Agora服務(wù)的企業(yè)包括小米、陌陌、新東方、曉黑板、斗魚、眾安保險(xiǎn)、The Meet Group、Kumu、印度的歐萊雅等遍布全球的巨頭、獨(dú)角獸及創(chuàng)業(yè)企業(yè)。
2019年,聲網(wǎng)Agora舉行AI in RTC-超分辨率挑戰(zhàn)賽,吸引了參賽隊(duì)伍784支,參賽人數(shù)1011人,作品提交次數(shù)高達(dá)1444次。參賽者覆蓋北京大學(xué)、中國(guó)科學(xué)研究院、華中科技大學(xué)、華南理工大學(xué)、西安電子科技大學(xué)等知名高校,以及網(wǎng)易、中興等知名互聯(lián)網(wǎng)企業(yè),影響超過(guò)數(shù)十萬(wàn)開發(fā)者和技術(shù)人才。
將超分辨算法用于處理實(shí)時(shí)視頻流時(shí),模型的處理表現(xiàn)與運(yùn)算性能,是一個(gè)兩難的選擇。為了追求較低復(fù)雜度,可能需要犧牲圖像質(zhì)量;為了追求較高質(zhì)量的輸出,導(dǎo)致設(shè)備資源占用過(guò)高,產(chǎn)生設(shè)備發(fā)燙、視頻模糊卡頓等現(xiàn)象。
該挑戰(zhàn)主要考察算法模型的性能、同時(shí)兼顧圖像的質(zhì)量。參賽者需要對(duì)圖像做2倍的超分辨率處理,算法復(fù)雜度控制在2GFLOPs之內(nèi),我們提供一個(gè)baseline模型,采用PSNR、SSIM及運(yùn)行時(shí)間來(lái)綜合評(píng)估算法的性能,分值高者即獲勝。
一等獎(jiǎng)1名:30000元
二等獎(jiǎng)1名:20000元
三等獎(jiǎng)1名:10000元
優(yōu)秀獎(jiǎng)若干:3000元
注:提交作品即可進(jìn)入聲網(wǎng)Agora招聘綠色通道。
7月28日:比賽開放報(bào)名,公布訓(xùn)練集
8月12日:公布測(cè)試集(LR),直至9月16日比賽結(jié)束期間,參賽者需要按照賽題要求提交參賽模型
9月16日:線上初賽結(jié)束后前排隊(duì)伍提交代碼,大賽組織方進(jìn)行反作弊
9月19日:線上決賽
大賽面向全社會(huì)開放,國(guó)內(nèi)外高等院校、科研院所、互聯(lián)網(wǎng)企業(yè)等均可報(bào)名參賽,組隊(duì)上限5人。
大賽組織機(jī)構(gòu)單位中涉及題目編寫、數(shù)據(jù)接觸的人員禁止參賽;主辦方員工參賽,可參與排名,但不參與評(píng)獎(jiǎng)及領(lǐng)取獎(jiǎng)金。
?掃碼報(bào)名?
?賽事交流?
戳“閱讀原文”,立刻參與大賽
