使用深度學(xué)習(xí)進(jìn)行手語識(shí)別
點(diǎn)擊上方“小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)
手語識(shí)別是一個(gè)多年來一直在研究的問題,然而,我們還遠(yuǎn)未在我們的社會(huì)中找到完整的解決方案。
在為解決這一問題而開展的工作中,大多數(shù)工作基本上基于兩種方法:基于接觸的系統(tǒng),諸如傳感器手套; 或僅使用相機(jī)的基于視覺的系統(tǒng),后者更便宜,而深度學(xué)習(xí)的蓬勃發(fā)展使其更具吸引力。
這篇文章展示了一個(gè)使用卷積神經(jīng)網(wǎng)絡(luò)的手語雙攝像頭第一人稱視覺翻譯系統(tǒng)的原型,文章分為三個(gè)主要部分:系統(tǒng)設(shè)計(jì)、數(shù)據(jù)集和深度學(xué)習(xí)模型訓(xùn)練和評(píng)估。
視覺是手語的一個(gè)關(guān)鍵因素,每一種手語都是為了讓一個(gè)人在另一個(gè)人面前理解,從這個(gè)角度來看,一個(gè)手勢(shì)是完全可以觀察到的。從另一個(gè)角度查看手勢(shì)會(huì)使理解變得困難或幾乎不可能,因?yàn)闊o法觀察到每個(gè)手指的位置和動(dòng)作。
試圖從第一視覺的角度理解手語也有同樣的局限性,有些手勢(shì)最終看起來是一樣的。但是,這種模糊性可以通過在不同位置放置更多攝像機(jī)來解決。這樣,一臺(tái)相機(jī)看不到的東西,可以被另一臺(tái)相機(jī)完美地觀察到。
視覺系統(tǒng)由兩個(gè)攝像頭組成:一個(gè)頭戴式攝像頭和一個(gè)胸戴式攝像頭。使用這兩個(gè)攝像頭,我們可以獲得標(biāo)志的兩個(gè)不同視圖,一個(gè)頂視圖和一個(gè)底視圖,它們一起工作以識(shí)別標(biāo)志。

從頂視圖和底視圖的角度對(duì)應(yīng)于巴拿馬手語中的字母 Q 的符號(hào)
這種設(shè)計(jì)的另一個(gè)好處是用戶將獲得自主權(quán)。在傳統(tǒng)方法中無法實(shí)現(xiàn)的功能,即用戶不是殘疾人,而是需要在手語者做出手語動(dòng)作時(shí)取出帶有相機(jī)的系統(tǒng)并聚焦手語表達(dá)者的第三人。
為了開發(fā)該系統(tǒng)的第一個(gè)原型,使用了來自巴拿馬手冊(cè)字母表的 24 個(gè)靜態(tài)標(biāo)志的數(shù)據(jù)集。

巴拿馬語手冊(cè)字母表
為了將此問題建模為圖像識(shí)別問題,我們舍棄了字母 J、Z、RR 和 ? 等動(dòng)態(tài)手勢(shì),因?yàn)樗鼈兘o解決方案增加了額外的復(fù)雜性。
為了收集數(shù)據(jù)集,要求四名用戶佩戴視覺系統(tǒng),并在兩臺(tái)攝像機(jī)以640x480像素分辨率記錄的同時(shí),執(zhí)行每一個(gè)手勢(shì)10秒鐘。。
要求用戶在三種不同的場(chǎng)景中執(zhí)行此過程:室內(nèi)、室外和綠色背景場(chǎng)景。對(duì)于室內(nèi)和室外場(chǎng)景,要求用戶在執(zhí)行手勢(shì)的同時(shí)四處走動(dòng),以獲得具有不同背景、光源和位置的圖像。綠色背景場(chǎng)景用于數(shù)據(jù)增強(qiáng)過程,我們將在后面描述。
獲取視頻后,提取幀并將其降低到 125x125 像素分辨率。

從左到右:綠色背景場(chǎng)景,室內(nèi)和室外
數(shù)據(jù)增強(qiáng)
由于進(jìn)入卷積神經(jīng)網(wǎng)絡(luò)之前的預(yù)處理被簡(jiǎn)化為只是重新縮放,因此背景總是會(huì)傳遞給模型。在這種情況下,模型需要能夠識(shí)別一個(gè)標(biāo)志,盡管它可能具有不同的背景。
為了提高模型的泛化能力,人為地添加了更多不同背景的圖像來代替綠色背景,這樣就可以在不投入太多時(shí)間的情況下獲得更多數(shù)據(jù)。

具有新背景的圖像
在訓(xùn)練期間,還添加了另一個(gè)數(shù)據(jù)增強(qiáng)過程,包括執(zhí)行一些變換,例如一些旋轉(zhuǎn)、光強(qiáng)度的變化和重新縮放。

旋轉(zhuǎn)、光強(qiáng)度和重新縮放的變化
選擇這兩種數(shù)據(jù)增強(qiáng)過程有助于提高模型的泛化能力。
頂視圖和底視圖數(shù)據(jù)集
這個(gè)問題被建模為一個(gè)包含 24 個(gè)類的多類分類問題,問題本身被分成兩個(gè)較小的多類分類問題。
決定哪些手勢(shì)將根據(jù)頂視圖模型進(jìn)行分類,哪些手勢(shì)將根據(jù)底視圖模型進(jìn)行分類的方法是選擇所有從底視圖角度看過于相似的手勢(shì)作為要從頂視圖模型進(jìn)行分類的手勢(shì),其余手勢(shì)將根據(jù)底視圖模型進(jìn)行分類。所以基本上,頂視圖模型用于解決歧義。
因此,數(shù)據(jù)集被分為兩部分,每個(gè)模型一部分,如下表所示。

作為最先進(jìn)的技術(shù),卷積神經(jīng)網(wǎng)絡(luò)是解決這個(gè)問題的選擇。它訓(xùn)練了兩種模型:一種用于頂視圖,另一種用于底視圖。
建筑學(xué)
頂視圖和底視圖模型都使用了相同的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),唯一的區(qū)別是輸出單元的數(shù)量。
卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)如下圖所示。

卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)
為了提高模型的泛化能力,在全連接層的層之間使用了 dropout 技術(shù)來提高模型性能。
評(píng)估
在測(cè)試集中使用與系統(tǒng)在室內(nèi)的正常使用相對(duì)應(yīng)的數(shù)據(jù)對(duì)模型進(jìn)行評(píng)估,換句話說,在背景中,它出現(xiàn)了一個(gè)人作為觀察者,類似于上圖中的輸入圖像(卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)),結(jié)果如下所示。

雖然模型學(xué)會(huì)了對(duì)一些符號(hào)進(jìn)行分類,例如 Q、R、H;總的來說,結(jié)果不是特別好,看來模型的泛化能力不太好。然而,該模型也通過顯示系統(tǒng)潛力的實(shí)時(shí)數(shù)據(jù)進(jìn)行了測(cè)試。
底部視圖模型使用具有綠色統(tǒng)一背景的實(shí)時(shí)視頻進(jìn)行測(cè)試。當(dāng)我在筆記本電腦中運(yùn)行底視圖模型時(shí),我戴著胸戴式攝像頭以每秒 5 幀的速度拍攝視頻,并嘗試拼寫 fútbol(西班牙語)這個(gè)詞,通過單擊模擬每個(gè)字母的條目。
手語識(shí)別是一個(gè)困難的問題,如果我們考慮所有可能的手勢(shì)組合,這類系統(tǒng)需要理解和翻譯。也就是說,解決這個(gè)問題的最好方法可能是將它劃分為更簡(jiǎn)單的問題,而這里介紹的系統(tǒng)將對(duì)應(yīng)于其中一個(gè)問題的可能解決方案。
該系統(tǒng)的性能不太好,但已經(jīng)證明,它可以只用攝像機(jī)和卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建第一人稱手語翻譯系統(tǒng)。
據(jù)觀察,該模型傾向于將幾個(gè)符號(hào)相互混淆,例如 U 和 W。但是仔細(xì)想想,也許它不需要具有完美的性能,因?yàn)槭褂闷磳懶U骰騿卧~預(yù)測(cè)器會(huì)增加翻譯的準(zhǔn)確性。
下一步是分析解決方案并研究改進(jìn)系統(tǒng)的方法,通過收集更多質(zhì)量數(shù)據(jù)、嘗試更多卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)或重新設(shè)計(jì)視覺系統(tǒng)來進(jìn)行一些改進(jìn)。
好消息,小白學(xué)視覺團(tuán)隊(duì)的知識(shí)星球開通啦,為了感謝大家的支持與厚愛,團(tuán)隊(duì)決定將價(jià)值149元的知識(shí)星球現(xiàn)時(shí)免費(fèi)加入。各位小伙伴們要抓住機(jī)會(huì)哦!

交流群
歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競(jìng)賽等微信群(以后會(huì)逐漸細(xì)分),請(qǐng)掃描下面微信號(hào)加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請(qǐng)按照格式備注,否則不予通過。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~

