<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          使用深度學(xué)習(xí)進(jìn)行手語識(shí)別

          共 2843字,需瀏覽 6分鐘

           ·

          2021-09-14 15:33

          點(diǎn)擊上方小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時(shí)間送達(dá)


          介紹


          手語識(shí)別是一個(gè)多年來一直在研究的問題,然而,我們還遠(yuǎn)未在我們的社會(huì)中找到完整的解決方案。


          在為解決這一問題而開展的工作中,大多數(shù)工作基本上基于兩種方法:基于接觸的系統(tǒng),諸如傳感器手套; 或僅使用相機(jī)的基于視覺的系統(tǒng),后者更便宜,而深度學(xué)習(xí)的蓬勃發(fā)展使其更具吸引力。


          這篇文章展示了一個(gè)使用卷積神經(jīng)網(wǎng)絡(luò)的手語雙攝像頭第一人稱視覺翻譯系統(tǒng)的原型,文章分為三個(gè)主要部分:系統(tǒng)設(shè)計(jì)、數(shù)據(jù)集和深度學(xué)習(xí)模型訓(xùn)練和評(píng)估。


          視覺系統(tǒng)


          視覺是手語的一個(gè)關(guān)鍵因素,每一種手語都是為了讓一個(gè)人在另一個(gè)人面前理解,從這個(gè)角度來看,一個(gè)手勢(shì)是完全可以觀察到的。從另一個(gè)角度查看手勢(shì)會(huì)使理解變得困難或幾乎不可能,因?yàn)闊o法觀察到每個(gè)手指的位置和動(dòng)作。


          試圖從第一視覺的角度理解手語也有同樣的局限性,有些手勢(shì)最終看起來是一樣的。但是,這種模糊性可以通過在不同位置放置更多攝像機(jī)來解決。這樣,一臺(tái)相機(jī)看不到的東西,可以被另一臺(tái)相機(jī)完美地觀察到。


          視覺系統(tǒng)由兩個(gè)攝像頭組成:一個(gè)頭戴式攝像頭和一個(gè)胸戴式攝像頭。使用這兩個(gè)攝像頭,我們可以獲得標(biāo)志的兩個(gè)不同視圖,一個(gè)頂視圖和一個(gè)底視圖,它們一起工作以識(shí)別標(biāo)志。

          從頂視圖和底視圖的角度對(duì)應(yīng)于巴拿馬手語中的字母 Q 的符號(hào)


          種設(shè)計(jì)的另一個(gè)好處是用戶將獲得自主權(quán)。在傳統(tǒng)方法中無法實(shí)現(xiàn)的功能,即用戶不是殘疾人,而是需要在手語者做出手語動(dòng)作時(shí)取出帶有相機(jī)的系統(tǒng)并聚焦手語表達(dá)者的第三人。


          數(shù)據(jù)集


          為了開發(fā)該系統(tǒng)的第一個(gè)原型,使用了來自巴拿馬手冊(cè)字母表的 24 個(gè)靜態(tài)標(biāo)志的數(shù)據(jù)集。

          巴拿馬語手冊(cè)字母表

          為了將此問題建模為圖像識(shí)別問題,我們舍棄了字母 J、Z、RR 和 ? 等動(dòng)態(tài)手勢(shì),因?yàn)樗鼈兘o解決方案增加了額外的復(fù)雜性。


          數(shù)據(jù)收集和預(yù)處理

          為了收集數(shù)據(jù)集,要求四名用戶佩戴視覺系統(tǒng),并在兩臺(tái)攝像機(jī)以640x480像素分辨率記錄的同時(shí),執(zhí)行每一個(gè)手勢(shì)10秒鐘。。


          要求用戶在三種不同的場(chǎng)景中執(zhí)行此過程:室內(nèi)、室外和綠色背景場(chǎng)景。對(duì)于室內(nèi)和室外場(chǎng)景,要求用戶在執(zhí)行手勢(shì)的同時(shí)四處走動(dòng),以獲得具有不同背景、光源和位置的圖像。綠色背景場(chǎng)景用于數(shù)據(jù)增強(qiáng)過程,我們將在后面描述。


          獲取視頻后,提取幀并將其降低到 125x125 像素分辨率。

          從左到右:綠色背景場(chǎng)景,室內(nèi)和室外

          數(shù)據(jù)增強(qiáng)

          由于進(jìn)入卷積神經(jīng)網(wǎng)絡(luò)之前的預(yù)處理被簡(jiǎn)化為只是重新縮放,因此背景總是會(huì)傳遞給模型。在這種情況下,模型需要能夠識(shí)別一個(gè)標(biāo)志,盡管它可能具有不同的背景。


          為了提高模型的泛化能力,人為地添加了更多不同背景的圖像來代替綠色背景,這樣就可以在不投入太多時(shí)間的情況下獲得更多數(shù)據(jù)。


          具有新背景的圖像

          在訓(xùn)練期間,還添加了另一個(gè)數(shù)據(jù)增強(qiáng)過程,包括執(zhí)行一些變換,例如一些旋轉(zhuǎn)、光強(qiáng)度的變化和重新縮放。

          旋轉(zhuǎn)、光強(qiáng)度和重新縮放的變化

          選擇這兩種數(shù)據(jù)增強(qiáng)過程有助于提高模型的泛化能力。


          頂視圖和底視圖數(shù)據(jù)集

          這個(gè)問題被建模為一個(gè)包含 24 個(gè)類的多類分類問題,問題本身被分成兩個(gè)較小的多類分類問題。


          決定哪些手勢(shì)將根據(jù)頂視圖模型進(jìn)行分類,哪些手勢(shì)將根據(jù)底視圖模型進(jìn)行分類的方法是選擇所有從底視圖角度看過于相似的手勢(shì)作為要從頂視圖模型進(jìn)行分類的手勢(shì),其余手勢(shì)將根據(jù)底視圖模型進(jìn)行分類。所以基本上,頂視圖模型用于解決歧義。


          因此,數(shù)據(jù)集被分為兩部分,每個(gè)模型一部分,如下表所示。


          深度學(xué)習(xí)模型


          作為最先進(jìn)的技術(shù),卷積神經(jīng)網(wǎng)絡(luò)是解決這個(gè)問題的選擇。它訓(xùn)練了兩種模型:一種用于頂視圖,另一種用于底視圖。


          建筑學(xué)

          頂視圖和底視圖模型都使用了相同的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),唯一的區(qū)別是輸出單元的數(shù)量。


          卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)如下圖所示。

          卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)

          為了提高模型的泛化能力,在全連接層的層之間使用了 dropout 技術(shù)來提高模型性能。


          評(píng)估

          在測(cè)試集中使用與系統(tǒng)在室內(nèi)的正常使用相對(duì)應(yīng)的數(shù)據(jù)對(duì)模型進(jìn)行評(píng)估,換句話說,在背景中,它出現(xiàn)了一個(gè)人作為觀察者,類似于上圖中的輸入圖像(卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)),結(jié)果如下所示。

          雖然模型學(xué)會(huì)了對(duì)一些符號(hào)進(jìn)行分類,例如 Q、R、H;總的來說,結(jié)果不是特別好,看來模型的泛化能力不太好。然而,該模型也通過顯示系統(tǒng)潛力的實(shí)時(shí)數(shù)據(jù)進(jìn)行了測(cè)試。


          底部視圖模型使用具有綠色統(tǒng)一背景的實(shí)時(shí)視頻進(jìn)行測(cè)試。當(dāng)我在筆記本電腦中運(yùn)行底視圖模型時(shí),我戴著胸戴式攝像頭以每秒 5 幀的速度拍攝視頻,并嘗試拼寫 fútbol(西班牙語)這個(gè)詞,通過單擊模擬每個(gè)字母的條目。


          結(jié)論


          手語識(shí)別是一個(gè)困難的問題,如果我們考慮所有可能的手勢(shì)組合,這類系統(tǒng)需要理解和翻譯。也就是說,解決這個(gè)問題的最好方法可能是將它劃分為更簡(jiǎn)單的問題,而這里介紹的系統(tǒng)將對(duì)應(yīng)于其中一個(gè)問題的可能解決方案。


          該系統(tǒng)的性能不太好,但已經(jīng)證明,它可以只用攝像機(jī)和卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建第一人稱手語翻譯系統(tǒng)。


          據(jù)觀察,該模型傾向于將幾個(gè)符號(hào)相互混淆,例如 U 和 W。但是仔細(xì)想想,也許它不需要具有完美的性能,因?yàn)槭褂闷磳懶U骰騿卧~預(yù)測(cè)器會(huì)增加翻譯的準(zhǔn)確性。


          下一步是分析解決方案并研究改進(jìn)系統(tǒng)的方法,通過收集更多質(zhì)量數(shù)據(jù)、嘗試更多卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)或重新設(shè)計(jì)視覺系統(tǒng)來進(jìn)行一些改進(jìn)。

          好消息,小白學(xué)視覺團(tuán)隊(duì)的知識(shí)星球開通啦,為了感謝大家的支持與厚愛,團(tuán)隊(duì)決定將價(jià)值149元的知識(shí)星球現(xiàn)時(shí)免費(fèi)加入。各位小伙伴們要抓住機(jī)會(huì)哦!


          下載1:OpenCV-Contrib擴(kuò)展模塊中文版教程
          在「小白學(xué)視覺」公眾號(hào)后臺(tái)回復(fù):擴(kuò)展模塊中文教程,即可下載全網(wǎng)第一份OpenCV擴(kuò)展模塊教程中文版,涵蓋擴(kuò)展模塊安裝、SFM算法、立體視覺、目標(biāo)跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。

          下載2:Python視覺實(shí)戰(zhàn)項(xiàng)目52講
          小白學(xué)視覺公眾號(hào)后臺(tái)回復(fù):Python視覺實(shí)戰(zhàn)項(xiàng)目,即可下載包括圖像分割、口罩檢測(cè)、車道線檢測(cè)、車輛計(jì)數(shù)、添加眼線、車牌識(shí)別、字符識(shí)別、情緒檢測(cè)、文本內(nèi)容提取、面部識(shí)別等31個(gè)視覺實(shí)戰(zhàn)項(xiàng)目,助力快速學(xué)校計(jì)算機(jī)視覺。

          下載3:OpenCV實(shí)戰(zhàn)項(xiàng)目20講
          小白學(xué)視覺公眾號(hào)后臺(tái)回復(fù):OpenCV實(shí)戰(zhàn)項(xiàng)目20講即可下載含有20個(gè)基于OpenCV實(shí)現(xiàn)20個(gè)實(shí)戰(zhàn)項(xiàng)目,實(shí)現(xiàn)OpenCV學(xué)習(xí)進(jìn)階。

          交流群


          歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競(jìng)賽等微信群(以后會(huì)逐漸細(xì)分),請(qǐng)掃描下面微信號(hào)加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請(qǐng)按照格式備注,否則不予通過。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~


          瀏覽 130
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  久99在线观看 | 亚洲无码一区在线 | 韩国1级毛片 | 无码三区四区电影院 | 久操人妻|