91福利资源在线,2021av天堂网,操学生妹视频,国产乱论视频,亚洲五月天综合,一级乱轮视频,AV漫画网,免费看AV的网址

點(diǎn)擊上方“小白學(xué)視覺”，選擇加"星標(biāo)"或“置頂”

重磅干貨，第一時(shí)間送達(dá)

介紹

手語識(shí)別是一個(gè)多年來一直在研究的問題，然而，我們還遠(yuǎn)未在我們的社會(huì)中找到完整的解決方案。

在為解決這一問題而開展的工作中，大多數(shù)工作基本上基于兩種方法：基于接觸的系統(tǒng)，諸如傳感器手套; 或僅使用相機(jī)的基于視覺的系統(tǒng)，后者更便宜，而深度學(xué)習(xí)的蓬勃發(fā)展使其更具吸引力。

這篇文章展示了一個(gè)使用卷積神經(jīng)網(wǎng)絡(luò)的手語雙攝像頭第一人稱視覺翻譯系統(tǒng)的原型，文章分為三個(gè)主要部分：系統(tǒng)設(shè)計(jì)、數(shù)據(jù)集和深度學(xué)習(xí)模型訓(xùn)練和評(píng)估。

視覺系統(tǒng)

視覺是手語的一個(gè)關(guān)鍵因素，每一種手語都是為了讓一個(gè)人在另一個(gè)人面前理解，從這個(gè)角度來看，一個(gè)手勢(shì)是完全可以觀察到的。從另一個(gè)角度查看手勢(shì)會(huì)使理解變得困難或幾乎不可能，因?yàn)闊o法觀察到每個(gè)手指的位置和動(dòng)作。

試圖從第一視覺的角度理解手語也有同樣的局限性，有些手勢(shì)最終看起來是一樣的。但是，這種模糊性可以通過在不同位置放置更多攝像機(jī)來解決。這樣，一臺(tái)相機(jī)看不到的東西，可以被另一臺(tái)相機(jī)完美地觀察到。

視覺系統(tǒng)由兩個(gè)攝像頭組成：一個(gè)頭戴式攝像頭和一個(gè)胸戴式攝像頭。使用這兩個(gè)攝像頭，我們可以獲得標(biāo)志的兩個(gè)不同視圖，一個(gè)頂視圖和一個(gè)底視圖，它們一起工作以識(shí)別標(biāo)志。

從頂視圖和底視圖的角度對(duì)應(yīng)于巴拿馬手語中的字母 Q 的符號(hào)

這種設(shè)計(jì)的另一個(gè)好處是用戶將獲得自主權(quán)。在傳統(tǒng)方法中無法實(shí)現(xiàn)的功能，即用戶不是殘疾人，而是需要在手語者做出手語動(dòng)作時(shí)取出帶有相機(jī)的系統(tǒng)并聚焦手語表達(dá)者的第三人。

數(shù)據(jù)集

為了開發(fā)該系統(tǒng)的第一個(gè)原型，使用了來自巴拿馬手冊(cè)字母表的 24 個(gè)靜態(tài)標(biāo)志的數(shù)據(jù)集。

巴拿馬語手冊(cè)字母表

為了將此問題建模為圖像識(shí)別問題，我們舍棄了字母 J、Z、RR 和 ? 等動(dòng)態(tài)手勢(shì)，因?yàn)樗鼈兘o解決方案增加了額外的復(fù)雜性。

數(shù)據(jù)收集和預(yù)處理

為了收集數(shù)據(jù)集，要求四名用戶佩戴視覺系統(tǒng)，并在兩臺(tái)攝像機(jī)以640x480像素分辨率記錄的同時(shí)，執(zhí)行每一個(gè)手勢(shì)10秒鐘。。

要求用戶在三種不同的場(chǎng)景中執(zhí)行此過程：室內(nèi)、室外和綠色背景場(chǎng)景。對(duì)于室內(nèi)和室外場(chǎng)景，要求用戶在執(zhí)行手勢(shì)的同時(shí)四處走動(dòng)，以獲得具有不同背景、光源和位置的圖像。綠色背景場(chǎng)景用于數(shù)據(jù)增強(qiáng)過程，我們將在后面描述。

獲取視頻后，提取幀并將其降低到 125x125 像素分辨率。

從左到右：綠色背景場(chǎng)景，室內(nèi)和室外

數(shù)據(jù)增強(qiáng)

由于進(jìn)入卷積神經(jīng)網(wǎng)絡(luò)之前的預(yù)處理被簡(jiǎn)化為只是重新縮放，因此背景總是會(huì)傳遞給模型。在這種情況下，模型需要能夠識(shí)別一個(gè)標(biāo)志，盡管它可能具有不同的背景。

為了提高模型的泛化能力，人為地添加了更多不同背景的圖像來代替綠色背景，這樣就可以在不投入太多時(shí)間的情況下獲得更多數(shù)據(jù)。

具有新背景的圖像

在訓(xùn)練期間，還添加了另一個(gè)數(shù)據(jù)增強(qiáng)過程，包括執(zhí)行一些變換，例如一些旋轉(zhuǎn)、光強(qiáng)度的變化和重新縮放。

旋轉(zhuǎn)、光強(qiáng)度和重新縮放的變化

選擇這兩種數(shù)據(jù)增強(qiáng)過程有助于提高模型的泛化能力。

頂視圖和底視圖數(shù)據(jù)集

這個(gè)問題被建模為一個(gè)包含 24 個(gè)類的多類分類問題，問題本身被分成兩個(gè)較小的多類分類問題。

決定哪些手勢(shì)將根據(jù)頂視圖模型進(jìn)行分類，哪些手勢(shì)將根據(jù)底視圖模型進(jìn)行分類的方法是選擇所有從底視圖角度看過于相似的手勢(shì)作為要從頂視圖模型進(jìn)行分類的手勢(shì)，其余手勢(shì)將根據(jù)底視圖模型進(jìn)行分類。所以基本上，頂視圖模型用于解決歧義。

因此，數(shù)據(jù)集被分為兩部分，每個(gè)模型一部分，如下表所示。

深度學(xué)習(xí)模型

作為最先進(jìn)的技術(shù)，卷積神經(jīng)網(wǎng)絡(luò)是解決這個(gè)問題的選擇。它訓(xùn)練了兩種模型：一種用于頂視圖，另一種用于底視圖。

建筑學(xué)

頂視圖和底視圖模型都使用了相同的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)，唯一的區(qū)別是輸出單元的數(shù)量。

卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)如下圖所示。

卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)

為了提高模型的泛化能力，在全連接層的層之間使用了 dropout 技術(shù)來提高模型性能。

評(píng)估

在測(cè)試集中使用與系統(tǒng)在室內(nèi)的正常使用相對(duì)應(yīng)的數(shù)據(jù)對(duì)模型進(jìn)行評(píng)估，換句話說，在背景中，它出現(xiàn)了一個(gè)人作為觀察者，類似于上圖中的輸入圖像（卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)），結(jié)果如下所示。

雖然模型學(xué)會(huì)了對(duì)一些符號(hào)進(jìn)行分類，例如 Q、R、H；總的來說，結(jié)果不是特別好，看來模型的泛化能力不太好。然而，該模型也通過顯示系統(tǒng)潛力的實(shí)時(shí)數(shù)據(jù)進(jìn)行了測(cè)試。

底部視圖模型使用具有綠色統(tǒng)一背景的實(shí)時(shí)視頻進(jìn)行測(cè)試。當(dāng)我在筆記本電腦中運(yùn)行底視圖模型時(shí)，我戴著胸戴式攝像頭以每秒 5 幀的速度拍攝視頻，并嘗試拼寫 fútbol（西班牙語）這個(gè)詞，通過單擊模擬每個(gè)字母的條目。

結(jié)論

手語識(shí)別是一個(gè)困難的問題，如果我們考慮所有可能的手勢(shì)組合，這類系統(tǒng)需要理解和翻譯。也就是說，解決這個(gè)問題的最好方法可能是將它劃分為更簡(jiǎn)單的問題，而這里介紹的系統(tǒng)將對(duì)應(yīng)于其中一個(gè)問題的可能解決方案。

該系統(tǒng)的性能不太好，但已經(jīng)證明，它可以只用攝像機(jī)和卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建第一人稱手語翻譯系統(tǒng)。

據(jù)觀察，該模型傾向于將幾個(gè)符號(hào)相互混淆，例如 U 和 W。但是仔細(xì)想想，也許它不需要具有完美的性能，因?yàn)槭褂闷磳懶Ｕ骰騿卧~預(yù)測(cè)器會(huì)增加翻譯的準(zhǔn)確性。

下一步是分析解決方案并研究改進(jìn)系統(tǒng)的方法，通過收集更多質(zhì)量數(shù)據(jù)、嘗試更多卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)或重新設(shè)計(jì)視覺系統(tǒng)來進(jìn)行一些改進(jìn)。

好消息，小白學(xué)視覺團(tuán)隊(duì)的知識(shí)星球開通啦，為了感謝大家的支持與厚愛，團(tuán)隊(duì)決定將價(jià)值149元的知識(shí)星球現(xiàn)時(shí)免費(fèi)加入。各位小伙伴們要抓住機(jī)會(huì)哦！

下載1：OpenCV-Contrib擴(kuò)展模塊中文版教程

在「小白學(xué)視覺」公眾號(hào)后臺(tái)回復(fù)：擴(kuò)展模塊中文教程，即可下載全網(wǎng)第一份OpenCV擴(kuò)展模塊教程中文版，涵蓋擴(kuò)展模塊安裝、SFM算法、立體視覺、目標(biāo)跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。

下載2：Python視覺實(shí)戰(zhàn)項(xiàng)目52講

在「小白學(xué)視覺」公眾號(hào)后臺(tái)回復(fù)：Python視覺實(shí)戰(zhàn)項(xiàng)目，即可下載包括圖像分割、口罩檢測(cè)、車道線檢測(cè)、車輛計(jì)數(shù)、添加眼線、車牌識(shí)別、字符識(shí)別、情緒檢測(cè)、文本內(nèi)容提取、面部識(shí)別等31個(gè)視覺實(shí)戰(zhàn)項(xiàng)目，助力快速學(xué)校計(jì)算機(jī)視覺。

下載3：OpenCV實(shí)戰(zhàn)項(xiàng)目20講

在「小白學(xué)視覺」公眾號(hào)后臺(tái)回復(fù)：OpenCV實(shí)戰(zhàn)項(xiàng)目20講，即可下載含有20個(gè)基于OpenCV實(shí)現(xiàn)20個(gè)實(shí)戰(zhàn)項(xiàng)目，實(shí)現(xiàn)OpenCV學(xué)習(xí)進(jìn)階。

交流群

歡迎加入公眾號(hào)讀者群一起和同行交流，目前有SLAM、三維視覺、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競(jìng)賽等微信群（以后會(huì)逐漸細(xì)分），請(qǐng)掃描下面微信號(hào)加群，備注：”昵稱+學(xué)校/公司+研究方向“，例如：”張三 + 上海交大 + 視覺SLAM“。請(qǐng)按照格式備注，否則不予通過。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告，否則會(huì)請(qǐng)出群，謝謝理解~

使用深度學(xué)習(xí)進(jìn)行手語識(shí)別

數(shù)據(jù)增強(qiáng)

頂視圖和底視圖數(shù)據(jù)集

建筑學(xué)

評(píng)估