高通人工智能應(yīng)用創(chuàng)新大賽冠軍方案解讀

極市導(dǎo)讀
該冠軍方案是由威富視界有限公司&中國科學院半導(dǎo)體研究所高速電路與神經(jīng)網(wǎng)絡(luò)實驗室團隊提出,選用了EfficientNet作為主體框架構(gòu)建的垃圾分類識別模型。 >>加入極市CV技術(shù)交流群,走在計算機視覺的最前沿
高通人工智能應(yīng)用創(chuàng)新大賽介紹 2021高通人工智能應(yīng)用創(chuàng)新大賽由高通技術(shù)公司、高通創(chuàng)投主辦,極視角、小米、中科創(chuàng)達、CSDN共同協(xié)辦,TensorFlow Lite作為開源技術(shù)合作伙伴。
本屆大賽將融合終端側(cè)人工智能(AI)和邊緣云技術(shù),攜手AI產(chǎn)業(yè)鏈合作伙伴為專注于Android應(yīng)用程序開發(fā)、智能邊緣的移動開發(fā)者及行業(yè)用戶提供展示創(chuàng)意和成果的平臺,推動5G時代下人工智能技術(shù)賦能的眾多創(chuàng)新應(yīng)用。
賽程中使用的高通神經(jīng)網(wǎng)絡(luò)處理引擎SDK將為開發(fā)者提供端到端的解決方案,使得算法模型可以在任何搭載高通驍龍移動平臺的設(shè)備上運行,這不僅能夠簡化、加速AI應(yīng)用程序的開發(fā),還能更好地支持創(chuàng)新AI應(yīng)用的落地。
大賽賽題包括兩個賽道,賽道1是應(yīng)用賽道,賽道2屬于創(chuàng)新賽道,分別是表情識別、農(nóng)作物病蟲害識別、垃圾分類識別和手繪圖像識別。
團隊介紹
團隊來自深圳市威富視界有限公司&中國科學院半導(dǎo)體研究所高速電路與神經(jīng)網(wǎng)絡(luò)實驗室,成員分別為:寧欣、石園、姚浩、張倩、李爽,排名不分先后。

任務(wù)介紹 — 垃圾分類識別
實行垃圾分類,關(guān)注大眾生活環(huán)境,是社會文明水平的一個重要體現(xiàn),并已在諸多城市開始推廣。本賽題使用手機攝像頭,拍攝垃圾圖片,通過AI技術(shù)對垃圾進行識別分類,有效提高垃圾分類效率,使垃圾分類更便捷。
參賽者需要根據(jù)圖片給出對應(yīng)的類別情況,其類別為有害垃圾_殺蟲劑(Harmful Waste_Insecticide)、有害垃圾_電池(Harmful Waste_Dry battery)、有害垃圾_電池板(Harmful Waste_Battery board)等146種類別。數(shù)據(jù)集是由攝像頭采集的現(xiàn)場場景數(shù)據(jù),訓(xùn)練數(shù)據(jù)集包括28071張,測試數(shù)據(jù)集包括12010張。
評審標準
本賽道分為初賽階段和決賽階段。初賽階段是進行線上算法開發(fā),并使用高通SNPE工具轉(zhuǎn)換得出算法得分;決賽階段是通過演示算法應(yīng)用視頻和答辯PPT,評委依據(jù)規(guī)則進行評分,初賽成績和決賽成績各占40%和60%。
初賽得分采取算法精度、算法性能值綜合得分的形式,具體如下:

說明:算法精度取自算法模型標準測試成績,算法性能值取自模型使用SNPE轉(zhuǎn)換后的模型,在小米(含高通驍龍888芯片)手機DSP上跑出的性能值。
決賽評審規(guī)則具體如下:

威富視界&中國科學院半導(dǎo)體研究所團隊榮獲第一

賽題特點
1、數(shù)據(jù)分布差異大
數(shù)據(jù)集圖片尺寸不一,相差較大。一方面,由于計算資源和算法性能的限制,大尺寸的圖像不能作為網(wǎng)絡(luò)的輸入,而單純將原圖像縮放到小圖會使得大圖丟失大量細節(jié);另一方面,訓(xùn)練數(shù)據(jù)總共有28071張,類別146類,平均每類192張圖像,同一種類別外表形狀差異較大,并且背景不一,這就給分類器造成巨大的挑戰(zhàn)。
2、模型量化需選擇SNPE
驍龍(SnapDragon)神經(jīng)處理引擎SNPE是一個針對高通驍龍加速深層神經(jīng)網(wǎng)絡(luò)的運行時軟件。SNPE支持Caffe、Caffe2、ONNX和Tensor Flow模型,訓(xùn)練的模型將轉(zhuǎn)換為可加載到SNPE運行時的DLC文件。然后使用此DLC文件使用其中一個Snapdragon加速計算核心執(zhí)行前向推斷傳遞。
3、算法需落地App應(yīng)用
我們一方面需要對算法精度和性能進行提升;另一方面我們要做好算法落地App的應(yīng)用,保證App的核心功能可用,邏輯流程順暢,架構(gòu)合理,具備良好的可用性、易用性、穩(wěn)定性、安全性、可運維性等特點。同時針對該賽題需從產(chǎn)品角度考慮商業(yè)價值、創(chuàng)新價值,使其與行業(yè)成熟方案相比有差異性、高價值創(chuàng)意,并具備廣闊的市場和商業(yè)前景。
主要工作
算法研發(fā):
1、主體框架選擇
(1)精度方面:目前基于深度學習的分類網(wǎng)絡(luò)框架常用的有Swin Transformer與EfficientNet,兩者在精度方面處于相當水平,與其他算法相比具有競爭性,因此我們以兩者為初定方案。比賽要求模型首先使用SNPE轉(zhuǎn)換,然后在小米(含高通驍龍888芯片)手機DSP上運行,我們算法框架選用的是pytorch,模型轉(zhuǎn)換SNPE之前,需將其轉(zhuǎn)換為onnx格式,經(jīng)實驗,Swin Transform網(wǎng)絡(luò)中torch.roll不支持onnx轉(zhuǎn)換,因此我們選用了EfficientNet。
(2)速度方面:比賽需要考慮精度和速度,經(jīng)多次實驗,在權(quán)衡兩者的情況下,我們最終選取EfficientNet-B0作為Baseline。

2、模型泛化
起初我們考慮到算法性能,我們僅嘗試EffficientNet-B0進行模型訓(xùn)練。實驗結(jié)果顯示,模型分類效果不好。經(jīng)分析,我們將上述問題歸納為以下兩個方面的原因:
(1)EffficientNet-B0無論是網(wǎng)絡(luò)寬度和網(wǎng)絡(luò)深度相對都較小,學習能力相對較弱。同一種病癥在不同植物上表現(xiàn)以及所處不同背景,容易對分類器造成混淆,從而產(chǎn)生分類錯誤。
(2)另一方面,訓(xùn)練數(shù)據(jù)總共有28071張,類別146類,平均每類192張圖像,同一種類別外表形狀差異較大,并且背景不一,使得不同類別的樣本較少,模型學習共性特征較困難,造成模型泛化能力較差。
根據(jù)上述問題,我們進行了一些嘗試:
首先,我們采用了粘貼、隨機裁剪、mosaic、仿射變換、顏色空間轉(zhuǎn)換等操作對樣本進行增強,緩解過擬合問題,提高模型的泛化能力,增強模型的分類精度。
其次,從優(yōu)化器層面來講,我們嘗試了SAM優(yōu)化器。SAM優(yōu)化器可使損失值和損失銳度同時最小化,并可以改善各種基準數(shù)據(jù)集(例如CIFAR-{10、100},ImageNet,微調(diào)任務(wù))和模型的模型泛化能力,從而為多個應(yīng)用程序提供了最新的性能。另外, SAM優(yōu)化器具有固有地提供了標簽噪聲的魯棒性,與專門針對噪聲標簽學習的最新稱稱所提供的不相上下。

3、模型量化
模型量化采用高通SNPE開發(fā)工具將原始pytorch模型轉(zhuǎn)換為DLC模型,同時對轉(zhuǎn)換模型進行8位定位量化,提升模型在驍龍?zhí)幚砥魃系倪\行性能。SNPE工作流程具體如下:
(1)將網(wǎng)路模型轉(zhuǎn)換為可由SNPE加載的DLC文件;
(2)可選擇量化DLC文件以在Hexagon DSP上運行;
(3)準備模型的輸入數(shù)據(jù);
(4)使用SNPE運行時加載并執(zhí)行模型。

4、實驗結(jié)果

應(yīng)用落地
1、市場調(diào)研
(1)行業(yè)背景:我國的再生資源回收總量為3億噸,其中十大品種的回收價值總值超過7500億元,同比增長約28%。目前我國再生資源回收企業(yè)有9萬多家,回收加工廠3000多家,回收從業(yè)人員約1200萬人,網(wǎng)點遍布全國約16萬個。
據(jù)《循環(huán)發(fā)展引領(lǐng)行動》報,到2021年,資源循環(huán)利用產(chǎn)業(yè)產(chǎn)值有望超過3萬億元。

(2)行業(yè)痛點:通過行業(yè)分析,我們發(fā)現(xiàn),生活垃圾中有很多是可分類再回收利用的,另外廢品回收產(chǎn)業(yè)處于散兵游勇時期,有明顯的散、小、亂、污特點。傳統(tǒng)回收企業(yè)和從業(yè)人員地域風險能力弱??偨Y(jié)下來主要有以下痛點:
政府層面:需要解決垃圾環(huán)保、資源再利用問題,提高全民環(huán)保意識。
扔垃圾者:嫌扔垃圾麻煩,找不到回收站,對可回收物的價值不太了解;
收垃圾者:回收效率低,回收量少
(3)行業(yè)競品:

通過對需求的分析,確定了兩類競品的具體產(chǎn)品:
未使用視覺算法的:易代扔,提供廢舊物品回收服務(wù),但可回收品類少,回收點少,操作流程長。
使用了視覺算法的:垃圾分類圖解(拍照識別,準確度一般),垃圾(拍照識別、響應(yīng)慢、不出結(jié)果),垃圾分類大全(單個垃圾容易,準確度一般,多個垃圾不準)。
總結(jié):市場上使用視覺分類垃圾的應(yīng)用不多。
(4)市場調(diào)研總結(jié)
①市場需求明確,沒有獨角獸出現(xiàn);
②現(xiàn)有產(chǎn)品大同小異,產(chǎn)品體驗一般;
③市面上產(chǎn)品特色不明顯,大都以分類百科、在線下單扔垃圾為主,流程長,不易用;
④使用視覺識別不多;已用視覺識別技術(shù)的產(chǎn)品:識別種類太少,準確度不高;
結(jié)論:經(jīng)過調(diào)研,我們決定做一款基于計算機視覺的垃圾分類,垃圾回收投扔連接平臺。
(5)產(chǎn)品方案介紹 一句話描述:垃圾分類回收投扔鏈接平臺
①核心競爭:垃圾分類算法、規(guī)?;鴶?shù)據(jù)
②功能介紹:
提供圖像識別一鍵扔垃圾,展示最近垃圾站 提供垃圾桶地圖、回收站地圖,就近投遞 LBS定位判斷垃圾分布點,提升垃圾回收效率 垃圾百科(可回收知識普及、可替代品介紹等科普知識)
未來:后續(xù)迭代將提供可回收物估價功能
③交付形式:安卓APP
④運行平臺:小米手機、部分安卓手機
⑤界面展示:
⑥使用流程
⑦產(chǎn)品優(yōu)勢
輕量級產(chǎn)品,使用便捷、圖像識別自動分類發(fā)布扔垃圾需求 輕松定位扔垃圾需求,幫助收垃圾者提高回收效率 輕松找到垃圾站、舊衣服回收站、垃圾通位置,幫助用戶找到可扔垃圾的地方
⑧社會價值
有助于促進全民參與垃圾分類和資源再利用習慣 有助于宣傳垃圾環(huán)保知識的媒體效應(yīng)
參考文獻
1.https://challenge.cvmart.net/race/3/base
2.Liu Z , Lin Y , Cao Y , et al. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[J]. 2021.
3.https://github.com/microsoft/Swin-Transformer
4.Tan M , Le Q V . EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks[J]. 2019.
5.https://github.com/qubvel/efficientnet
6.Pierre F, Ariel K, Hossein M, Behnam N; Sharpness-Aware Minimization for Efficiently Improving Generalization[2020].
7.https://blog.csdn.net/weixin_38498942/article/details/105819685

# CV技術(shù)社群邀請函 #

備注:姓名-學校/公司-研究方向-城市(如:小極-北大-目標檢測-深圳)
即可申請加入極市目標檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強/OCR/視頻理解等技術(shù)交流群
每月大咖直播分享、真實項目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與 10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~

