↑ 點擊藍字關(guān)注極市平臺

作者丨寧欣

編輯丨極市平臺

極市導(dǎo)讀

該冠軍方案是由威富視界有限公司&中國科學院半導(dǎo)體研究所高速電路與神經(jīng)網(wǎng)絡(luò)實驗室團隊提出，選用了EfficientNet作為主體框架構(gòu)建的垃圾分類識別模型。 >>加入極市CV技術(shù)交流群，走在計算機視覺的最前沿

高通人工智能應(yīng)用創(chuàng)新大賽介紹 2021高通人工智能應(yīng)用創(chuàng)新大賽由高通技術(shù)公司、高通創(chuàng)投主辦，極視角、小米、中科創(chuàng)達、CSDN共同協(xié)辦，TensorFlow Lite作為開源技術(shù)合作伙伴。

本屆大賽將融合終端側(cè)人工智能（AI）和邊緣云技術(shù)，攜手AI產(chǎn)業(yè)鏈合作伙伴為專注于Android應(yīng)用程序開發(fā)、智能邊緣的移動開發(fā)者及行業(yè)用戶提供展示創(chuàng)意和成果的平臺，推動5G時代下人工智能技術(shù)賦能的眾多創(chuàng)新應(yīng)用。

賽程中使用的高通神經(jīng)網(wǎng)絡(luò)處理引擎SDK將為開發(fā)者提供端到端的解決方案，使得算法模型可以在任何搭載高通驍龍移動平臺的設(shè)備上運行，這不僅能夠簡化、加速AI應(yīng)用程序的開發(fā)，還能更好地支持創(chuàng)新AI應(yīng)用的落地。

大賽賽題包括兩個賽道，賽道1是應(yīng)用賽道，賽道2屬于創(chuàng)新賽道，分別是表情識別、農(nóng)作物病蟲害識別、垃圾分類識別和手繪圖像識別。

團隊介紹

團隊來自深圳市威富視界有限公司&中國科學院半導(dǎo)體研究所高速電路與神經(jīng)網(wǎng)絡(luò)實驗室，成員分別為：寧欣、石園、姚浩、張倩、李爽，排名不分先后。

任務(wù)介紹 — 垃圾分類識別

實行垃圾分類，關(guān)注大眾生活環(huán)境，是社會文明水平的一個重要體現(xiàn)，并已在諸多城市開始推廣。本賽題使用手機攝像頭，拍攝垃圾圖片，通過AI技術(shù)對垃圾進行識別分類，有效提高垃圾分類效率，使垃圾分類更便捷。

參賽者需要根據(jù)圖片給出對應(yīng)的類別情況，其類別為有害垃圾_殺蟲劑（Harmful Waste_Insecticide）、有害垃圾_電池（Harmful Waste_Dry battery）、有害垃圾_電池板（Harmful Waste_Battery board）等146種類別。數(shù)據(jù)集是由攝像頭采集的現(xiàn)場場景數(shù)據(jù)，訓(xùn)練數(shù)據(jù)集包括28071張，測試數(shù)據(jù)集包括12010張。

評審標準

本賽道分為初賽階段和決賽階段。初賽階段是進行線上算法開發(fā)，并使用高通SNPE工具轉(zhuǎn)換得出算法得分；決賽階段是通過演示算法應(yīng)用視頻和答辯PPT，評委依據(jù)規(guī)則進行評分，初賽成績和決賽成績各占40%和60%。

初賽得分采取算法精度、算法性能值綜合得分的形式，具體如下：

說明：算法精度取自算法模型標準測試成績，算法性能值取自模型使用SNPE轉(zhuǎn)換后的模型，在小米（含高通驍龍888芯片）手機DSP上跑出的性能值。

決賽評審規(guī)則具體如下：

威富視界&中國科學院半導(dǎo)體研究所團隊榮獲第一

賽題特點

1、數(shù)據(jù)分布差異大

數(shù)據(jù)集圖片尺寸不一，相差較大。一方面，由于計算資源和算法性能的限制，大尺寸的圖像不能作為網(wǎng)絡(luò)的輸入，而單純將原圖像縮放到小圖會使得大圖丟失大量細節(jié)；另一方面，訓(xùn)練數(shù)據(jù)總共有28071張，類別146類，平均每類192張圖像，同一種類別外表形狀差異較大，并且背景不一，這就給分類器造成巨大的挑戰(zhàn)。

2、模型量化需選擇SNPE

驍龍（SnapDragon）神經(jīng)處理引擎SNPE是一個針對高通驍龍加速深層神經(jīng)網(wǎng)絡(luò)的運行時軟件。SNPE支持Caffe、Caffe2、ONNX和Tensor Flow模型，訓(xùn)練的模型將轉(zhuǎn)換為可加載到SNPE運行時的DLC文件。然后使用此DLC文件使用其中一個Snapdragon加速計算核心執(zhí)行前向推斷傳遞。

3、算法需落地App應(yīng)用

我們一方面需要對算法精度和性能進行提升；另一方面我們要做好算法落地App的應(yīng)用，保證App的核心功能可用，邏輯流程順暢，架構(gòu)合理，具備良好的可用性、易用性、穩(wěn)定性、安全性、可運維性等特點。同時針對該賽題需從產(chǎn)品角度考慮商業(yè)價值、創(chuàng)新價值，使其與行業(yè)成熟方案相比有差異性、高價值創(chuàng)意，并具備廣闊的市場和商業(yè)前景。

主要工作

算法研發(fā)：

1、主體框架選擇

（1）精度方面：目前基于深度學習的分類網(wǎng)絡(luò)框架常用的有Swin Transformer與EfficientNet，兩者在精度方面處于相當水平，與其他算法相比具有競爭性，因此我們以兩者為初定方案。比賽要求模型首先使用SNPE轉(zhuǎn)換，然后在小米（含高通驍龍888芯片）手機DSP上運行，我們算法框架選用的是pytorch，模型轉(zhuǎn)換SNPE之前，需將其轉(zhuǎn)換為onnx格式，經(jīng)實驗，Swin Transform網(wǎng)絡(luò)中torch.roll不支持onnx轉(zhuǎn)換，因此我們選用了EfficientNet。

（2）速度方面：比賽需要考慮精度和速度，經(jīng)多次實驗，在權(quán)衡兩者的情況下，我們最終選取EfficientNet-B0作為Baseline。

2、模型泛化

起初我們考慮到算法性能，我們僅嘗試EffficientNet-B0進行模型訓(xùn)練。實驗結(jié)果顯示，模型分類效果不好。經(jīng)分析，我們將上述問題歸納為以下兩個方面的原因：

（1）EffficientNet-B0無論是網(wǎng)絡(luò)寬度和網(wǎng)絡(luò)深度相對都較小，學習能力相對較弱。同一種病癥在不同植物上表現(xiàn)以及所處不同背景，容易對分類器造成混淆，從而產(chǎn)生分類錯誤。

（2）另一方面，訓(xùn)練數(shù)據(jù)總共有28071張，類別146類，平均每類192張圖像，同一種類別外表形狀差異較大，并且背景不一，使得不同類別的樣本較少，模型學習共性特征較困難，造成模型泛化能力較差。

根據(jù)上述問題，我們進行了一些嘗試：

首先，我們采用了粘貼、隨機裁剪、mosaic、仿射變換、顏色空間轉(zhuǎn)換等操作對樣本進行增強，緩解過擬合問題，提高模型的泛化能力，增強模型的分類精度。

其次，從優(yōu)化器層面來講，我們嘗試了SAM優(yōu)化器。SAM優(yōu)化器可使損失值和損失銳度同時最小化，并可以改善各種基準數(shù)據(jù)集（例如CIFAR-{10、100}，ImageNet，微調(diào)任務(wù)）和模型的模型泛化能力，從而為多個應(yīng)用程序提供了最新的性能。另外， SAM優(yōu)化器具有固有地提供了標簽噪聲的魯棒性，與專門針對噪聲標簽學習的最新稱稱所提供的不相上下。

3、模型量化

模型量化采用高通SNPE開發(fā)工具將原始pytorch模型轉(zhuǎn)換為DLC模型，同時對轉(zhuǎn)換模型進行8位定位量化，提升模型在驍龍?zhí)幚砥魃系倪\行性能。SNPE工作流程具體如下：

（1）將網(wǎng)路模型轉(zhuǎn)換為可由SNPE加載的DLC文件；
（2）可選擇量化DLC文件以在Hexagon DSP上運行；
（3）準備模型的輸入數(shù)據(jù)；
（4）使用SNPE運行時加載并執(zhí)行模型。

4、實驗結(jié)果

應(yīng)用落地

1、市場調(diào)研

（1）行業(yè)背景：我國的再生資源回收總量為3億噸，其中十大品種的回收價值總值超過7500億元，同比增長約28%。目前我國再生資源回收企業(yè)有9萬多家，回收加工廠3000多家，回收從業(yè)人員約1200萬人，網(wǎng)點遍布全國約16萬個。

據(jù)《循環(huán)發(fā)展引領(lǐng)行動》報，到2021年，資源循環(huán)利用產(chǎn)業(yè)產(chǎn)值有望超過3萬億元。

（2）行業(yè)痛點：通過行業(yè)分析，我們發(fā)現(xiàn)，生活垃圾中有很多是可分類再回收利用的，另外廢品回收產(chǎn)業(yè)處于散兵游勇時期，有明顯的散、小、亂、污特點。傳統(tǒng)回收企業(yè)和從業(yè)人員地域風險能力弱?？偨Y(jié)下來主要有以下痛點：

政府層面：需要解決垃圾環(huán)保、資源再利用問題，提高全民環(huán)保意識。
扔垃圾者：嫌扔垃圾麻煩，找不到回收站，對可回收物的價值不太了解；
收垃圾者：回收效率低，回收量少

（3）行業(yè)競品：

通過對需求的分析，確定了兩類競品的具體產(chǎn)品：

未使用視覺算法的：易代扔，提供廢舊物品回收服務(wù)，但可回收品類少，回收點少，操作流程長。
使用了視覺算法的：垃圾分類圖解（拍照識別，準確度一般），垃圾（拍照識別、響應(yīng)慢、不出結(jié)果），垃圾分類大全（單個垃圾容易，準確度一般，多個垃圾不準）。

總結(jié)：市場上使用視覺分類垃圾的應(yīng)用不多。

（4）市場調(diào)研總結(jié)

①市場需求明確，沒有獨角獸出現(xiàn)；
②現(xiàn)有產(chǎn)品大同小異，產(chǎn)品體驗一般；
③市面上產(chǎn)品特色不明顯，大都以分類百科、在線下單扔垃圾為主，流程長，不易用；
④使用視覺識別不多；已用視覺識別技術(shù)的產(chǎn)品：識別種類太少，準確度不高；

結(jié)論：經(jīng)過調(diào)研，我們決定做一款基于計算機視覺的垃圾分類，垃圾回收投扔連接平臺。

（5）產(chǎn)品方案介紹一句話描述：垃圾分類回收投扔鏈接平臺

①核心競爭：垃圾分類算法、規(guī)?；鴶?shù)據(jù)

②功能介紹：

提供圖像識別一鍵扔垃圾，展示最近垃圾站
提供垃圾桶地圖、回收站地圖，就近投遞
LBS定位判斷垃圾分布點，提升垃圾回收效率
垃圾百科（可回收知識普及、可替代品介紹等科普知識）

未來：后續(xù)迭代將提供可回收物估價功能

③交付形式：安卓APP

④運行平臺：小米手機、部分安卓手機

⑤界面展示：

⑥使用流程

⑦產(chǎn)品優(yōu)勢

輕量級產(chǎn)品，使用便捷、圖像識別自動分類發(fā)布扔垃圾需求
輕松定位扔垃圾需求，幫助收垃圾者提高回收效率
輕松找到垃圾站、舊衣服回收站、垃圾通位置，幫助用戶找到可扔垃圾的地方

⑧社會價值

有助于促進全民參與垃圾分類和資源再利用習慣
有助于宣傳垃圾環(huán)保知識的媒體效應(yīng)

參考文獻

1.https://challenge.cvmart.net/race/3/base

2.Liu Z , Lin Y , Cao Y , et al. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[J]. 2021.

3.https://github.com/microsoft/Swin-Transformer

4.Tan M , Le Q V . EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks[J]. 2019.

5.https://github.com/qubvel/efficientnet

6.Pierre F, Ariel K, Hossein M, Behnam N; Sharpness-Aware Minimization for Efficiently Improving Generalization[2020].

7.https://blog.csdn.net/weixin_38498942/article/details/105819685

極市干貨

神經(jīng)網(wǎng)絡(luò)：視覺神經(jīng)網(wǎng)絡(luò)模型優(yōu)秀開源工作：timm庫使用方法和最新代碼解讀

技術(shù)綜述：綜述：神經(jīng)網(wǎng)絡(luò)中 Normalization 的發(fā)展歷程｜CNN輕量化模型及其設(shè)計原則綜述

算法技巧（trick）：8點PyTorch提速技巧匯總｜圖像分類算法優(yōu)化技巧

# CV技術(shù)社群邀請函 #

△長按添加極市小助手

添加極市小助手微信（ID : cvmart4）

備注：姓名-學校/公司-研究方向-城市（如：小極-北大-目標檢測-深圳）

即可申請加入極市目標檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強/OCR/視頻理解等技術(shù)交流群

每月大咖直播分享、真實項目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與 10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~

覺得有用麻煩給個在看啦~

高通人工智能應(yīng)用創(chuàng)新大賽冠軍方案解讀

團隊介紹

任務(wù)介紹 — 垃圾分類識別

評審標準

威富視界&中國科學院半導(dǎo)體研究所團隊榮獲第一

賽題特點

1、數(shù)據(jù)分布差異大

2、模型量化需選擇SNPE

3、算法需落地App應(yīng)用