計(jì)算機(jī)視覺有哪些商業(yè)用途?
點(diǎn)擊上方“小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)
01.計(jì)算機(jī)視覺概論
什么是計(jì)算機(jī)視覺?為什么值得我們花時(shí)間去了解?它是怎么工作的?什么樣的應(yīng)用程序有商業(yè)價(jià)值?今天我們就一起來看看這個(gè)問題吧。
什么是計(jì)算機(jī)視覺?

計(jì)算機(jī)視覺指使用計(jì)算機(jī)自動(dòng)執(zhí)行人類視覺系統(tǒng)可以完成的任務(wù)。與人眼從外部環(huán)境接收光刺激類似,計(jì)算機(jī)使用數(shù)碼相機(jī)接受這一信息,輸入信息在大腦中進(jìn)行處理,計(jì)算機(jī)則是使用某一種算法來處理獲得的圖像。

人眼與計(jì)算機(jī)的眼睛
目前的技術(shù)已經(jīng)解決了獲取圖像不準(zhǔn)確的問題,而且在過去的十年中也已經(jīng)解決了數(shù)字圖像中的標(biāo)注工作。在2012年版的ILSVRC(ImageNet大型視覺識(shí)別挑戰(zhàn)賽)中,來自世界各地的挑戰(zhàn)研究小組在1000對(duì)象類在其ImageNet數(shù)據(jù)集中的超過一萬張圖片進(jìn)行分類,深度學(xué)習(xí)在圖像分類中也首次獲得了第一名。
AlexNet [2]深度學(xué)習(xí)方法(第一作者Alex Krizhevsky)由多倫多大學(xué)SuperVision團(tuán)隊(duì)提出。他們利用了卷積神經(jīng)網(wǎng)絡(luò)(CNN)架構(gòu)獲得亞軍!相比之下,Andrej Karpathy訓(xùn)練的圖像分類器,獲得了5.1%的錯(cuò)誤率。2014年的最佳方法GoogLeNet [3],而且Karpathy本人指如果不好好訓(xùn)練的話圖像分類器表現(xiàn)要差得多。顯然,并非所有人都對(duì)大型模式識(shí)別有耐心和訓(xùn)練:
這是否意味著計(jì)算機(jī)現(xiàn)在能夠像人類一樣“看見”?答案當(dāng)然不是。2015年,研究人員發(fā)現(xiàn),許多先進(jìn)的計(jì)算機(jī)視覺模型都容易受到惡意設(shè)計(jì)的高頻模式的攻擊,這些模式被稱為“對(duì)抗性攻擊”[4],從而誘騙模型修改其預(yù)測(cè)而我們卻發(fā)現(xiàn)不了。

向“熊貓”添加高頻“線蟲”噪聲會(huì)誘使網(wǎng)絡(luò)預(yù)測(cè)“長臂猿”
這是另一個(gè)對(duì)抗性攻擊如何欺騙計(jì)算機(jī)視覺算法的幽默示例。麻省理工學(xué)院的研究人員開發(fā)了一種特殊的圖案,將它們放在專門設(shè)計(jì)的玩具烏龜上,以欺騙網(wǎng)絡(luò)以預(yù)測(cè)“步槍”。
為什么要研究機(jī)器視覺?
除了對(duì)抗性攻擊之外,還有高度專業(yè)化的研究人員,為什么我們還要關(guān)心計(jì)算機(jī)視覺?與Andrej Karpathy原因相同-大規(guī)模視覺識(shí)別需要大量的訓(xùn)練和時(shí)間。最終,仍然會(huì)有人為錯(cuò)誤。根據(jù)Karpathy在ILSVRC中與計(jì)算方法競(jìng)爭(zhēng)的單一經(jīng)驗(yàn),他已經(jīng)放棄了以下想法:
l將任務(wù)外包給多個(gè)人以賺錢(例如,將其外包給Amazon Mechanical Turk上的付費(fèi)本科生或付費(fèi)貼標(biāo)商)
l將任務(wù)外包給無薪的學(xué)術(shù)研究人員
最后,Karpathy決定獨(dú)自執(zhí)行所有任務(wù),以減少標(biāo)簽不一致問題。Karpathy說,他花了大約1分鐘的時(shí)間才能在較小的測(cè)試集中識(shí)別出1,500張圖像中的每張圖像。相比之下,現(xiàn)代的卷積神經(jīng)網(wǎng)絡(luò)可以使用不錯(cuò)的GPU在不到一秒鐘的時(shí)間內(nèi)識(shí)別圖像中的對(duì)象。如果我們必須識(shí)別100,000張圖像的完整測(cè)試集呢?盡管開發(fā)計(jì)算機(jī)視覺處理系統(tǒng)需要開發(fā)時(shí)間和專業(yè)知識(shí),但是計(jì)算機(jī)可以比人類更一致地執(zhí)行視覺識(shí)別,并且在需要時(shí)可以更好地?cái)U(kuò)展。
計(jì)算機(jī)視覺如何實(shí)現(xiàn)?
對(duì)于計(jì)算機(jī),圖像是像素強(qiáng)度的2D陣列。如果圖像是黑白圖像,則每個(gè)像素有一個(gè)通道。如果圖像是彩色的,則每個(gè)像素通常有三個(gè)通道。如果圖像來自視頻,則還存在時(shí)間分量。由于陣列很容易在數(shù)學(xué)上進(jìn)行操作(參見線性代數(shù)),因此我們可以開發(fā)定量的方法來檢測(cè)圖像中存在的內(nèi)容。
手動(dòng)調(diào)整方法

我有一個(gè)理論……0代表曲線,1代表直線
這被稱為“手動(dòng)調(diào)整方法”,因?yàn)樗蟛僮魅藛T開發(fā)基于規(guī)則的理論,該理論關(guān)于如何檢測(cè)計(jì)算機(jī)可以理解的給定模式。這可能是執(zhí)行計(jì)算機(jī)視覺的最明顯方式。但是,盡管它可以解決一些簡(jiǎn)單的問題,例如識(shí)別簡(jiǎn)單的數(shù)字和字母,但是一旦為它提供了具有光照變化,背景,遮擋和視點(diǎn)變化的更復(fù)雜的圖像,它就會(huì)迅速瓦解。
機(jī)器學(xué)習(xí)方法
例如,假設(shè)您要檢測(cè)圖像中是否包含狗或貓。在訓(xùn)練時(shí),您會(huì)獲得大量標(biāo)有狗或貓的圖像集合。您采用一種算法并對(duì)它進(jìn)行訓(xùn)練,直到它可以很好地識(shí)別出大多數(shù)訓(xùn)練圖像為止。要檢查它在看不見的圖像上是否仍能正常工作,請(qǐng)為其提供新的貓狗圖像,并驗(yàn)證其性能。

近年來,機(jī)器學(xué)習(xí)的“繁榮”實(shí)際上是所謂的“深度學(xué)習(xí)”模型的繁榮。這些模型使用可學(xué)習(xí)權(quán)重的層來提取特征并進(jìn)行分類,而先前的模型使用手動(dòng)調(diào)整的特征和淺可學(xué)習(xí)的權(quán)重來對(duì)其進(jìn)行分類。如前所述,計(jì)算機(jī)視覺中最基本的模型之一就是“卷積神經(jīng)網(wǎng)絡(luò)”(簡(jiǎn)稱CNN或ConvNet)。這些模型通過使用3D權(quán)重和下采樣對(duì)卷積進(jìn)行反復(fù)卷積(將其視為2D乘法)從圖像中提取特征。然后,將要素轉(zhuǎn)換為一維矢量,然后與標(biāo)量權(quán)重相乘以生成輸出分類。

02.計(jì)算機(jī)視覺的主要任務(wù)
由于人類視覺系統(tǒng)可以同時(shí)執(zhí)行許多不同的任務(wù),而計(jì)算機(jī)視覺應(yīng)該可以復(fù)制它,因此有很多方法可以將其分解為離散的任務(wù)。通常,計(jì)算機(jī)視覺要解決的核心任務(wù)如下(以難度遞增的順序):

1.圖像分類:給定具有單個(gè)對(duì)象的圖像,預(yù)測(cè)存在的對(duì)象(對(duì)于按對(duì)象,標(biāo)簽或其他屬性標(biāo)記,搜索或索引圖像很有用)
2.圖像本地化:給定具有單個(gè)對(duì)象的圖像,預(yù)測(cè)存在的對(duì)象并在其周圍繪制一個(gè)邊框(用于定位或跟蹤對(duì)象的外觀或運(yùn)動(dòng))
3.對(duì)象檢測(cè):給定包含多個(gè)對(duì)象的圖像,預(yù)測(cè)兩個(gè)對(duì)象均存在,并在每個(gè)對(duì)象實(shí)例周圍繪制一個(gè)邊界框(用于定位或跟蹤多個(gè)對(duì)象的外觀或運(yùn)動(dòng))
4.語義分割(圖中未顯示):給定具有多個(gè)對(duì)象的圖像,預(yù)測(cè)存在的兩個(gè)對(duì)象并預(yù)測(cè)屬于每個(gè)對(duì)象類別(例如貓類別)的像素(用于分析多個(gè)對(duì)象類別的形狀)
5.實(shí)例分割:給定包含多個(gè)對(duì)象的圖像,預(yù)測(cè)存在的兩個(gè)對(duì)象,并預(yù)測(cè)哪些像素屬于對(duì)象類的每個(gè)實(shí)例(例如Cat#1與Cat#2)(可用于分析多個(gè)對(duì)象實(shí)例的形狀)
可用的數(shù)據(jù)集和模型
正如ILSVRC提供已經(jīng)注釋的數(shù)據(jù)(ImageNet)來客觀比較不同研究人員的算法一樣,競(jìng)爭(zhēng)研究人員又發(fā)布了他們的模型來支持其主張并促進(jìn)進(jìn)一步的研究。這種開放式協(xié)作的文化意味著許多最新的數(shù)據(jù)集和模型可供公眾公開使用,并且頂級(jí)模型可以容易地應(yīng)用,甚至不需要重新培訓(xùn)。
當(dāng)然,如果“ tape_player”和“ grey_whale”(也許是“ machine_1”或“ door_7”)未涵蓋需要識(shí)別的對(duì)象,則有必要收集自定義數(shù)據(jù)和注釋。但是在大多數(shù)情況下,可以使用新數(shù)據(jù)簡(jiǎn)單地對(duì)最新模型進(jìn)行重新訓(xùn)練,并且仍然可以保持良好的性能。
圖像分類(單個(gè)標(biāo)簽)

對(duì)象本地化(多個(gè)邊界框)

Frustum PointNets(2017),AP = 84.00%
語義細(xì)分(多個(gè)類別細(xì)分)

實(shí)例細(xì)分(多個(gè)實(shí)例細(xì)分)
EfficientPS(2019),AP = 39.1%03.可能的商業(yè)用途
現(xiàn)在,我們已經(jīng)了解了什么是計(jì)算機(jī)視覺,它為何有用以及如何執(zhí)行,對(duì)于企業(yè)來說有哪些潛在應(yīng)用程序?與文本或數(shù)據(jù)庫記錄不同,圖像通常不被公司很好地分類和存儲(chǔ)。但是,我們認(rèn)為,某些專業(yè)領(lǐng)域的公司將有數(shù)據(jù)和動(dòng)力,可以從使用計(jì)算機(jī)視覺從其存儲(chǔ)的圖像數(shù)據(jù)中提取額外的價(jià)值中受益。
產(chǎn)業(yè)
第一個(gè)領(lǐng)域是制造業(yè),資源開采和建筑業(yè)。這些公司通常會(huì)大量生產(chǎn)產(chǎn)品,開采資源或建造土建工程,并且許多監(jiān)視或預(yù)測(cè)分析是手動(dòng)完成的或使用簡(jiǎn)單的分析技術(shù)完成的。但是,我們認(rèn)為計(jì)算機(jī)視覺對(duì)于自動(dòng)化以下任務(wù)會(huì)很有用:
缺陷檢測(cè),質(zhì)量控制:通過學(xué)習(xí)正常產(chǎn)品的外觀,計(jì)算機(jī)視覺系統(tǒng)可以在機(jī)器操作員檢測(cè)到可能的缺陷時(shí)對(duì)其進(jìn)行標(biāo)記(例如,來自AiBuild的Ai Maker)

預(yù)測(cè)性維護(hù):通過了解給定機(jī)械在其使用壽命即將結(jié)束時(shí)的外觀,計(jì)算機(jī)視覺系統(tǒng)可以實(shí)時(shí)監(jiān)視機(jī)械,量化其狀態(tài)(例如強(qiáng)度為90%)并預(yù)測(cè)何時(shí)需要維護(hù)
遠(yuǎn)程測(cè)量:通過學(xué)習(xí)在感興趣的對(duì)象(例如,材料中的裂縫)周圍畫一個(gè)邊界框,計(jì)算機(jī)視覺系統(tǒng)可以確定該對(duì)象的實(shí)際大小
機(jī)器人技術(shù):通過學(xué)習(xí)識(shí)別其視野中的物體,嵌入機(jī)器人內(nèi)部的計(jì)算機(jī)視覺系統(tǒng)可以學(xué)習(xí)操縱物體(例如在工廠中)或?qū)Ш狡洵h(huán)境
醫(yī)療類
醫(yī)學(xué)領(lǐng)域是可以從計(jì)算機(jī)視覺中受益的類似領(lǐng)域,因?yàn)樵S多工作集中在監(jiān)視和測(cè)量人類患者的身體狀況(而不是機(jī)械或制成品)上。
醫(yī)學(xué)診斷輔助工具:通過學(xué)習(xí)醫(yī)生感興趣的診斷組織的外觀,計(jì)算機(jī)視覺系統(tǒng)可以建議相關(guān)區(qū)域并加快診斷速度(例如,使用HistoSegNet從病理切片中分割組織學(xué)類型)

遠(yuǎn)程測(cè)量:同樣,通過學(xué)習(xí)在感興趣的對(duì)象(例如病變)周圍繪制邊界框,計(jì)算機(jī)視覺系統(tǒng)可以確定該對(duì)象的實(shí)際大小,以監(jiān)視患者隨時(shí)間的進(jìn)展(例如,Swift Skin和Wound (來自Swift Medical)

文件和多媒體
文檔和多媒體是另一個(gè)可以從計(jì)算機(jī)視覺中受益的領(lǐng)域,因?yàn)榇蠖鄶?shù)公司以掃描的文檔,圖像和視頻的形式保存大量的非結(jié)構(gòu)化(和無注釋)信息。盡管大多數(shù)公司傾向于不標(biāo)記這些圖像,但有些公司可能具有可以被利用的有用標(biāo)簽(例如,在線零售商店的產(chǎn)品信息)。
光學(xué)字符識(shí)別(OCR):可以識(shí)別并提取掃描文檔的文本以進(jìn)行進(jìn)一步處理
圖像搜索引擎:圖像可用于搜索其他圖像(例如,用于在線零售網(wǎng)站,搜索與最近購買的產(chǎn)品類似的視覺相似產(chǎn)品或造型相似產(chǎn)品)
視覺問題解答(VQA):用戶可以向計(jì)算機(jī)視覺系統(tǒng)詢問有關(guān)圖像中描繪的場(chǎng)景的問題,并接收人為語言的響應(yīng)-這對(duì)于視頻字幕很重要。

視頻摘要:計(jì)算機(jī)視覺系統(tǒng)可以總結(jié)視頻中的事件并返回簡(jiǎn)明摘要-這對(duì)于自動(dòng)生成視頻描述非常重要

零售和監(jiān)視
零售(我們之前已經(jīng)提到過)和監(jiān)控是可以從計(jì)算機(jī)視覺中受益的其他領(lǐng)域。他們依靠實(shí)時(shí)監(jiān)控人類行為者及其行為來優(yōu)化所需的結(jié)果(例如購買行為,非法行為)。如果可以從視覺上觀察到該行為,則計(jì)算機(jī)視覺可以是一個(gè)很好的解決方案。
人類活動(dòng)識(shí)別:可以訓(xùn)練計(jì)算機(jī)視覺系統(tǒng)來識(shí)別視頻饋送中人類當(dāng)前的活動(dòng)(例如,步行,坐著),這對(duì)于量化人群中坐著的人數(shù)或識(shí)別人群流量瓶頸很有用
人體姿勢(shì)估計(jì):還可以訓(xùn)練計(jì)算機(jī)視覺系統(tǒng)來定位人體關(guān)節(jié)的位置和方向,這對(duì)于虛擬現(xiàn)實(shí)交互,手勢(shì)控制或出于醫(yī)療或體育目的分析人的動(dòng)作非常有用
室內(nèi)視覺本地化:計(jì)算機(jī)視覺系統(tǒng)可用于將室內(nèi)環(huán)境的當(dāng)前實(shí)時(shí)圖像或視頻饋送與已知快照的數(shù)據(jù)庫進(jìn)行匹配,并在該室內(nèi)環(huán)境中定位當(dāng)前用戶的位置(例如,用戶在室內(nèi)拍照)大學(xué)校園,并有一個(gè)應(yīng)用顯示他們所在的位置)

衛(wèi)星影像
衛(wèi)星圖像是我們可以看到計(jì)算機(jī)視覺有用的最后領(lǐng)域,因?yàn)樗?jīng)常被用于通過專家繁瑣的手動(dòng)注釋來監(jiān)視土地使用和環(huán)境隨時(shí)間的變化。如果訓(xùn)練有素,計(jì)算機(jī)視覺系統(tǒng)可以加快對(duì)衛(wèi)星圖像的實(shí)時(shí)分析,并評(píng)估哪些地區(qū)受到自然災(zāi)害或人類活動(dòng)的影響。
船舶/野生生物跟蹤:通過衛(wèi)星圖像或港口或野生動(dòng)植物保護(hù)區(qū),計(jì)算機(jī)視覺系統(tǒng)可以快速計(jì)數(shù)和定位船舶和野生生物,而無需繁瑣的人工注釋和跟蹤


作物/牲畜監(jiān)測(cè):計(jì)算機(jī)視覺系統(tǒng)還可以監(jiān)測(cè)農(nóng)業(yè)用地狀況(例如,通過定位患病或低產(chǎn)地區(qū)),以優(yōu)化農(nóng)藥使用和灌溉的分配

大家會(huì)看到,計(jì)算機(jī)視覺為企業(yè)帶來了許多應(yīng)用程序。但是,企業(yè)應(yīng)該首先考慮以下幾點(diǎn):
l數(shù)據(jù):您是從第三方,供應(yīng)商處獲取圖像數(shù)據(jù)還是自己收集圖像數(shù)據(jù)?大多數(shù)數(shù)字?jǐn)?shù)據(jù)不可用或未分析
l注釋:您是從第三方,供應(yīng)商處獲取注釋還是自己收集注釋?
l問題表述:您要解決什么樣的問題?這是領(lǐng)域?qū)I(yè)知識(shí)將派上用場(chǎng)的地方(例如,足以檢測(cè)機(jī)器何時(shí)有缺陷(圖像識(shí)別),還是我們還需要定位缺陷區(qū)域(對(duì)象檢測(cè))?)
l轉(zhuǎn)移學(xué)習(xí):經(jīng)過預(yù)訓(xùn)練的模型是否可以很好地完成工作(如果是,則需要較少的研發(fā)工作)?
l計(jì)算資源:您是否有足夠的計(jì)算能力用于訓(xùn)練/推理(計(jì)算機(jī)視覺模型通常需要云計(jì)算或強(qiáng)大的本地GPU)?
l人力資源:您是否有足夠的時(shí)間或?qū)I(yè)知識(shí)來實(shí)施模型(計(jì)算機(jī)視覺通常需要機(jī)器學(xué)習(xí)工程師,數(shù)據(jù)科學(xué)家或具有研究生教育水平且工作時(shí)間專用于研究問題的研究科學(xué)家)?
l信任問題:最終用戶/客戶是否信任計(jì)算機(jī)視覺方法?必須建立良好的關(guān)系,并采用可解釋性的方法來確保透明度和問責(zé)制,從而促進(jìn)更高的用戶接受度
交流群
歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競(jìng)賽等微信群(以后會(huì)逐漸細(xì)分),請(qǐng)掃描下面微信號(hào)加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺SLAM“。請(qǐng)按照格式備注,否則不予通過。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~
