計算機視覺新手指南
點擊上方“小白學視覺”,選擇加"星標"或“置頂”
重磅干貨,第一時間送達
通過機器的眼睛看
通過計算機或手機等機器觀察周圍環(huán)境的方法稱為計算機視覺。模擬人眼的嚴峻工作可以追溯到50年代,我們已經(jīng)在這個領(lǐng)域走了很長一段路。計算機視覺已經(jīng)通過不同的電子商務(wù)或相機應(yīng)用進入到了我們的手機。
當機器擁有像人一樣的眼睛,機器將會做更多的事情。人眼有著復(fù)雜的結(jié)構(gòu),而通過眼睛觀察來理解環(huán)境是一個更加復(fù)雜的現(xiàn)象。以類似的方式,使機器能夠看到事物并使其具有足夠的能力以理解它們所看到的內(nèi)容并進一步對其進行分類,仍然是一項艱巨的工作。
使用計算機視覺等效于眨眼間就可以進行數(shù)百萬次計算,其準確性幾乎與人眼相同。這不僅涉及將圖片轉(zhuǎn)換為像素,然后嘗試通過這些像素了解圖片中的內(nèi)容,也將不得不首先了解如何從這些像素中提取信息并了解其代表的內(nèi)容。

1、理解如何通過機器看
A.用數(shù)字表示顏色:在計算機科學中,每種顏色都由指定的十六進制值表示。這就是機器理解圖像像素組成顏色的一種編碼方式。而作為人類,我們擁有能力根據(jù)深淺來區(qū)分不同的顏色。

B.圖像分割:計算機被用來識別相似的顏色組,然后分割圖像,即將前景與背景區(qū)分開。顏色漸變技術(shù)用于查找不同對象的邊緣。
C.查找角點:分割后,然后查找圖像中的某些特定的特征,也可被稱為角點。簡而言之,算法會搜索以一定角度相交的線,并以一種顏色的陰影覆蓋圖像的特定部分。特征(也稱為角點)像是積木,可幫助查找圖像中包含的更詳細的信息。
D.查找紋理:正確識別圖像的另一個重要方面是區(qū)分圖像中的紋理。兩個對象之間的紋理差異使機器更容易正確地對對象進行分類。

E.做出猜測:執(zhí)行上述步驟后,機器需要做出大概率正確的猜測,并將圖像與數(shù)據(jù)庫中存在的圖像進行匹配。

F.最后看大圖:最后,一臺機器會看到更大,更清晰的畫面,并根據(jù)所提供的算法說明檢查是否正確識別了該畫面。在過去的幾年中準確性得到了很大的提高,但是當機器要求處理帶有混合物體的圖像時,機器仍然會犯錯誤。
美國大學:
卡內(nèi)基梅隆大學機器人學院
加州大學洛杉磯分校
北卡羅來納大學教堂山分校
華盛頓大學
加州大學伯克利分校
斯坦福大學
麻省理工學院
康奈爾大學
賓夕法尼亞大學
加州大學爾灣分校
哥倫比亞大學
伊利諾伊大學香檳分校
南加州大學
密西根大學
普林斯頓大學
羅切斯特大學
德克薩斯大學奧斯汀分校
馬里蘭大學學院公園
布朗大學
中央佛羅里達大學
紐約大學
密西根州立大學
麻省大學,阿默斯特
西北大學
加州大學圣地亞哥分校
加拿大大學:
艾伯塔大學
多倫多大學
不列顛哥倫比亞大學
西蒙弗雷澤大學
歐洲大學:
INRIA法國
牛津大學(http://www.robots.ox.ac.uk/~vgg/)
蘇黎世聯(lián)邦理工學院
德國馬克斯·普朗克研究所
愛丁堡大學
薩里大學
弗萊堡大學
瑞典KTH
德累斯頓大學
達姆施塔特工業(yè)大學
瑞士EPFL
魯汶大學
巴塞羅那計算機視覺中心
瑞士IDIAP
倫敦帝國理工學院
海德堡國際機場
曼徹斯特大學
波恩大學
亞琛工業(yè)大學
阿姆斯特丹大學
慕尼黑工業(yè)大學
捷克技術(shù)大學
劍橋大學
格拉茨
IST奧地利
倫敦瑪麗皇后大學
蘇黎世大學
代爾夫特大學
利茲大學
伯爾尼大學
隆德大學
特倫托大學,意大利
意大利佛羅倫薩大學
斯圖加特大學
薩爾大學
巴黎中央學校
巴黎理工學院
奧盧大學
卡爾斯魯厄理工學院
3.如果是計算機視覺領(lǐng)域的新手,可以在下面找到一個必須了解的詳盡主題列表。
A.初學者水平
數(shù)學:
線性代數(shù)
奇異值分解
入門級模式識別
主成分分析
卡爾曼濾波
傅里葉變換
小波
圖像處理:
杜克大學在Coursera上提供的在線課程
岡薩雷斯和伍茲的數(shù)字圖像處理
B.高級
線性判別分析
概率,貝葉斯規(guī)則,最大似然,MAP
混合物和期望最大化算法
入門級統(tǒng)計學習
支持向量機
遺傳算法
隱馬爾可夫模型
貝葉斯網(wǎng)絡(luò)
學習OpenCV:使用OpenCV庫的計算機視覺
Tombone的計算機視覺博客
我們還應(yīng)該了解該領(lǐng)域的一些關(guān)鍵詞和關(guān)鍵工作,在這里我們可以從中學習到它們中的一些:
SIFT:通用視覺的經(jīng)典描述符
HOG:眾所周知的描述符,特別適合人類檢測
Viola-Jones:偉大的人臉檢測器
Shape Contexts
Deformable Part Models
必讀書籍清單包括:
入門級:
1. 計算機視覺:算法與應(yīng)用
2. 計算機視覺:現(xiàn)代方法David A. Forsyth,Jean Ponce
3. 計算機視覺中的多視圖幾何?作者:Richard Hartley,Andrew Zisserman
這里當也少不了我們小白老師的書啦~
4.OpenCV4快速入門(購買鏈接如下哦~)
高級水平—走向深度學習:
4. Michael Nielsen的“神經(jīng)網(wǎng)絡(luò)和深度學習”在線書;這是一個很棒的,溫和的介紹:神經(jīng)網(wǎng)絡(luò)和深度學習
TED觀看談話:
1.李飛飛:我們?nèi)绾谓逃嬎銠C理解圖片
2.?BlaiseAgüera和Arcas:PhotoSynth如何連接世界圖像
3.?淺川千惠子:新技術(shù)如何幫助盲人探索世界
4.?詹妮弗·希利:如果汽車可以說話,事故是可以避免的
5. 戈蘭·萊文(Golan Levin):回望你的藝術(shù)
6. Paul Debevec:制作真實照片的數(shù)字臉動畫
在線課程:
Udacity:計算機視覺概論
斯坦福大學的CS231n:用于視覺識別的卷積神經(jīng)網(wǎng)絡(luò) 中央佛羅里達大學-Mubarak Shah教授的視頻講座 將您所有的知識應(yīng)用于從上述資源中獲得的概念和算法,以解決一些任務(wù)并自行完成一個項目。
高級水平—走向深度學習:
杰夫·欣頓(Geoff Hinton)在Coursera上的神經(jīng)網(wǎng)絡(luò)講座
斯坦福大學課程:用于自然語言處理的深度學習
斯坦福大學課程:用于視覺識別的卷積神經(jīng)網(wǎng)絡(luò)
講座課程:
計算機視覺中的深度學習(Sanja Fidler教授)
先進的計算機視覺(James Hays教授)
4.全球項目

微軟計算機科學家和研究人員正在努力“解決”癌癥
東京項目?—提供支持AI的原型,以增強盲人或視力障礙者對社交,物理和文本環(huán)境的認識。
教學機預(yù)測未來

最左側(cè)的列顯示操作開始之前的幀,其下方是算法的預(yù)測。右列顯示視頻的下一幀。
5.與專家的對話

對于任何想開始學習該領(lǐng)域的學生,我建議他們通過研究人員的網(wǎng)頁并選擇他們認為有趣的問題來選擇問題。大多數(shù)情況下,人們都在研究最前沿的問題,這些問題可以從那里獲得可用的標準數(shù)據(jù)集。他們可以選擇一個問題,一個數(shù)據(jù)集以及一個他們可能想使用的庫,然后動手做。
在攻讀碩士或博士學位的學生中,我通常會尋找的是具有責任心,積極性和決心的學生。使您的基本概念清晰明了。嘗試閱讀研究論文。嘗試了解全世界研究人員正在研究的AI前沿問題。
B.與Richa Agrawal的對話?|?賓夕法尼亞大學校友|?Whodat的計算機視覺研究工程師

我畢業(yè)于MNIT Japur,在那里學習期間我加入了機器人小組。我們做了一些項目,然后參加了IIT Roorkee的國家級比賽。我們贏得了比賽,這鼓舞了我的士氣。完成學士學位后,我開始在Yahoo工作。我意識到這不是我想要或想做的事情,因此去了賓夕法尼亞大學攻讀碩士學位。那時,我通過學習不同的課程探索了不同的研究領(lǐng)域,并最終決定將計算機視覺作為我的主要研究興趣。畢業(yè)后,我在美國的一家初創(chuàng)公司工作,并希望在印度尋找類似的機會,因為該領(lǐng)域甚至在這里都開始發(fā)展。在Whodat(一家基于班加羅爾的計算機視覺初創(chuàng)公司)中,我們使用增強現(xiàn)實和可視化技術(shù)進行處理。舉例來說,您打算為自己的房屋購買家具;您去商店并在家庭環(huán)境中可視化后選擇商店。家具交付后,您會意識到它太大或太小,但已經(jīng)為時已晚。我們正在嘗試通過構(gòu)建一個解決方案來幫助您,該解決方案將使您在家中的家具可視化。這將使您能夠做出更好的決定,并輕松地購買物品。
在學習時,很多時候我都無法盡力而為,經(jīng)常感到沮喪,但我朋友的忠告解救了我。他告訴我-“只有少數(shù)人(不到0.1%)能夠做到這一點(從國外做碩士,并且在計算機視覺等技術(shù)領(lǐng)域也是如此),并且您已經(jīng)證明了自己是其中之一。而且,您只需要加倍努力。只有您自己可以做到,沒有其他人可以做到。最后,只有您的學習才是最重要的。
對于學生入門的一些建議是與其他大學的同齡人交談,并詢問他們從事什么樣的項目。然后他們可以與領(lǐng)導者組成團隊并開始實驗。我還建議參加比賽和黑客馬拉松。重要的是要找到自己的興趣并與他們一起去,而不是在自己不喜歡的地方工作。例如,計算機視覺在印度是一個廣闊的領(lǐng)域,在印度擁有廣闊的發(fā)展空間,在這個領(lǐng)域,您所需要的只是一臺照相機,它現(xiàn)在已經(jīng)開始滲透到更小的城市。因此,計算機視覺的未來絕對是光明的。
?End?
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~
