<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          學習筆記 ——深度學習和機器視覺

          共 4631字,需瀏覽 10分鐘

           ·

          2022-05-17 00:39

          擊上方“機器視覺”,點右上角...選擇“置頂/星標公眾號
          接收最新推文!

          • 一、深度學習:理論和關注機制的進展(Yoshua Bengio)

          • 二、深度語義學習 (Xiaodong He)

          • 三、深度神經網絡和GPU(Julie Bernauer)

          • 四、深度視覺Keynote(Rahul Sukthankar)

          • 五、學習和理解視覺表示(Andrea Vedaldi)

          • 六、用于目標檢測的可變深度卷積神經網絡(Xiaogang Wang)

          一直自稱研究方向是“機器視覺、機器學習和深度學習”,然而除了做過幾個相關的項目以外,感覺自己對這個領域并沒有足夠深入的認識和理解。趁著這個假期我要好好補補課了。今天先來看一些high level的內容,看看深度學習近期的最近進展以及其在機器視覺問題中的應用。學習資料來源于2015年CVPR的Deep Learning in Computer Vision Workshop 里invited speaker的slides,介紹了理論、應用、實現等方面的內容,應該是干貨滿滿的。對于每一個talk,我會把內容框架記錄下來(可以check一下對這些點是否有一定了解?),并記下一些個人覺得有趣的點。想看完整內容就戳這個鏈接吧:Deep Learning in Computer Vision Workshop:http://www.deep-vision.net/

          一、深度學習:理論和關注機制的進展(Yoshua Bengio)

          顧名思義,Bengio的talk主要講了兩個部分:理論進展和attention mechanism。理論進展介紹了:

          • 分布式表示的“指數級”優(yōu)點

          • 深度的“指數級”優(yōu)點

          • 非凸優(yōu)化和局部最小值

          • 自編碼器的概率解釋

          Attention 機制則介紹了在機器翻譯、語音、圖像、視頻和記憶單元中的應用。

          分布式表示和深度的優(yōu)點Bengio之前的talk里已經講過不少次了。簡單的說,雖然類似local partition的方法可以得到有用的表示,淺層(2層)的神經網絡也可近似任意的函數,但是分布式表示和深度的引入可以使特征表示和模型變得更加緊湊(compact),達到exponentially more statistically efficient的效果。

          接下來提到了在深度學習中凸性質(convexity)可能并不是必要的。因為在高維空間中,鞍點(saddle point)的存在是主要問題,而局部最小值通常都會很接近全局最小值了。這部分的內容比較陌生,有興趣可以看看最近的論文。

          Attention 機制方面,講了很多最新的進展。有很多相關的paper都非常有趣,我要找個時間好好看看這個系列了。一個基本的思路是:我們給每一層引入一個額外的輸入,這個輸入反應的是之前的一個加權,來表示它們的關注程度。在所謂的soft-attention中,這個加權的值可以直接通過BP訓練得到。記下幾句有趣的話:
          - They (Attention mechanism) could be interesting for speech recognition and video, especially if we used them to?capture multiple time scales
          - They could be used to help deal with?long-term dependencies, allowing some states to last for arbitrarily long

          二、深度語義學習 (Xiaodong He)

          來自微軟研究院的報告,主要內容:

          • 學習文本的語義性(semantic)表示

          • 知識庫和問答系統(tǒng)

          • 多模態(tài)(圖片——文本)語義模型

          講座開始引入了一點有趣的motivation:一般我們測試機器是否能夠理解圖片(其實就是訓練對了),方法是給圖片標記標簽然后計算其錯誤率。然而對于含有豐富內容的復雜場景來說,很難定義所有fine-grained的類別。因此,用自然語言的描述來測試對圖片的理解是比較好的方式。

          從 Word2Vec 到 Sent2Vec:Deep Structured Semantic Model (DSSM),雖然我們不知道該如何標記一個句子的語義,但我們知道哪些句子的語義是比較接近的,因此文章通過優(yōu)化一個基于相似性的目標函數來訓練模型,使具有相近語義的句子產生距離相近的向量。接著還介紹了很多模型的細節(jié)和變種(卷積DSSM、遞歸DSSM),在此就不贅述了。

          Deep Multimodal Similarity Model (DMSM):將目標函數中兩個句子的相似性改成句子和圖片的相似性,便可以將DSSM擴展為一個多模態(tài)的模型。

          MSR系統(tǒng)解決圖片–>語言問題:

          • 圖片詞語檢測(Image word detection)

          • 句子生成(Language generation)

          • 全局語義性重排序(Global semantic re-ranking)

          其中圖片詞語檢測用了CNN+MIL(Multiple Instance Learning)的方法,個人對此比較感興趣,文章在此。

          三、深度神經網絡和GPU(Julie Bernauer)

          換個口味,我們來看看NVIDIA關于深度學習和GPU的結合。總的來說,內容上跟NVIDIA官網上介紹深度學習的slides沒什么不同。主要介紹了GPU有什么好處、GPU有多牛,還有一些支持GPU的庫和工具。

          一張比較好的圖:

          有用的工具:

          • Lasagne:基于theano上的開源庫,能方便搭建一個深度網絡。(Keras用得不太爽,可以試試這個)

          四、深度視覺Keynote(Rahul Sukthankar)

          來看看來自google的報告。這個talk里面的內容都不太熟悉,但是看起來都非常有意思。主要內容有:

          • 用Peer Presssure方法來找high value mistake

          • 結合深度學習和其他機器學習方法來更好解決視覺問題

          首先來看看Peer Pressure。這是Rahul組最近的一個工作:The Virtues of Peer Pressure: A Simple Method for Discovering High-Value Mistakes。所謂“high-value mistake”,指的是那些我們認為訓練好的模型可以準確預測的樣本,結果它卻“犯傻”了。因此這些樣本也叫做“hard positive”,難以答對的樣子。

          從頭說起,深度神經網絡雖然有很多成功的應用,但同時也被發(fā)現很容易犯愚蠢的錯誤(比如上述的high-value mistake)。因此作者提出了Peer Pressure:集成+對抗訓練(emsembles+adversarial training)的方法,來找到這些錯誤。簡單來說就是,有一組訓練于同樣數據但是初始化或者結構不同的NN分類器(稱作peers),如果一個樣本出現其中一個NN輸出與其它都不一致的情況(其它NN淡然都是一致的了),那么它應該就是high-value mistake。尋找這類錯誤當然是有價值的啦:(1)它可以用在發(fā)掘無標簽的數據中(2)可以用來合成新的hard positive樣本。

          接下來提到將上述的方法應用到視頻當中,找出anchor frame附近的hard positive 幀,用來訓練更好的模型。其中具有semantic consistency的幀是通過Dense Trajectory來確定的。感覺挺有意思,可惜沒找到相應的paper,那就上張圖吧。

          五、學習和理解視覺表示(Andrea Vedaldi)

          來自牛津大學的報告,題目看起來還是很吸引人的。大綱如下(略有失望,好像就是講CNN的):

          • 黑盒:一個將CNN用于圖片文字識別的例子

          • 架構:卷積和紋理

          • 可視化:CNN所知道的圖片

          • 性質:對比CNN和視覺幾何

          第一個例子用CNN做OCR,感覺并不是很有趣。一個challenge是它的類別特別多(90k個類,對應90k個單詞)。他們解決的辦法是增量地訓練網絡,即先只訓練5k個類,再逐步添加5k個新的類。。。效果好像還不錯。

          第二部分講分辨紋理。提出用CNN的卷積層加上Fisher Vector(替換全連接層)來做,效果不錯不錯的。

          第三部分可視化,看看就好。

          第四部分還不錯,講的是圖像變換對特征表示的影響。除去語義層面上的影響(特征的不變性跟任務相關),我們通常希望圖像的特征表示不受圖像變換的影響,如翻轉和仿射變換。


            • 類內差異大,包括:部分出現(part existence)、顏色、遮擋、變形


            • 六、用于目標檢測的可變深度卷積神經網絡(Xiaogang Wang)

              最后一個talk,講的是我最近比較關注的目標檢測問題,主要介紹他們的DeepID-Net。

              第一部分他們的工作,用深度學習進行行人識別。其中著重講了通過設計大小可變的卷積核來實現部分檢測器(Part detector),對于行人識別應該是重要的一部分。

              第二部分講更general的目標檢測問題。首先介紹目標檢測的困難有(經篩選):

              對比了他們的DeepID-Net和RCNN:

              后面詳細的介紹了他們模型的每個環(huán)節(jié)。總體來說,感覺每個環(huán)節(jié)都比較tricky,暫時也看不到有什么insight,故先略過了。之后專門研究object detection時可能還會重新看看他們的工作。

          ?

          版權聲明:本文為CSDN博主「xtyang315」的原創(chuàng)文章,遵循CC 4.0 BY-SA版權協(xié)議,轉載請附上原文出處鏈接及本聲明。
          原文鏈接:https://blog.csdn.net/yjn03151111/article/details/50437951

          熱門文章推薦:點擊直接進入相關文章

          001:計算機視覺領域研究資源及期刊、會議介紹

          002:德國kuka機器人與世界冠軍乒乓對決

          003:120圖勾勒全球AI產業(yè)完整圖譜!

          004:Facebook 開源計算機視覺系統(tǒng),從像素水平理解圖像(附論文及代碼)

          005:想成為機器學習工程師?這份自學指南你值得收藏

          006:十一種通用濾波算法

          007:圖像處理與計算機視覺基礎,經典以及最近發(fā)展

          008:機器人行業(yè)深度報告(完整版)

          009:從洗衣妹到谷歌首席科學家,她靠孤獨改變了人工智能界!

          010:工業(yè)級機器視覺行業(yè)研究報告

          011:雙遠心工業(yè)鏡頭的原理簡述

          012:如何裝備一個學術型的 iPad ?

          013:機器視覺系統(tǒng)概述

          014:德國工匠:我們沒有“物美價廉”的東西

          015:為什么最好的機械臂是7個自由度,而不是6個?

          016:史上最給力的技術視頻!

          017:機器人10大流行編程語言對比,你掌握了哪種?

          018:新奇復雜機械原理圖!

          019:機器人控制系統(tǒng)相關知識大匯集
          020:機器人的工作原理,史上最詳細的解析!

          021:光源選型知識點
          022:這才是機械手,這才是自動化,你那算什么?
          023:攝像機和鏡頭的基礎知識
          024:物聯(lián)網產業(yè)鏈全景圖(附另13大電子行業(yè)全景圖,必收藏)
          025:日本到底強大到什么地步?讓人窒息!看后一夜未眠

          026:德國機械用行動驚艷全世界:無敵是多么寂寞


          一切有為法,如夢幻泡影,如露亦如電,應作如是觀!
          歡迎轉發(fā)、留言、點贊、分享,感謝您的支持!
          瀏覽 104
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  骚逼操逼视频 | 国产 在线观看免费视频今夜 | 免费看黄色A | 国产成人主播精品视频 | 草逼伊人网站 |