<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          圖像描述(ImageCaption)任務(wù)簡析

          共 3663字,需瀏覽 8分鐘

           ·

          2020-11-27 22:03

          本文小媛僅僅介紹了該任務(wù)的背景與相關(guān)研究

          希望通過以下的簡單介紹

          引起大家對“多模態(tài)/imagecaption”的學(xué)習(xí)興趣

          圖像描述(ImageCaption)任務(wù)是多模態(tài)領(lǐng)域的一個經(jīng)典任務(wù)。

          多模態(tài)
          多模態(tài)機(jī)器學(xué)習(xí),英文全稱 MultiModal Machine Learning (MMML),旨在通過機(jī)器學(xué)習(xí)的方法實(shí)現(xiàn)處理和理解多源模態(tài)信息的能力。目前比較熱門的研究方向是圖像、視頻、音頻、語義之間的多模態(tài)學(xué)習(xí)。

          多模態(tài)學(xué)習(xí)從1970年代起步,經(jīng)歷了幾個發(fā)展階段,在2010后全面步入Deep Learning階段。

          人其實(shí)是一個多模態(tài)學(xué)習(xí)的總和,所以也有”磚家“說了,多模態(tài)學(xué)習(xí)才是真正的人工智能發(fā)展方向。

          Image Caption
          Image Caption,就是從圖片中自動生成一段描述性文字,有點(diǎn)類似于我們小時(shí)候做過的“看圖說話”,十分有趣。
          對于人來說,Image Caption是簡單而自然的一件事,但對于機(jī)器來說,這項(xiàng)任務(wù)卻充滿了挑戰(zhàn)性。
          原因在于機(jī)器不僅要能檢測出圖像中的物體,而且要理解物體之間的相互關(guān)系,最后還要用合理的語言表達(dá)出來。
          從上面一段文字中,相信大家已經(jīng)了解該任務(wù)的輸入(文本)和輸出(文字)。為了更好的理解,我們先來看幾個例子。
          例子
          這是小媛翻出的本科畢設(shè)的陳年舊圖

          經(jīng)過大批量數(shù)據(jù)(如MSCOCO數(shù)據(jù)集)的訓(xùn)練,一個訓(xùn)練良好的模型可以做到如上圖一般準(zhǔn)確的圖片描述。
          如,可以準(zhǔn)確描述出長頸鹿不僅在森林里,也在一棵樹的旁邊,即使那棵樹在圖片中僅僅漏出了一半。
          背景
          近年來,隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)研究的不斷深入,圖像處理、圖片識別、自然語言處理、文本生成等技術(shù)發(fā)展迅猛,已然成為近些年的研究熱點(diǎn)。
          在自然語言處理(Natural Language ProcessingNLP)領(lǐng)域內(nèi),文本生成可謂是最困難的學(xué)習(xí)任務(wù),而在圖像領(lǐng)域,圖片分類和圖片定位也早早的被人們所熟知,進(jìn)入廣大機(jī)器學(xué)習(xí)研究者的視野。
          圖片分類是常見的CV領(lǐng)域的任務(wù),其給定一張圖片,讓計(jì)算機(jī)將此圖片分類到已經(jīng)劃定好的正確的類別中,例如貓或狗;而圖片定位除了告訴人們一張圖片可劃分的所屬類別,還會用一個矩形框把相關(guān)的位置標(biāo)識出來,例如哪個位置是貓,而哪個位置是桌子;當(dāng)然還有要求更高的圖像分割(Image Segmentation),告訴人們哪些像素屬于實(shí)體(例如人、貓狗等),而另外哪些像素則屬于背景,使用像素代替了簡單的使用矩形框。
          但人們認(rèn)為電腦可以從圖像中得到的信息遠(yuǎn)不止于此,人們希望電腦可以學(xué)到類似于人類的描述圖像的語言,于是圖像描述任務(wù)應(yīng)運(yùn)而生[2]。
          圖片識別與文本生成正是立足于機(jī)器學(xué)習(xí)的兩個不同領(lǐng)域,而將兩者結(jié)合起來,便是當(dāng)今的圖片描述任務(wù)。
          現(xiàn)在許多image caption?的研究內(nèi)容也在如火如荼的進(jìn)行。在中高考語文卷英語卷中,也都或多或少存在著看圖寫作等相關(guān)題目。同時(shí),圖片認(rèn)知與描述是人類的創(chuàng)作性活動,如果機(jī)器能完成這一任務(wù),能夠理解圖片含義并盡量準(zhǔn)確的生成圖片中心句,那將是人工智能的一次很大進(jìn)步。
          與圖片分類任務(wù)相比,圖片描述任務(wù)最主要的特點(diǎn)是直接為用戶返回其所需的人類語言所描述的圖片信息,而不是簡單的圖片內(nèi)容分類,而且其可以用當(dāng)下流行的機(jī)器學(xué)習(xí)與深度學(xué)習(xí)技術(shù)深層次的理解圖片主體之間的關(guān)系。
          顯然,相比圖片分類而言,圖片描述任務(wù)可以更好的滿足用戶對圖片完整內(nèi)容的獲取需求[3]。
          相關(guān)技術(shù)
          圖片描述任務(wù)的技術(shù)核心是計(jì)算機(jī)視覺(Computer Vision,CV)技術(shù)與自然語言處理技術(shù)。
          自然語言處理(Natural Language Processing,NLP)是一門研究如何讓計(jì)算機(jī)理解并運(yùn)用自然語言的技術(shù)。近年來,自然語言處理技術(shù)成為計(jì)算機(jī)科學(xué)與信息技術(shù)研究的熱點(diǎn)之一,其主要應(yīng)用在人工智能領(lǐng)域。
          圖片描述任務(wù)是深度學(xué)習(xí)中領(lǐng)域間融合發(fā)展的重要表現(xiàn)形式。Image Caption任務(wù)可以準(zhǔn)確理解圖片信息,提取圖片特征(包括全局特征以及局部區(qū)域特征),并做到向用戶返回準(zhǔn)確、簡潔的自然語言答案,從而滿足用戶對快速準(zhǔn)確獲取信息的需求,是理解圖片的一種高級形式。
          圖片描述任務(wù)是深度學(xué)習(xí)中圖像識別和自然語言處理領(lǐng)域間融合的一個前景廣泛的研究方向。
          圖像描述問題(image caption)的發(fā)展歷史相對其他深度學(xué)習(xí)任務(wù)來說并不算太久遠(yuǎn)。
          CVPRIEEE Conference on Computer Vision and Pattern Recognition,IEEE國際計(jì)算機(jī)視覺與模式識別會議)上關(guān)于描述生成的論文皆發(fā)表于近六年左右,MSCOCO也是在2015年才推出關(guān)于image caption的比賽。
          圖片描述任務(wù)的技術(shù)核心是基于深度學(xué)習(xí)的圖像識別技術(shù)與文本生成技術(shù)。
          圖像識別是計(jì)算機(jī)對圖像進(jìn)行處理、分析和理解,以識別各種不同模式的目標(biāo)或?qū)ο蟮募夹g(shù),簡單來說,圖像識別就是研究如何使計(jì)算機(jī)能夠像人一樣理解、識別以及讀懂圖片的主體內(nèi)容。
          識別的過程依次包括圖像預(yù)處理、圖像分割、特征提取以及判斷匹配。
          相關(guān)研究
          國內(nèi)外現(xiàn)如今圖像識別相關(guān)的研究技術(shù)發(fā)展基本成熟,國外相關(guān)工作有Facebook研發(fā)的DeepFace,可根據(jù)相片進(jìn)行人臉匹配;
          雅虎收購的圖像識別公司IQ Engine開發(fā)的Glow,可自動生成照片的標(biāo)簽以幫助用戶管理手機(jī)上的照片;
          國內(nèi)相關(guān)工作有VisionHacker游戲工作室的借助圖形識別技術(shù)研發(fā)移動端的體感游戲,由專注于圖像識別的創(chuàng)業(yè)公司曠視科技成立;
          百度魔圖的大咖配,可以幫助用戶找到與其長相最匹配的明星;
          百度的百度識圖,通過圖片搜索可以找到相似的圖片等等。
          文本生成是自然語言處理中一個重要的研究范疇,若能自動生成有意義的流暢的文本也意味著機(jī)器對文本從理解進(jìn)入到創(chuàng)作階段[6]。
          國內(nèi)外的相關(guān)工作也已如火如荼的進(jìn)行著。
          國外相關(guān)工作有2014Automated Insights科技公司的WordSmith技術(shù),其已經(jīng)在美聯(lián)社等機(jī)構(gòu)中投入使用,可利用機(jī)器高效率的自動生成文本,從而幫助美聯(lián)社報(bào)道大學(xué)橄欖球賽事、公司財(cái)報(bào)等新聞,Wordsmith為其客戶創(chuàng)造出了10多億篇文章和報(bào)道,其中包括美聯(lián)社、雅虎和康卡斯特等;
          再如美國領(lǐng)先的自然語言生成的企業(yè)級服務(wù)公司的Narrative Science工具,其可使FactSet客戶端能夠自動生成投資組合的評論,使得投資管理公司覆蓋的報(bào)告范圍成指數(shù)型增加,并且在季報(bào)發(fā)出的第一天就能夠自動生成點(diǎn)評報(bào)告,在產(chǎn)生內(nèi)容的同時(shí)也滿足合規(guī)要求。
          國內(nèi)的相關(guān)工作如2017年南方都市報(bào)社的寫稿機(jī)器人“小南”,其來自北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所,小南的首篇春運(yùn)報(bào)道作品共300余字,其在數(shù)據(jù)自動抓取完成后報(bào)道的生成只用了不到一秒的時(shí)間。
          MSCOCO
          Microsoft COCO數(shù)據(jù)集,已成為圖像字幕的標(biāo)準(zhǔn)測試平臺
          • 官網(wǎng)http://cocodataset.org/
          • 官網(wǎng)http://cocodataset.org/#download 下提供的代碼地址:
            https://github.com/cocodataset/cocoapi
          • 其中帶有coco的評估代碼,會隨著當(dāng)初安裝cocoapi時(shí)一同安裝。
            但此處的cocoeval只用于keypoint與instances,不能用于caption。
          MSCOCO除了提供了數(shù)據(jù)集之外,也提供了評測腳本:
          • 官網(wǎng)http://cocodataset.org/#captions-eval 下提供的代碼地址:https://github.com/tylin/coco-caption
          • 其中帶有coco專用于caption的評估代碼
          MSCOCO除了提供了caption的數(shù)據(jù)集之外,也提供了:
          • MS COCO數(shù)據(jù)集目標(biāo)檢測(Detection)
          • MS COCO數(shù)據(jù)集人體關(guān)鍵點(diǎn)(Keypoint)
          評價(jià)指標(biāo)
          eval{"BLEU_1"????:?float,??????????????#?(blue常用來測機(jī)翻)"BLEU_2"????:?float,"BLEU_3"????:?float,"BLEU_4"????:?float,"METEOR"????:?float,"ROUGE_L"???:?float,?????????????#??(常用來測文摘)"CIDEr"?????:?float,}


          作者:西柚媛

          輯:西柚媛


          推薦閱讀:

          何成功追到微軟小姐姐-葡萄媛

          我的秋招之路

          小媛的大廠面經(jīng)

          項(xiàng)目實(shí)戰(zhàn) | Python爬蟲概述與實(shí)踐(二)

          2020年騰訊、阿里、百度等大廠秋招薪資大曝光!

          十分鐘生成自己的疫情地圖,小白都能立刻上手!

          投稿、交流&合作 歡迎掃碼進(jìn)群

          記得備注?“昵稱-學(xué)校(公司)”呦~

          點(diǎn)點(diǎn)在看
          年薪百萬?


          瀏覽 122
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  羞羞插插无码 | 欧美色图性 | 男人在线天堂 | 亚洲黄色视频网站免费在线观看 | 亚洲va视频 |