国产成人自拍操屄熟,学生妹妹做爱视频,人妻av中文字幕,大尺度在线,亚洲欧美suv精品8888日,欧美伦理一区二区三区,久久精品国产亚洲AV成人擦边 ,国产精品国产成人国产三级

本文小媛僅僅介紹了該任務(wù)的背景與相關(guān)研究

希望通過以下的簡單介紹

引起大家對“多模態(tài)/imagecaption”的學(xué)習(xí)興趣

圖像描述（ImageCaption）任務(wù)是多模態(tài)領(lǐng)域的一個經(jīng)典任務(wù)。

多模態(tài)

多模態(tài)機(jī)器學(xué)習(xí)，英文全稱 MultiModal Machine Learning (MMML)，旨在通過機(jī)器學(xué)習(xí)的方法實(shí)現(xiàn)處理和理解多源模態(tài)信息的能力。目前比較熱門的研究方向是圖像、視頻、音頻、語義之間的多模態(tài)學(xué)習(xí)。

多模態(tài)學(xué)習(xí)從1970年代起步，經(jīng)歷了幾個發(fā)展階段，在2010后全面步入Deep Learning階段。

人其實(shí)是一個多模態(tài)學(xué)習(xí)的總和，所以也有”磚家“說了，多模態(tài)學(xué)習(xí)才是真正的人工智能發(fā)展方向。

Image Caption

Image Caption，就是從圖片中自動生成一段描述性文字，有點(diǎn)類似于我們小時(shí)候做過的“看圖說話”，十分有趣。

對于人來說，Image Caption是簡單而自然的一件事，但對于機(jī)器來說，這項(xiàng)任務(wù)卻充滿了挑戰(zhàn)性。

原因在于機(jī)器不僅要能檢測出圖像中的物體，而且要理解物體之間的相互關(guān)系，最后還要用合理的語言表達(dá)出來。

從上面一段文字中，相信大家已經(jīng)了解該任務(wù)的輸入（文本）和輸出（文字）。為了更好的理解，我們先來看幾個例子。

例子

這是小媛翻出的本科畢設(shè)的陳年舊圖

經(jīng)過大批量數(shù)據(jù)（如MSCOCO數(shù)據(jù)集）的訓(xùn)練，一個訓(xùn)練良好的模型可以做到如上圖一般準(zhǔn)確的圖片描述。

如，可以準(zhǔn)確描述出長頸鹿不僅在森林里，也在一棵樹的旁邊，即使那棵樹在圖片中僅僅漏出了一半。

背景

近年來，隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)研究的不斷深入，圖像處理、圖片識別、自然語言處理、文本生成等技術(shù)發(fā)展迅猛，已然成為近些年的研究熱點(diǎn)。

在自然語言處理（Natural Language Processing，NLP）領(lǐng)域內(nèi)，文本生成可謂是最困難的學(xué)習(xí)任務(wù)，而在圖像領(lǐng)域，圖片分類和圖片定位也早早的被人們所熟知，進(jìn)入廣大機(jī)器學(xué)習(xí)研究者的視野。

圖片分類是常見的CV領(lǐng)域的任務(wù)，其給定一張圖片，讓計(jì)算機(jī)將此圖片分類到已經(jīng)劃定好的正確的類別中，例如貓或狗；而圖片定位除了告訴人們一張圖片可劃分的所屬類別，還會用一個矩形框把相關(guān)的位置標(biāo)識出來，例如哪個位置是貓，而哪個位置是桌子；當(dāng)然還有要求更高的圖像分割（Image Segmentation），告訴人們哪些像素屬于實(shí)體（例如人、貓狗等），而另外哪些像素則屬于背景，使用像素代替了簡單的使用矩形框。

但人們認(rèn)為電腦可以從圖像中得到的信息遠(yuǎn)不止于此，人們希望電腦可以學(xué)到類似于人類的描述圖像的語言，于是圖像描述任務(wù)應(yīng)運(yùn)而生^[2]。

圖片識別與文本生成正是立足于機(jī)器學(xué)習(xí)的兩個不同領(lǐng)域，而將兩者結(jié)合起來，便是當(dāng)今的圖片描述任務(wù)。

現(xiàn)在許多image caption?的研究內(nèi)容也在如火如荼的進(jìn)行。在中高考語文卷英語卷中，也都或多或少存在著看圖寫作等相關(guān)題目。同時(shí)，圖片認(rèn)知與描述是人類的創(chuàng)作性活動，如果機(jī)器能完成這一任務(wù)，能夠理解圖片含義并盡量準(zhǔn)確的生成圖片中心句，那將是人工智能的一次很大進(jìn)步。

與圖片分類任務(wù)相比，圖片描述任務(wù)最主要的特點(diǎn)是直接為用戶返回其所需的人類語言所描述的圖片信息，而不是簡單的圖片內(nèi)容分類，而且其可以用當(dāng)下流行的機(jī)器學(xué)習(xí)與深度學(xué)習(xí)技術(shù)深層次的理解圖片主體之間的關(guān)系。

顯然，相比圖片分類而言，圖片描述任務(wù)可以更好的滿足用戶對圖片完整內(nèi)容的獲取需求^[3]。

相關(guān)技術(shù)

圖片描述任務(wù)的技術(shù)核心是計(jì)算機(jī)視覺（Computer Vision，CV）技術(shù)與自然語言處理技術(shù)。

自然語言處理（Natural Language Processing，NLP）是一門研究如何讓計(jì)算機(jī)理解并運(yùn)用自然語言的技術(shù)。近年來，自然語言處理技術(shù)成為計(jì)算機(jī)科學(xué)與信息技術(shù)研究的熱點(diǎn)之一，其主要應(yīng)用在人工智能領(lǐng)域。

圖片描述任務(wù)是深度學(xué)習(xí)中領(lǐng)域間融合發(fā)展的重要表現(xiàn)形式。Image Caption任務(wù)可以準(zhǔn)確理解圖片信息，提取圖片特征（包括全局特征以及局部區(qū)域特征），并做到向用戶返回準(zhǔn)確、簡潔的自然語言答案，從而滿足用戶對快速準(zhǔn)確獲取信息的需求，是理解圖片的一種高級形式。

圖片描述任務(wù)是深度學(xué)習(xí)中圖像識別和自然語言處理領(lǐng)域間融合的一個前景廣泛的研究方向。

圖像描述問題（image caption）的發(fā)展歷史相對其他深度學(xué)習(xí)任務(wù)來說并不算太久遠(yuǎn)。

CVPR（IEEE Conference on Computer Vision and Pattern Recognition，IEEE國際計(jì)算機(jī)視覺與模式識別會議）上關(guān)于描述生成的論文皆發(fā)表于近六年左右，MSCOCO也是在2015年才推出關(guān)于image caption的比賽。

圖片描述任務(wù)的技術(shù)核心是基于深度學(xué)習(xí)的圖像識別技術(shù)與文本生成技術(shù)。

圖像識別是計(jì)算機(jī)對圖像進(jìn)行處理、分析和理解，以識別各種不同模式的目標(biāo)或?qū)ο蟮募夹g(shù)，簡單來說，圖像識別就是研究如何使計(jì)算機(jī)能夠像人一樣理解、識別以及讀懂圖片的主體內(nèi)容。

識別的過程依次包括圖像預(yù)處理、圖像分割、特征提取以及判斷匹配。

相關(guān)研究

國內(nèi)外現(xiàn)如今圖像識別相關(guān)的研究技術(shù)發(fā)展基本成熟，國外相關(guān)工作有Facebook研發(fā)的DeepFace，可根據(jù)相片進(jìn)行人臉匹配；

雅虎收購的圖像識別公司IQ Engine開發(fā)的Glow，可自動生成照片的標(biāo)簽以幫助用戶管理手機(jī)上的照片；

國內(nèi)相關(guān)工作有VisionHacker游戲工作室的借助圖形識別技術(shù)研發(fā)移動端的體感游戲，由專注于圖像識別的創(chuàng)業(yè)公司曠視科技成立；

百度魔圖的“大咖配”，可以幫助用戶找到與其長相最匹配的明星；

百度的百度識圖，通過圖片搜索可以找到相似的圖片等等。

文本生成是自然語言處理中一個重要的研究范疇，若能自動生成有意義的流暢的文本也意味著機(jī)器對文本從理解進(jìn)入到創(chuàng)作階段^[6]。

國內(nèi)外的相關(guān)工作也已如火如荼的進(jìn)行著。

國外相關(guān)工作有2014年Automated Insights科技公司的WordSmith技術(shù)，其已經(jīng)在美聯(lián)社等機(jī)構(gòu)中投入使用，可利用機(jī)器高效率的自動生成文本，從而幫助美聯(lián)社報(bào)道大學(xué)橄欖球賽事、公司財(cái)報(bào)等新聞，Wordsmith為其客戶創(chuàng)造出了10多億篇文章和報(bào)道，其中包括美聯(lián)社、雅虎和康卡斯特等；

再如美國領(lǐng)先的自然語言生成的企業(yè)級服務(wù)公司的Narrative Science工具，其可使FactSet客戶端能夠自動生成投資組合的評論，使得投資管理公司覆蓋的報(bào)告范圍成指數(shù)型增加，并且在季報(bào)發(fā)出的第一天就能夠自動生成點(diǎn)評報(bào)告，在產(chǎn)生內(nèi)容的同時(shí)也滿足合規(guī)要求。

國內(nèi)的相關(guān)工作如2017年南方都市報(bào)社的寫稿機(jī)器人“小南”，其來自北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所，小南的首篇春運(yùn)報(bào)道作品共300余字，其在數(shù)據(jù)自動抓取完成后報(bào)道的生成只用了不到一秒的時(shí)間。

MSCOCO

Microsoft COCO數(shù)據(jù)集，已成為圖像字幕的標(biāo)準(zhǔn)測試平臺

官網(wǎng)http://cocodataset.org/
官網(wǎng)http://cocodataset.org/#download 下提供的代碼地址：
https://github.com/cocodataset/cocoapi
其中帶有coco的評估代碼，會隨著當(dāng)初安裝cocoapi時(shí)一同安裝。
但此處的cocoeval只用于keypoint與instances，不能用于caption。

MSCOCO除了提供了數(shù)據(jù)集之外，也提供了評測腳本：

官網(wǎng)http://cocodataset.org/#captions-eval 下提供的代碼地址：https://github.com/tylin/coco-caption
其中帶有coco專用于caption的評估代碼

MSCOCO除了提供了caption的數(shù)據(jù)集之外，也提供了：

MS COCO數(shù)據(jù)集目標(biāo)檢測(Detection)
MS COCO數(shù)據(jù)集人體關(guān)鍵點(diǎn)(Keypoint)

評價(jià)指標(biāo)

eval{"BLEU_1"????:?float,??????????????#?（blue常用來測機(jī)翻）"BLEU_2"????:?float,"BLEU_3"????:?float,"BLEU_4"????:?float,"METEOR"????:?float,"ROUGE_L"???:?float,?????????????#??（常用來測文摘）"CIDEr"?????:?float,}

作者：西柚媛

編輯：西柚媛

推薦閱讀：

如何成功追到微軟小姐姐-葡萄媛

我的秋招之路

小媛的大廠面經(jīng)

項(xiàng)目實(shí)戰(zhàn) | Python爬蟲概述與實(shí)踐（二）

2020年騰訊、阿里、百度等大廠秋招薪資大曝光！

十分鐘生成自己的疫情地圖，小白都能立刻上手！

投稿、交流&合作歡迎掃碼進(jìn)群

記得備注?“昵稱-學(xué)校(公司)”呦~

點(diǎn)點(diǎn)在看

年薪百萬?

圖像描述（ImageCaption）任務(wù)簡析