<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          信息流場景中的計算機(jī)視覺技術(shù)應(yīng)用

          共 3565字,需瀏覽 8分鐘

           ·

          2021-07-07 00:35

          點擊左上方藍(lán)字關(guān)注我們



          全網(wǎng)搜集目標(biāo)檢測相關(guān),人工篩選最優(yōu)價值內(nèi)容

          編者薦語
          無論從用戶時長,還是商業(yè)變現(xiàn)模式上來講,信息流都有很大的優(yōu)勢;另外,信息流作為第三代的用戶獲取信息的渠道(第一代:門戶,第二代:搜索,第三代:信息流推薦),也有現(xiàn)實的用戶需求。

          作者 | 李習(xí)華

          鏈接 | https://zhuanlan.zhihu.com/p/54148166


          從今日頭條開始,各家公司把戰(zhàn)火從傳統(tǒng)的搜索領(lǐng)域燒到了信息流領(lǐng)域。今年,百度在基于手百的信息流上超過頭條;騰訊的QQ瀏覽器、QQ看點、新聞、快報、微信看一看組合在一起的信息流也有足夠大的體量;同時,各手機(jī)廠商,也借助端設(shè)備及設(shè)備原生瀏覽器app開始大舉進(jìn)入信息流領(lǐng)域。

          無論從用戶時長,還是商業(yè)變現(xiàn)模式上來講,信息流都有很大的優(yōu)勢;另外,信息流作為第三代的用戶獲取信息的渠道(第一代:門戶,第二代:搜索,第三代:信息流推薦),也有現(xiàn)實的用戶需求。因此成為各個信息流app競爭的戰(zhàn)場,并且在可預(yù)見的將來,這個領(lǐng)域的競爭會更加激烈,遠(yuǎn)沒有到寡頭形成的情況。當(dāng)然,未來用戶獲取信息的渠道、內(nèi)容都會具有多樣性,各app也都會有各自的生存空間,諸侯割據(jù)。

          言歸正傳,我們來討論信息流領(lǐng)域的計算機(jī)視覺技術(shù)。信息流屬于內(nèi)容領(lǐng)域,因此在內(nèi)容領(lǐng)域的各個環(huán)節(jié)都涉及到計算機(jī)視覺技術(shù),包括:內(nèi)容生成、內(nèi)容審核、內(nèi)容理解、內(nèi)容分發(fā)4個主要的環(huán)節(jié)。整體流程如下圖:



          本質(zhì)上,內(nèi)容審核和內(nèi)容分發(fā)甚至是內(nèi)容生成都涉及到或者說都是基于對于圖像和視頻不同粒度、不同層次的理解。這里把每個部分分開更多的是方便后續(xù)對信息流中圖像、視頻內(nèi)容整體的流向進(jìn)行說明。涉及計算機(jī)視覺技術(shù)的對象一定包含圖像或者視頻,我們來看幾個典型的信息流的截圖:




          從圖中可以看到,涉及計算機(jī)視覺技術(shù)的主體包含:

          圖文廣告中的圖片、動態(tài)jf圖

          Feeds展示頁中的圖片

          Feeds詳情頁中的圖片

          Feeds展示頁中的視頻首圖

          Feeds內(nèi)容頁中的視頻

          事實上,feeds中涉及到的一切和圖片和視頻相關(guān)的內(nèi)容都是本文中涉及的對象。甚至包括廣告中涉及到的圖片、jf圖、視頻等。我們通過下面的圖片來了解一下用戶通過APP瀏覽到的feeds都經(jīng)過了什么樣的大致流程。




          下面對每一塊對計算機(jī)視覺技術(shù)的需求做一些梳理。

          內(nèi)容生成

          在上圖中提到了圖文、視頻內(nèi)容的生成源頭,實際上不同的源頭對計算機(jī)視覺技術(shù)的需求專業(yè)度、層次也不一樣。有些技術(shù)由APP方提供,有些技術(shù)有第三方的工具提供。UGC、PGC、OGC對應(yīng)不同的內(nèi)容生產(chǎn)渠道,我們簡單的介紹一下。




          UGC:用戶自己生產(chǎn)內(nèi)容自己消費。

          PGC:專業(yè)生產(chǎn)內(nèi)容。比如我們在短視頻中經(jīng)常看到的電視劇的經(jīng)典片段,多數(shù)是PGC生產(chǎn)的。

          OGC:品牌生產(chǎn)內(nèi)容,是指有一定知識和專業(yè)背景的行業(yè)人士生產(chǎn)內(nèi)容,并且這些人士會采取相應(yīng)的報酬。如平臺媒體的記者、編輯,既有新聞的專業(yè)背景,也有以寫稿為職業(yè)領(lǐng)取報酬。

          針對UGC,用戶自己產(chǎn)生的內(nèi)容,我們說對應(yīng)的計算機(jī)視覺的需求非常多。比如我們平時使用的美圖、裁剪、磨皮、各種濾鏡;用戶UGC的短視頻中的各種特效背后都是計算機(jī)視覺算法;還有一些場景,比如大疆無人機(jī)的video生成技術(shù),實際上是對一段長度在5-10分鐘的航拍視頻進(jìn)行video summary,當(dāng)然這其中也有挑選好的場景、挑選好的畫質(zhì)等等技術(shù)。

          針對PGC和OGC,有很多共性的需求。非常多的用于圖像、視頻處理的編輯的專業(yè)軟件背后都是強大的計算機(jī)視覺技術(shù),甚至包括動畫、特效等等背后的技術(shù)。有一些技術(shù)需求,很隱性,舉個例子:現(xiàn)在有一段西游記的視頻,希望能夠快速剪輯孫悟空的視頻片段,這其中這涉及到通過圖片、音頻對孫悟空的識別技術(shù)來提升剪輯效率。

          針對OGC,最近發(fā)現(xiàn)抖音上有一些視頻技術(shù)是對視頻片段中的目標(biāo)(logo、食品等)進(jìn)行識別,然后替換成具有商業(yè)價值的廣告的技術(shù)。這背后都是計算機(jī)視覺技術(shù)在做支撐。

          在內(nèi)容生成領(lǐng)域,我們將應(yīng)用到的計算機(jī)視覺技術(shù)概括如下:



          內(nèi)容審核

          內(nèi)容審核對各個公司都非常重要,從互聯(lián)網(wǎng)誕生的那一天起,就存在內(nèi)容審核。早期基本上都是人工,目前大致是人工+機(jī)器共同來完成整體的審核任務(wù)。早期的內(nèi)容審核主要是鑒黃,現(xiàn)在內(nèi)容審核擴(kuò)展到了對圖片和視頻的鑒黃、暴恐識別、敏感人物識別、反感內(nèi)容識別、廣告識別、廣告文本識別、違法宣傳、二維碼等非常多的維度。

          本質(zhì)上,內(nèi)容審核是對圖片、視頻內(nèi)容的理解,并根據(jù)法規(guī)、以及讓互聯(lián)網(wǎng)更健康為基本原則對不符合要求的圖片、視頻內(nèi)容進(jìn)過濾和分級。關(guān)于內(nèi)容審核,總結(jié)起來,包含下圖中的技術(shù)和業(yè)務(wù)。




          內(nèi)容理解

          內(nèi)容理解實際上是在對圖文feeds,短視頻進(jìn)行結(jié)構(gòu)化。目的是為了更好的做存儲,篩選,過濾,召回,以及最后的內(nèi)容分發(fā)。對人而言,內(nèi)容理解實際上是一個非常高級的思維活動,比如一張圖片,有些人關(guān)注構(gòu)圖,有些人關(guān)注清晰度,有些人關(guān)注圖片里面的明星是誰,有些人則關(guān)注背景當(dāng)中的車的品牌,毫不夸張,一千個讀者有一千個哈姆雷特。

          那對于機(jī)器而言,基于現(xiàn)有的計算機(jī)視覺技術(shù),機(jī)器能做的其實比較有限,在這里,我們列舉一下通過計算機(jī)視覺技術(shù)對圖像、視頻進(jìn)行理解的大致技術(shù)。

          1. 圖片+視頻的單標(biāo)簽、多標(biāo)簽、caption技術(shù):這個也是目前工業(yè)界大家都在、都會、都力爭做好的技術(shù);

          2. 圖片+視頻中的粗粒度、細(xì)粒度物體識別技術(shù):目的是為了識別到圖片+視頻中更多的物體的細(xì)節(jié);比如識別到圖片中有汽車,更需要知道汽車的車型、顏色、品牌的信息;如果識別到人,更需要知道這個人的年齡段、穿什么樣的衣服,如果可能,知道這個人是誰;

          3. 圖片+視頻場景識別技術(shù):很多時候,場景和標(biāo)簽可以合并;

          4. 結(jié)合視頻語音的內(nèi)容理解技術(shù),多模態(tài)識別技術(shù);

          5. 通過相似圖片、視頻檢索獲得對應(yīng)圖片、視頻語義理解的圖像搜索技術(shù);

          這個領(lǐng)域基本上涵蓋了計算機(jī)視覺的方方面面,也是當(dāng)前計算機(jī)視覺在力爭解決的問題。總結(jié)起來,可以將對應(yīng)的技術(shù)和需求概括如下:



          內(nèi)容分發(fā)

          我們簡單介紹一下類似頭條、手百、抖音、QQ瀏覽器等產(chǎn)品進(jìn)行內(nèi)容分發(fā)的目的。本至少,會有多個目標(biāo),但不同階段會有不同的側(cè)重。某些情況,希望得到更多的用戶時長;某些情況,希望能夠獲得更多的用戶點擊、關(guān)注、轉(zhuǎn)發(fā);有些情況,希望能夠獲得更多的商業(yè)回報。

          分發(fā)技術(shù)是為了把用戶可能興趣的內(nèi)容推薦給用戶。所以涉及到方方面面,包括用戶畫像、用戶的歷史行為、用戶當(dāng)前處的環(huán)境,一個典型的feeds流推薦系統(tǒng)大致如下(示意圖):




          所以計算機(jī)視覺技術(shù)在分發(fā)中的應(yīng)用主要是通過對圖片、視頻的理解,再結(jié)合文本內(nèi)容,形成內(nèi)容向量。早期,內(nèi)容向量中視覺相關(guān)部分由圖片、視頻的標(biāo)簽組成;目前,內(nèi)容向量中視覺相關(guān)部分通過深度網(wǎng)絡(luò)學(xué)習(xí)到的特征向量的Embedding獲得。

          這里,我提到了內(nèi)容向量中視覺相關(guān)部分。其他的內(nèi)容向量由文本標(biāo)題、描述、以及對應(yīng)視頻上的用戶行為(點贊、轉(zhuǎn)發(fā)、評論等)等形成。

          最后,總結(jié)一下,我們從4個部分分別簡述了feeds流中計算機(jī)視覺技術(shù)的應(yīng)用場景,實際上我們發(fā)現(xiàn),他涵蓋了幾乎計算機(jī)視覺領(lǐng)域的所以研究熱點。也包含了計算機(jī)視覺領(lǐng)域從低、中、高多個層次對圖片、視頻內(nèi)容的理解。但看似簡單的技術(shù)背后,要滿足實際的應(yīng)用場景的要求,也有非常多的難點需要處理,將這些難點總結(jié)如下:

          1. 互聯(lián)網(wǎng)足夠豐富的素材內(nèi)容將每一個問題都變成寬domain的問題。舉個例子,OCR識別,規(guī)范化、常見字體的OCR識別目前已經(jīng)做得足夠好了,但是通過藝術(shù)字體和美術(shù)設(shè)計的OCR識別依舊很困難;甚至在廣告審核中,作弊者會嘗試非常多種的文字排版、設(shè)計方式,來欺騙AI系統(tǒng),增加困難度;

          2. 少有的客觀評價。圖片、視頻計算機(jī)視覺技術(shù)中,有部分不存在客觀的評價。比如圖片的美學(xué)評分,有人認(rèn)為清晰的圖片評分高,但有些藝術(shù)、攝影圖片會故意制造模糊。比如video summary,本身也沒有客觀的標(biāo)注,或者說有客觀標(biāo)準(zhǔn)的summary就不是藝術(shù),每一個做剪輯的工作者對同一段視頻剪輯出來的精彩片段是不同的;

          3. 業(yè)務(wù)變化、需求變化:實際上這是所有學(xué)術(shù)成果轉(zhuǎn)化到實際工業(yè)場景必須面臨的問題。學(xué)術(shù)界一般都假設(shè)研究課題被well define,大家在同樣的標(biāo)準(zhǔn)下來評比。但對于實際業(yè)務(wù),需求、業(yè)務(wù)形態(tài)、技術(shù)的使用方式都變化很快,需要有良好的業(yè)務(wù)意識來調(diào)優(yōu);

          4. 如何證明業(yè)務(wù)價值:老大難的問題,因素很多...本質(zhì)上,是分蛋糕的問題。


          END



          雙一流大學(xué)研究生團(tuán)隊創(chuàng)建,專注于目標(biāo)檢測與深度學(xué)習(xí),希望可以將分享變成一種習(xí)慣!

          整理不易,點贊三連↓

          瀏覽 81
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产免费黄色电影在线观看 | 国内精品视频免费观看 | 日本成人性爱视频网站 | 久久久久国产精品爆乳 | 青娱乐亚洲精品视频 |