<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Jina AI 聯(lián)合Datawhale,發(fā)起學(xué)習(xí)項(xiàng)目!

          共 2016字,需瀏覽 5分鐘

           ·

          2022-07-26 07:42

           Datawhale學(xué)習(xí) 
          貢獻(xiàn)方: Jina AI 、Datawhale,方向:視頻搜索

          視頻創(chuàng)作者通常需要從大量的素材中找到自己需要的片段來(lái)剪輯,可真是心累。作為 Up 主的王德福抓住這一需求和他的小伙伴 Arthur,使用 Jina 搭建起一個(gè)跨模態(tài)視頻搜索引擎,輕松實(shí)現(xiàn)輸入描述文本,即可得到對(duì)應(yīng)視頻片段。

          視頻地址:https://www.bilibili.com/video/BV1n3411u7tJ

          開(kāi)發(fā)背景

          作為一個(gè)前端程序員兼 Up 主,平時(shí)拍攝與搜集的素材庫(kù)實(shí)在太多,在視頻制作時(shí),想快速找出想要的視頻片段太費(fèi)勁了,那么有什么辦法能節(jié)省翻找素材的時(shí)間呢?

          • 通過(guò)給每段視頻素材打上標(biāo)簽?太繁瑣,并且太耗時(shí)。
          • 通過(guò)檢索字幕去查找出對(duì)應(yīng)的畫面?但只能是人物說(shuō)了那句話才行,沒(méi)有說(shuō)話的畫面就無(wú)法檢索,得到的結(jié)果太局限了。

          而我想要這個(gè)工具能夠?qū)崿F(xiàn):輸入對(duì)畫面的描述,就能得到視頻素材的片段。那么,如何利用 AI 來(lái)實(shí)現(xiàn)我的需求呢?既要理解自然語(yǔ)言,又要理解視頻內(nèi)容,聽(tīng)起來(lái)不像是簡(jiǎn)單的任務(wù)......

          技術(shù)選型

          我了解到 OpenAI 開(kāi)源的 CLIP 模型,它能夠完成圖像與文本的匹配任務(wù)。也就是說(shuō),我們可以通過(guò)利用 CLIP 模型實(shí)現(xiàn)用描述性的文本,而非關(guān)鍵詞搜索到圖像,而視頻又可以看作是一幀幀的圖像。

          因此,借助強(qiáng)大的 CLIP 模型,我可以實(shí)現(xiàn)一個(gè)基于語(yǔ)義的,而非基于關(guān)鍵詞的搜索引擎。不同于傳統(tǒng)的 ES 全文搜索,我不需要給每個(gè)視頻素材人為地打上標(biāo)簽,也不需要利用 OCR、正則去做匹配。只需通過(guò) AI 模型,優(yōu)雅地提取圖像和文本的特征向量,通過(guò)計(jì)算兩者的向量相似度,就能返回到我想要的結(jié)果,聽(tīng)起來(lái)相當(dāng)完美。

          初選方案

          一開(kāi)始,我嘗試用純 Python + CLIP 模型實(shí)現(xiàn)了初版方案。

          但當(dāng)時(shí)遇到了一些棘手的問(wèn)題,即向量無(wú)法存儲(chǔ)。由于沒(méi)有合適的數(shù)據(jù)存儲(chǔ)方式,做數(shù)據(jù)庫(kù)也需要一定開(kāi)發(fā)量,因此我每次都需要重新計(jì)算一遍向量,繁瑣、耗時(shí)又費(fèi)力。

          并且由于項(xiàng)目無(wú)法獨(dú)立部署,導(dǎo)致無(wú)法通過(guò)前端頁(yè)面來(lái)承載視頻片段搜索的能力。而這些都有太多開(kāi)發(fā)成本,對(duì)于一個(gè)我這樣的前端開(kāi)發(fā)者來(lái)說(shuō),將大部分精力都花費(fèi)在不熟悉的工作上,太得不償失了。

          最終方案

          因此我嘗試在開(kāi)源社區(qū)尋找合適的解決方案,發(fā)現(xiàn)了 Jina,作為一個(gè)專注于神經(jīng)網(wǎng)絡(luò)搜索的 AI 框架,正好提供了我原方案里所需的能力。于是,我轉(zhuǎn)變了思路,使用 Jina + CLIP 實(shí)現(xiàn)從文本到視頻片段的搜索系統(tǒng)。

          如果用純 Python 的方式表示一個(gè)視頻,需要自己建立一個(gè)哈希表,包括 embedding 、圖片的存儲(chǔ),結(jié)構(gòu)會(huì)很難看。

          但 Jina 里的 DocArray 能把這個(gè)存儲(chǔ)變得非常結(jié)構(gòu)化,不管有多少幀視頻,都可以在一個(gè) Document 里做封裝。而且可以有不同的層級(jí)結(jié)構(gòu),比方說(shuō)第一層用于存儲(chǔ)整體的視頻,第二層用于存儲(chǔ)視頻下不同的幀......切換不同的模態(tài)時(shí),也可以設(shè)置成頂層是一整段話,第二層是一個(gè)句子,第三層是一個(gè)單詞。不僅可以通過(guò)每個(gè)單詞進(jìn)行搜索,也可以通過(guò)每句話進(jìn)行搜索,這樣搜索顆粒度選擇就更多,搜索結(jié)果也會(huì)更加豐富。

          項(xiàng)目流程

          本項(xiàng)目的業(yè)務(wù)流程分為兩大部分:視頻的上傳和搜索。包括數(shù)據(jù)向量化、向量相似度比較、結(jié)果的召回三個(gè)主要流程。具體如下圖所示。

          首先上傳視頻,調(diào)用 Jina 的 Video Loader,對(duì)視頻抽幀,并將數(shù)據(jù)存儲(chǔ)到 DocArray 的塊里。在 Encode image 里生成向量,最后存儲(chǔ)到 DocArray 的 Index 。在搜索時(shí),在 Index 里會(huì)對(duì)向量的相似度進(jìn)行打分,最后依據(jù)分?jǐn)?shù)排序,得到返回的結(jié)果。

          在定義服務(wù)上,由于 Jina 的工程師已經(jīng)把邏輯都抽象出來(lái),所以開(kāi)發(fā)時(shí)只需要通過(guò)一套配置文件就能起整個(gè)服務(wù),只需要定義需要哪些模塊。就像搭積木一樣,把每一個(gè)模塊搭起來(lái),不用去考慮服務(wù)之間的連接和通信。只需要專注如何實(shí)現(xiàn)自己的業(yè)務(wù),不用操心架構(gòu)實(shí)現(xiàn)的事情。

          項(xiàng)目repo:https://github.com/ArthurKing01/jina-clip

          學(xué)習(xí)項(xiàng)目

          Datawhale 社區(qū)將聯(lián)合 Jina AI 社區(qū),結(jié)合本項(xiàng)目,打造多模態(tài)、跨模態(tài)應(yīng)用的系列學(xué)習(xí)課程。

          項(xiàng)目地址:
          https://github.com/datawhalechina/DOPMC/issues/67

          項(xiàng)目簡(jiǎn)介

          本項(xiàng)目希望通過(guò)AI以及向量搜索技術(shù)實(shí)現(xiàn)一個(gè)自動(dòng)剪輯視頻的應(yīng)用。最終應(yīng)用可以實(shí)現(xiàn)通過(guò)輸入文字描述來(lái)對(duì)視頻的片段進(jìn)行提取,達(dá)到提取素材的目的。

          立項(xiàng)理由

          目前社區(qū)的課程大部分以算法為主,希望通過(guò)該項(xiàng)目幫助學(xué)習(xí)者完成整個(gè)端到端的項(xiàng)目構(gòu)建過(guò)程,幫助學(xué)習(xí)者鍛煉實(shí)際工程能力

          項(xiàng)目亮點(diǎn)

          該項(xiàng)目主要有以下三點(diǎn)內(nèi)容較為創(chuàng)新:

          • 使用到了跨模態(tài)模型

          • 使用到了向量檢索技術(shù)

          • 搭建了端到端的項(xiàng)目完整構(gòu)建方案


          整理不易,點(diǎn)三連

          瀏覽 35
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  一级黄片在线 | 国产日产精品一区二区三区四区 | a一级欧美 | 成人无码不卡免费视频 | 国产综合在线视频 |