聊聊多模態(tài)項(xiàng)目
多模態(tài)機(jī)器學(xué)習(xí),英文全稱 MultiModal Machine Learning (MMML),旨在通過機(jī)器學(xué)習(xí)的方法實(shí)現(xiàn)處理和理解多源模態(tài)信息的能力。
每一種信息的來源或者形式,都可以稱為一種模態(tài)。例如,人有觸覺,聽覺,視覺,嗅覺;信息有語(yǔ)音、視頻、文字等媒介;多種多樣的傳感器,如雷達(dá)、紅外、加速度計(jì)等。以上的每一種都可以稱為一種模態(tài)。
模態(tài)也可以有非常廣泛的定義,比如我們可以把兩種不同的語(yǔ)言當(dāng)做是兩種模態(tài),甚至在兩種不同情況下采集到的數(shù)據(jù)集,亦可認(rèn)為是兩種模態(tài)。
當(dāng)下,多模態(tài)技術(shù)有著相當(dāng)廣泛的應(yīng)用場(chǎng)景,如淘寶搜圖、AI字幕、AI虛擬數(shù)字人、仿人交互、智能助手、商品推薦和信息流廣告、視頻幀人臉幀的圖向量檢索、語(yǔ)音交互等等。
我們很榮幸邀請(qǐng)到了在職高級(jí)算法研究員Clark老師,利用1小時(shí)左右的時(shí)間,為大家系統(tǒng)地梳理多模態(tài)技術(shù)。
01 多模態(tài)模型的發(fā)展趨勢(shì)?
02 多模態(tài)數(shù)據(jù)集?
03 常見多模態(tài)下游任務(wù)

4月16日晚20:00-21:00
對(duì)多模態(tài)技術(shù)感興趣的同學(xué),掃下方二維碼,預(yù)約直播。
掃碼支付0.1元即預(yù)約成功
直播晚會(huì)有工作人員聯(lián)系你~
評(píng)論
圖片
表情
