
“1.0階段類似輔助駕駛,2.0階段是自動駕駛,3.0 AI Agent是SaaS走向無人機時代。”
編者按:2023 年 8月14日,第七屆GAIR全球人工智能與機器人大會在新加坡烏節(jié)大酒店正式開幕。論壇由GAIR研究院、雷峰網(wǎng)、世界科技出版社、科特勒咨詢集團聯(lián)合主辦。
大會共開設10個主題論壇,聚焦大模型時代下的AIGC、Infra、生命科學、教育,SaaS、web3、跨境電商等領域的變革創(chuàng)新。此次大會是在大模型技術(shù)爆炸時代,首個出海的AI頂級論壇,也是中國人工智能影響力的一次跨境溢出。
最后一場名為“從GPT爆炸中誕生的超級SaaS”的專場上,前阿里智能設計實驗室負責人、阿里魯班創(chuàng)始人、特看科技CEO樂乘以《大模型×SaaS的分析與實踐》為主題發(fā)表了大會報告。
回顧過去,樂乘表示自己因做魯班才正式進入AI圈,后續(xù)一直在阿里做電商與AI內(nèi)容生產(chǎn)相關的事,直至去年轉(zhuǎn)變身份開啟創(chuàng)業(yè)新征程。
如何把握AIGC時代里的新機會,樂乘認為大中小模型各有價值和能力,但對tob的SaaS來說,未來的機會更多集中在中小模型層面,其中代碼、文本、圖片和視頻直播幾個板塊已經(jīng)有不錯的實踐。大模型能在短時間內(nèi)快速生成子模型,占據(jù)“多”和“快”的優(yōu)勢,也意味著高成本和長期投入,因此SaaS創(chuàng)業(yè)公司的機會在于聚焦一個品類、場景和行業(yè)的應用點,解決“好”和“省“的問題。
在他看來,AI模型和SaaS結(jié)合有三個階段。1.0階段是在SaaS的基礎上加上AI能力,AI作為輔助工具,附加商業(yè)價值。去年年底ChatGPT的出現(xiàn)將大模型推入2.0階段,AI視頻自動生成系統(tǒng)等AI原生SaaS就此誕生。階段AI和SaaS是乘法關系,失去AI能力,系統(tǒng)將就此失效。樂乘的構(gòu)想中,3.0階段是AI agent SaaS,即把智能體當成服務本身,AI可以自行完成閉環(huán)的業(yè)務問題。“真正走到這一步的時候,可能是對行業(yè)又一次顛覆性的改變”。
以下為樂乘的現(xiàn)場演講內(nèi)容,雷峰網(wǎng)作了不改變原意的編輯及整理:
樂乘:大家下午好,我是樂乘,很高興今天來這邊給大家做分享。上一場好幾個嘉賓提到杭州電商工具服務商特別多,剛好我也是杭州過來的,和大家分享下杭州卷到了什么程度哈哈。我今天分享主題是《大模型×SaaS的分析與實踐》,內(nèi)容完全基于我們公司在該命題下做的一些思考和具體實踐。
我2009年去淘寶,在淘寶干了13年,去年才出來創(chuàng)業(yè),一直在做電商和AI內(nèi)容生成有關的一些事情。以前大家也聽說過魯班系統(tǒng),2016年的時候還沒有 AIGC 這一說,但我們已經(jīng)用 AI 來生成圖片做投放,也是因為做魯班,我才算正式進入了AI圈子,這幾年也一直關注AI的發(fā)展。
去年年底大模型出來以后,大家全蒙了,一方面感覺它是無所不能的,好像所有SaaS公司都要完蛋了,但過了一個季度之后又發(fā)現(xiàn)很多事情它好像也干不好。我們認為大模型創(chuàng)業(yè)機會和挑戰(zhàn)這個問題本質(zhì)上還是要回到每層模型的價值和能力去討論。
我們認為最底下這層大模型是解決通用產(chǎn)品問題,典型的像ChatGPT以及其他通用產(chǎn)品,它就像一個名校的本科生,有很強的通識和邏輯能力,但他剛畢業(yè)來你公司,你想讓他做一些專業(yè)領域的事情,他干不好。中間這層模型的機會在于我們可以把它培養(yǎng)成一個業(yè)務專員,它在專業(yè)的領域里去做深,像金融領域的BloombergGPT,能在行業(yè)里面產(chǎn)生一個價值。但未來可能更多的一些機會在最上面一層的小模型,它主要解決的是個性化產(chǎn)品問題,像某個領域里的專家,并在領域里建立起私有的數(shù)據(jù)閉環(huán)后,它能做得比通用模式做更好。從模型分層角度可以定位我們到底在哪里,比如特看a科技,我們就是做SaaS做應用層,所以我們很多工作會在中間和上面兩層去做。
再把應用場景切到AIGC內(nèi)容領域,我們把它分成了代碼、文本、圖片和視頻直播這幾個象限,這就大概能看出創(chuàng)業(yè)的機會和未來空間在哪里。
我們公司選擇的方向是最后一個視頻直播賽道。我們會用大模型底座的一些能力去做視頻直播,但重點在行業(yè)和個性化模型這兩層去投入。比如說我們用 GPT 來做視頻寫腳本,首先我們會先按電商、廣告、游戲行業(yè)劃分,建立一層中間模型,再往上面可能就會具體到某個品牌客戶,像我們與寶潔的合作,寶潔就很明確提出要特有的差異化的模型,說明市場對個性化模型需求是存在的。定好位,確定好賽道,再在行業(yè)里去細分,類目就比較多了。其他賽道也有很多類似的機會。
我們認為從大模型到最后客戶商業(yè)價值這一端,中間會經(jīng)過一次擴散收斂的過程。大模型擅長的是“多”和“快”,在很快的時間內(nèi)生成很多東西,但它在 ToB 領域不見得是好的,因為(大模型)也意味著高成本和長期投入。創(chuàng)業(yè)公司的機會就在于在“多”和“快”的基礎上,收斂到一個聚焦的品類、場景和行業(yè)的應用點里面,解決好”和“省”的問題,這也有很多商業(yè)機會。
以上是我們對模型分層的判斷,后面具體講一下大模型和 SaaS 結(jié)合的分析和實踐。
我的觀點是把它分成三個階段,1.0階段是在 SaaS 的基礎上加上 AI 能力,最好理解也最容易做到。2.0階段是做 AI Native SaaS,完全基于 AI 的思路來構(gòu)建原生的SaaS。3.0階段是 AI Agent SaaS,即把智能體當成服務本身。
1.0階段最好理解,你本身已經(jīng)有很成熟的SaaS客戶群體了,當你在業(yè)務應用里加上大模型,加上行業(yè)模型,效率和產(chǎn)品的商業(yè)價值都更高了,但如果把加的東西拿掉,業(yè)務應用照樣跑,AI只是作為輔助創(chuàng)作。我們已經(jīng)有一個相對成熟的數(shù)字人直播軟件。(案例展示)
我們的優(yōu)勢在于主播的口型生成、表情的自然度、肢體動作的流暢度,包括它可以像真人主播一樣刷手機,拿個牌子在旁邊聊天,無限還原真實直播間主播的狀態(tài),較之前那種只能動嘴,脖子都不能動的主播,已經(jīng)迭代了好幾代了。這就是目前國內(nèi)數(shù)字人的發(fā)展程度。
另一個案例是我們提供給寶潔的數(shù)字人直播軟件,加上GPT后,用大模型幫客戶輔助生成直播話術(shù)語,否則一場直播下來兩個多小時的內(nèi)容,靠人寫成本很高。(案例展示)
現(xiàn)在寶潔直播間白天真人播,晚上數(shù)字人播,整個賬號的穩(wěn)定性和成交效果都超出了預期。類似應用在國內(nèi)電商帶貨領域已經(jīng)比較規(guī)模化。
還有一個實驗是我們把類似大模型的對話引擎做成原神游戲里npc的樣子,放在抖音上實時與用戶聊天互動。這個玩法在抖音里比較受歡迎,有原神游戲的用戶對這個角色有認知、有感情,曾一度聊了4個小時,還給了打賞。
我們現(xiàn)在已經(jīng)進入第二個階段,做AI原生的SaaS。這個時候AI模型和SaaS不再是加法而是乘法。一旦大模型沒用,業(yè)務跑不起來,這是兩個階段最大的差別。
特看科技做了一個 AI 生成視頻的系統(tǒng),細分可以分為腳本生成、畫面生成、聲音生成和組裝編輯四個層面,對應視頻的三個維度和故事線。
以前腳本只能手寫,現(xiàn)在AI系統(tǒng)可以把一些爆款和廣告視頻拆完后,微調(diào)翻新形成自己的腳本模型。只要在大模型的基礎上,加上電商廣告特定領域的行業(yè)小模型,腳本模型就可以自己跑。
畫面生成也是一樣的道理。現(xiàn)階段圖片生成技術(shù)已經(jīng)相對成熟,我們認為未來視頻的畫面生成也可以靠大模型實現(xiàn)。另外我們?yōu)槭裁醋鰯?shù)字人?因為在所有視頻里,占比超過30%的內(nèi)容都是人在講話,數(shù)字人可以去生成有人的畫面內(nèi)容。畫面生產(chǎn)如果不是大模型突破,基本上做不了,所以是典型的靠AI原生的一個應用。
聲音生成,在大模型進來后,TTS效果也好了很多。視頻組裝編輯這塊,也需要用到多模態(tài)大模型才能做,因為視頻它本質(zhì)上是文字+語義+畫面理解+連續(xù)的故事線的多維組織問題,多模態(tài)的應用作為基座非常重要的。我們目前就是基于這四個層面研發(fā)我們的AI視頻系統(tǒng)。
客戶向我們表達需求,或者選擇一個參考視頻案例,我們給客戶生成結(jié)構(gòu)化的腳本,腳本是結(jié)構(gòu)化的有語義標簽的一套協(xié)議,比如分鏡一是一個人在講文化,分鏡二是產(chǎn)品展示,分鏡三又是講其他什么,類似給一條視頻打碼,再加上客戶給的一些產(chǎn)品視頻,或者我們生成的圖片素材,以及數(shù)字人,就可以以腳本為依據(jù)去,一鍵組裝出一條視頻來。(播放樣片)
這條視頻里面,除了產(chǎn)品素材是客戶給的,其他都是 AI 生成的,也是真正意義上AI原生的應用內(nèi)容。當把這里每個環(huán)節(jié)的大模型都拿掉,我們就又回到傳統(tǒng)的剪映那種視頻編輯體系中去,這些就做不了了。我們把這定義為AI 原生SaaS。(真實交付案例展示:Anker出海廣告視頻)
我們的腳本來自過往平臺里已經(jīng)爆了的爆款視頻,微調(diào)之后生成我們自己的語料庫,它爆款概率和人有優(yōu)勢,我們跑下來的情況大概是客戶用10條我們生成的case去投,跑爆的概率有兩到三條,跑爆率相當于一個資深的運營,但系統(tǒng)的反應速更快,比如我們改個腳本,改個臺詞,可以馬上生成新的進行更新,不需要再找人重拍重剪,整個反饋效率很高。
在2.0階段,我們有幾個觀點。第一,像ChatGPT、 Stable Diffusion都是從論文標題里直接拿出來運營做產(chǎn)品的,早期階段發(fā)生的一個現(xiàn)象就是直接技術(shù)產(chǎn)品化。比如說我們現(xiàn)在已經(jīng)不關心直流電還是交流電了是吧,早期會看,現(xiàn)在甚至連電怎么都不關心了。所以我們判斷到了 2. 0 AI Native階段,大家不再關心你是 GPT 還是什么大模型,你就是一個能夠解決問題的新技術(shù),因此這個階段不會再出現(xiàn)GPT這樣的名字,而是像 Runway這種典型的品牌名,產(chǎn)品品牌化。
其次,我們認為以后一個 SaaS 的用模量越高,產(chǎn)品越值錢,也越能收到錢。我們內(nèi)部很關心一個詞,叫“用模量”,就大模型的使用量。一個系統(tǒng)整體的技術(shù)成本里,有多少錢投在了大模型,多少錢投在了傳統(tǒng)工程,多少錢投在了產(chǎn)品推廣應用?用模量決定了產(chǎn)品的厚度,即移除大模型之后應用的可用程度。當然也有另一個層面的考量,萬一以后大模型掛掉,你的應用客戶還有多少能用,也算是個兜底方案吧。類似大家過去關心用電量、用語量,以后也會有人關心用模量。我們認為以后一個 SaaS 的用模量越高,產(chǎn)品越值錢,也越能收到錢。
目前我們還沒到3.0階段,因為視頻直播SaaS,agent在我們這邊應用還稍微會晚一點。但我個人判斷到了這一步,agency即業(yè)務,它不再有一個專門的業(yè)務應用去和客戶做交互,agent 本身就把可以業(yè)務全部做完,包括記憶、規(guī)劃、行動等。這是目前行業(yè)里對 AI agent很經(jīng)典的一個架構(gòu)圖。
理念我就不細講,我們的視角在于以后怎么讓agent用在SaaS 里面?我們認為以后會在工具的使用和行動兩個方面直接對接業(yè)務產(chǎn)品,把業(yè)務問題解決掉,然后去構(gòu)建它。至于說里面的像記憶、規(guī)劃可能是偏系統(tǒng)內(nèi)部的邏輯,我們以后可能會在工具的調(diào)度,比如視頻的投放,包括行動里面具體的反饋閉環(huán),數(shù)據(jù)的反饋也都是非常重要的。
當然這時候可能還早,因為我們剛開始2. 0解決AI native的過程。到時候我們就能看到1.0是輔助駕駛,搭把手的。2.0可以完成自動駕駛,到了3.0 AI Agent的時候,代表SaaS走向無人機時代,你制定的任務,它往外飛,你遙控它就好了。
這個畫面感大家可以回到自己所在的行業(yè)應用里面去考慮,如果今天你設計的是無人機系統(tǒng),你怎么用一個無人機全閉環(huán)地完成一個業(yè)務問題?這是我們未來思考方向。在我們這個領域里面,AI agent 在 ToB 的價值會重點體現(xiàn)在全工種和全連接。
如果說你的SaaS應用是一個人就能搞定的,agent 的優(yōu)勢并不明顯,但涉及到多工種很多工作全部連在一起,它能夠完成工種和Agent之間的協(xié)作的時候,它的價值會放得很大。就我們從事的視頻內(nèi)容工具行業(yè)來看,未來可能從編導、攝像、剪輯、運營、投手這五個工種的工作,背后會用一個agent來做代理,它們之間可以完成從視頻的策劃到剪輯、到數(shù)據(jù)、再拿回來再優(yōu)化,這個周期全部自動化完成,人可能像無人機一樣去做一些小遙控就完事了。
真正走到這一步的時候,我覺得也是對行業(yè)又一次比較顛覆性的影響,到時候人和 agent 之間的關系可能也要重構(gòu),內(nèi)容平臺到時候可能也會做一些相應的反饋,因為現(xiàn)在的投放系統(tǒng)是做實時投放和實時反饋,當agent也擁有這個能力的時候,一堆agent和內(nèi)容平臺互相對抗互相投流量,也是挺有趣的畫面。
我們目前在做兩件事情,一個是把數(shù)字人用在視頻、直播兩個場景,視頻方案主要解決種草,比如客戶的新品發(fā)布、新客拉新以及品牌全品類等。數(shù)字人直播更適合收割而非拉新,目前直播領域還無法像視頻一樣拿數(shù)字人講故事,做創(chuàng)新。直播方案主要是用在品牌客戶一下子開很多爆品的商品直播間,直播間只賣一個品,但可以很精準地去承接流量。流量可能不高在線就 5- 10 個人,但他因為足夠精準且成本夠低,算下來ROI也是非常劃算的。
目前國內(nèi)數(shù)字人還處在一個早期略顯混亂的階段,但隨著一些頭部的品牌,包括消費者對數(shù)字人的效果、接受度慢慢起來之后,我認為它在整個直播市場里面的占有率和滲透率會穩(wěn)步往上走的。
這是我今天跟大家分享的內(nèi)容,如果對分享內(nèi)容或者說對AI SaaS 這方面有興趣的,歡迎和我單獨的交流,謝謝。
雷峰網(wǎng):數(shù)字人目前可以個性化定制么?
樂乘:我們現(xiàn)在可以很低成本地創(chuàng)造一個數(shù)字人, 6000塊一個終身模型。
雷峰網(wǎng):從目前的設計來看,是一個很長的pipeline把各種不同的模型放到一起,比如腳本、畫面等,每一個模型它的效果和質(zhì)量以及迭代的成本都是不一樣,從目前這個視頻系統(tǒng)應用里觀察到的,多模態(tài)結(jié)構(gòu)里哪一個模態(tài)最重要,哪一個最不重要?
樂乘:腳本、畫面、組裝是我們系統(tǒng)核心的三個模塊,三者對一條成片的質(zhì)量影響是3:3:3的權(quán)重,因為客戶對效果的評價不取決于片子好不好看,他更關心投放效果好不好。腳本決定它的爆款率,畫面決定產(chǎn)品的傳遞有沒有到位,組裝決定的是用戶感受好不好,比如說音樂選沒選對,畫質(zhì)和節(jié)奏感有沒有卡好,三個模塊對成片的質(zhì)量影響是全都一樣的,只是在消耗的維度有一定差異,所以對我們這套系統(tǒng)的一個挑戰(zhàn)就是每一段都要做很好,先把路疏通,然后每個模塊逐步逐步地把它拉往上拉,最后承接就越來越好了。
雷峰網(wǎng):從視頻平臺風控的角度怎么去看數(shù)字人和數(shù)字直播對內(nèi)容的沖擊?AIGC與視頻平臺內(nèi)容之間會不會有一個奇點,越過奇點后數(shù)字生成的內(nèi)容達到真人生產(chǎn)的水平?
樂乘:好問題。我自己也是從平臺出來的,所以我完全可以站在平臺角度反推他們對應用公司的姿態(tài)和對我們價值的看法。以國內(nèi)抖音為例,抖音從來沒說過要打壓或封掉AIGC,對不對?它是一個中性偏正向的態(tài)度。但這里面平臺會劃一條線,比如平臺非常討厭那種劣質(zhì)的數(shù)字人,口播嘴型都對不齊的那種,另外一個就是內(nèi)容重復錄播拿視頻來騙流量的,這是兩個底線。只要在這兩個底線之上再加上一些精細化的運營,比如后臺安排真人運營,數(shù)字人的回答就做得好一點。目前AIGC生產(chǎn)的水平已經(jīng)接近平臺的及格線,但肯定不會是產(chǎn)品的終點,再過一年多內(nèi)容質(zhì)量應該能拉到七八成,那時應該就是一個很良性的事情了。像寶潔這種頭部品牌客戶,明確提出他們的目標也是希望未來能夠完全取代真人,它才買我們,如果我們沒有這樣的目標和路徑的話,寶潔一開始可能不會去找我們合作,它們對于是快速切入場景還是自己長期做下去也有自己的取舍。
