字節(jié)跳動副總裁:從用戶體驗到大模型,做豆包AI產(chǎn)品設計的感想
共 4998字,需瀏覽 10分鐘
·
2024-06-17 08:20
點上方名片關注我們,看更多大廠復盤
豆包APP是字節(jié)跳動于2023年6月推出的AI對話助手。目前在蘋果APP Store和各大安卓應用市場,豆包APP的下載量在AIGC類應用中排名第一。
在5月15日的火山引擎春季Force·原動力大會上,字節(jié)跳動產(chǎn)品與戰(zhàn)略副總裁朱駿分享了字節(jié)在做豆包產(chǎn)品時的一些思考。字節(jié)是如何基于豆包大模型來開發(fā)AI原生應用的?為什么取名“豆包”?產(chǎn)品設計有哪些思考?
以下為朱駿的演講全文:
上周,組織火山引擎大會的同學找到我,讓我提交一張偏商務風的照片,他們要把這張嘉賓照片放在網(wǎng)站上。我掃了一下自己的相冊,商務風沒有,鄰家大叔風很多,很難登上大雅之堂。
那怎么辦呢? 既然我自己就是做AI的,這個可難不倒我,我打開了我們的Al分身產(chǎn)品“星繪”。
首先,我試著給它一個Prompt,“穿著西裝,在火山引擎大會上慷慨陳詞”。這是它給我呈現(xiàn)的照片。
我們看到“慷慨陳詞”的態(tài)度有了,但是“火山引擎”它理解岔了。目前這個視覺生成模型,就像是一個畫畫特別強,但是待在家里畫畫的藝術生,對于像“火山引擎”這樣的物理世界的知識掌握還很有限。大概率是要等后面語言模型和視覺生成模型完全統(tǒng)一以后,才能把這種問題徹底解決。
接下來給了它一個難度更低的任務:“商務照、西裝、手插在口袋里望著遠方”。這回結果肯定可用了。它也就成了我交給主辦方的照片。
這只是大模型能力應用在我們?nèi)粘I钪械囊粋€小小例子。前面譚待提到的火山引擎云上的各種大模型,它們不只是跑服務器上的一堆代碼,而是需要找到最適合的應用形態(tài),以足夠自然的交互形式,才能讓更多用戶用起來,而且愿意用。
過去一年,字節(jié)也在大模型的產(chǎn)品形態(tài)上做了比較多的學習和摸索。和AI時代之前做產(chǎn)品設計比較,我的個人感受是既有共性又有很大的差異。
共性是用戶的核心需求還是那些,比如:用最高效、最方便的方式獲取信息的需求,給工作提效的需求,自我表達和創(chuàng)作的需求,讓自己變好看點的需求,社交娛樂和教育學習的需求等等,都沒有變。差異點是,以前是在成熟的技術上想應用,只要用同理心去理解用戶的需求和使用體驗,就能做出一個還不錯的產(chǎn)品。
現(xiàn)在有了新的難度,因為產(chǎn)品底下的技術不再是一個穩(wěn)定的地基了。大模型的能力目前很多維度上讓人驚嘆,但也在很多維度上有缺陷,同時又在快速演進,每隔三個月、半年都會發(fā)生很大的變化。而且它的能力改進往往不是線性的,隔一段時間可能就會出現(xiàn)一個躍遷。
所以做大模型應用一個很大的挑戰(zhàn)是,在這個動態(tài)發(fā)展的過程中,不僅要判斷大模型現(xiàn)在能解決好什么任務,同時可能更重要的是要嘗試預測半年、一年后大概能把什么樣的任務解決好。一個任務如果解決到20分、50分可能都是一個不太可用的狀態(tài),但是它一旦達到60分,可能使用率就突然能上來了。
以搜索任務為例,去年上半年大模型回答問題時10道題可能錯6道,那就是實際不可用的狀態(tài)。但隨著模型能力提升,幻覺大幅降低,再配合搜索引擎做知識增強,現(xiàn)在就達到了可用的狀態(tài)。當然后面提升的空間還非常非常大,比如解決各種垂直搜索、更復雜問題的回答,甚至是用戶今天在搜索引擎里都回答不了的問題。
所以做大模型產(chǎn)品的挑戰(zhàn)和樂趣是,需要在這種持續(xù)動態(tài)的技術發(fā)展中,不斷去判斷下一個產(chǎn)品的PMF (產(chǎn)品市場匹配點)可能是什么。
去年我們一個重點投入的方向是豆包App,我想分享一下對豆包這個產(chǎn)品的一些思考,希望對于計劃在字節(jié)大模型上做應用開發(fā)的開發(fā)者,也能起到一點點參考作用。
首先,為什么名字叫豆包?很多人都問我:豆包這個名字好像跟AI沒有什么關系,難道不應該用一個更有科技含量、更凸顯智能的名字嗎?
豆包的名字背后也有一個小故事。我們?nèi)ツ?月在給產(chǎn)品起名時,首先確定下來產(chǎn)品起名的通用原則是,簡單、好讀、好記。
與此同時我們也為豆包這類產(chǎn)品定義了三個產(chǎn)品設計原則。第一條就是“擬人化”。
“擬人化”是大模型產(chǎn)品的新特性。AI 除了帶來了新的能力,也帶來了新的交互方式,用和人類對齊的交互體驗,降低使用門檻,也讓用戶在使用產(chǎn)品時感覺到產(chǎn)品有類似人的溫度。為了體現(xiàn)這種擬人的感受,我們希望產(chǎn)品的名字,就像用戶對一個親密朋友日常稱呼的昵稱。
在這個方向下,我們列了很多候選,其中有些很難注冊商標,最后我們就很快選中了豆包。當時我們想,反正以后如果有更好的名字也還可以改嘛。
結果產(chǎn)品上線后,看到很多用戶都在猜測和討論:為啥字節(jié)的大模型產(chǎn)品叫豆包。我們看到了兩個很有意思的來自用戶的解釋:一個是,豆包=抖音的官方bot,“抖bot”諧音就是豆包;一個是說豆包=“都包了”,工作生活學習的需求都包了,寓意是通用助手的產(chǎn)品愿景。
創(chuàng)意來自民間。所以后來有人再問我豆包名字的含義,我就用這兩個來自用戶的解釋回答了,問的人也都很信服。
我們定下的第二條設計原則是,它需要離用戶很近,隨時伴隨用戶,嵌入用戶的不同使用環(huán)境。應該是豆包到用戶身邊,而不是用戶到豆包身邊。
比如,我有很多對豆包的使用是在戶外,有什么問題我就隨時問豆包。為了讓豆包在這種移動場景里交互更方便,像一個隨身攜帶的百事通,我們很早投入了很大力度優(yōu)化語音交互體驗,包括基于大模型的ASR和超自然的TTS音色,盡量做到類似和一個真人對話的感受。
比如“五一”假期,我去四川自貢轉了一圈,旅行途中我不斷問它:給我介紹一下恐龍博物館,給我說下自貢的井鹽歷史,等等。晚上和朋友吃飯時上了道皮皮蝦,雖然很好吃,但我對皮皮蝦怎么剝皮一直都不熟練,我就問一下豆包怎么剝皮皮蝦。豆包不僅回答了我的問題,同時推過來一個抖音視頻。通過視頻,我非常直觀地看到了剝皮皮蝦的技巧。
但我也可能不在手機上,而是在電腦桌面端工作。在這個場景里,除了瀏覽器里的 Web 應用,我們也提供了豆包的桌面客戶端,這是為了在 PC 上離用戶更近。
舉個例子,如果你是一個自媒體的從業(yè)者,可以在豆包桌面版本上點擊“文案創(chuàng)作”這個“AI技能按鈕”,選擇“抖音文案”,然后填入主題“介紹建筑師安藤忠雄”,一個分鏡頭的抖音視頻腳本就生成好了。
但是還有很多時候,用戶既不在瀏覽器里,也不在豆包的桌面客戶端,而是在讀PDF,或者在寫代碼。這時候,豆包桌面插件能夠通過劃詞選中的方式,被用戶在任何地方喚起,幫助用戶就近解決任務,例如基于 PDF 的總結和問答,在編程時生成代碼注釋或者修改代碼等。
這些都是希望豆包離用戶近,盡量嵌入用戶使用環(huán)境的例子。
第三個設計原則是“個性化”。雖然通用大模型能解決非常廣泛的任務,但實際上,我們看到用戶有自己個性化的需求,包括對智能體的功能定位,回答風格、聲音、形象、記憶都有非常個性化的需求。
在智能體世界里,我們覺得未來用戶大概率會有一個主要的智能體(比如豆包)做最高頻的互動,解決很多任務;但是也會因為個性化、多樣化的需要,和很多其他的智能體互動。
比如我們團隊的一位女生,在豆包上捏了一個英語老師的智能體。除了用自然語言定義了“這個老師需要用英文對話,并且在對話中隨時指正用戶的語法錯誤”這個功能,也定義了她自己喜歡的聲音和形象。
平時在路上和“他”用語音消息的方式對話,回到家還會用實時通話模式來模擬英語口語對話。
但對于那些更復雜的,需要更高階能力,甚至更異構的交互方式的智能體,我們也提供了一個智能體定義平臺“扣子”。除了自然語言定義外,也支持通過工作流、代碼、插件,賦予這個智能體更強、更穩(wěn)定的能力。
比如,我們的一個教育產(chǎn)品團隊通過扣子平臺,在豆包上發(fā)布了學習小幫手應用,幫助家長輔導作業(yè)。這個智能體能提供拍照的交互方式,不僅能給出解題思路,而且通過回答進一步的追問,不斷進行答疑,真的像一位個性化的輔導老師。
總結一下,一方面大模型技術本身在不斷進步,一方面行業(yè)里對于應用形態(tài)和交互方式的摸索會逐漸成熟,這樣大模型產(chǎn)品會逐漸融入更多用戶的生活和工作里。
比如,我們看到豆包的用戶規(guī)模在快速增長。今天豆包已經(jīng)有超過2600萬的月活用戶,和800多萬個被大家創(chuàng)建出來的智能體。
除了豆包這個產(chǎn)品外,各行各業(yè)還有無窮無盡的用戶場景,在座的諸位對這些場景肯定比我們有更深的洞察。相信在不久的將來,能看到大模型能力在更多的場景里變成應用,變成更好的用戶體驗,為更多用戶的工作和生活帶來便利。
謝謝大家。
??將“UXD筆記”設為??星標,然后在后臺回復以下關鍵詞,即可實現(xiàn)無套路領取本期資源。
【1】回復“阿里模板”——領阿里高德地圖、螞蟻金服團隊內(nèi)部PPT模板和PPT規(guī)范源文件。
與87422位讀者一起成長
為防止走失,邀請你做一個小小的動作,給 UXD筆記 公眾號加個??星標,避免在繁雜的信息流中錯過精彩的大廠UX知識推送。
