<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          李沐:創(chuàng)業(yè)一年,人間三年!

          共 5546字,需瀏覽 12分鐘

           ·

          2024-08-14 21:49

           Datawhale干貨 

          作者:李沐CMU,BosonAI 聯(lián)合創(chuàng)始人


          給小伙伴匯報一下LLM創(chuàng)業(yè)第一年的進展、糾結(jié)和反思

          在Amazon呆到第五年的時候就想著創(chuàng)業(yè)了,但被疫情耽擱了。到第7年半的時候,覺得太癢了,就提了離職?,F(xiàn)在想來,如果有什么事這一輩子總要試下的,就蹭早。因為真開始后會發(fā)現(xiàn)有太多新東西要學(xué),總感嘆為啥沒能早點開始。

          名字:BosonAI的來源

          創(chuàng)業(yè)前做了一系列用Gluon命名的項目。在量子物理里,Gluon是把夸克綁在一起的一種玻色子,象征這個項目一開始是Amazon和Microsoft的聯(lián)合項目。當(dāng)時項目經(jīng)理拍拍腦袋名字就出來了,但取名對程序員來說很困難,我們每天都在糾結(jié)各種文件名和變量名。最后新公司干脆就用玻色子(Boson)來命名了。希望大家能get到“Boson和費米子組成了世界”這個梗時會會心一笑。但沒料到很多人會看成Boston。

          “我來波士頓了,找個時間碰碰?” “哈?可我在灣區(qū)呀??” 

          融資:簽字前一天領(lǐng)投方跑路

          22年年底的時候想到兩個用大語言模型(LLM)做生產(chǎn)力工具的想法。碰巧遇到張一鳴,就向他請教。討論之后他反問:為什么不做LLM本身呢?我的下意識退縮:我們之前在Amazon的團隊做了好幾年這個,得上萬張卡,和blabla這么一大堆困難。一鳴呵呵表示:這些都是短期困難,眼光得看長遠點。

          我的優(yōu)點是聽勸,真就去做LLM了。湊齊了數(shù)據(jù)、預(yù)訓(xùn)練、后訓(xùn)練、和架構(gòu)各方向負責(zé)人的創(chuàng)始團隊,就去融資了。運氣不錯,很快拿到了種子投資。但錢還不夠買卡,得去拿第二輪。這一輪領(lǐng)頭是一家非常大的機構(gòu),做了幾個月文檔、商討條款。但在簽字前一天,領(lǐng)頭說不投了,直接導(dǎo)致了跟投的幾家退出。很感激剩下的投資方,還是做完了這一輪,拿到了做LLM的入場券。

          今天反思的話,當(dāng)時蹭著資本市場熱情還在,其實可以繼續(xù)融資,說不定也跟其他友商一樣,現(xiàn)在十億現(xiàn)金在手。當(dāng)時擔(dān)心融資太多,會不好退出,或者被架到天上去了?,F(xiàn)在想來,創(chuàng)業(yè)就是想逆天改命,想什么退路呢? 

          機器:第一批吃螃蟹的人

          有了錢后就去買GPU。問各個供應(yīng)商,統(tǒng)一回復(fù)是H100交貨得一年以后了。靈機一動,直接給老黃寫郵件。老黃秒回說他來看下。一個小時后超微的CEO就打電話過來了。多付了些錢,插了個隊,20天后拿到了機器。很榮幸早早的吃到了螃蟹。

          螃蟹吃到懷疑人生,遇到了各種匪夷所思的bug。例如GPU供電不足導(dǎo)致不穩(wěn)定,后來靠超微工程師修改bios代碼打上補??;例如光纖的切開角度不對,導(dǎo)致通訊不穩(wěn)定;例如Nvidia的推薦網(wǎng)絡(luò)布局不是最優(yōu),我們重新做一個方案,后來Nvidia自己也采用了這個方案。至今我都不理解,我們就買了不到一千張卡,算小買家吧。但我們遇到的這些問題,難道大買家沒遇到嗎,為啥需要我們的debug?

          同時我們還租了同樣多的H100,一樣是各種bug,GPU每天都出問題,甚至懷疑是不是這個云上就我們一個吃螃蟹的。后來看到Llama 3的技術(shù)報告說他們改用H100后,訓(xùn)練一次模型被打斷幾百次,對字里行間的痛苦,很是共情。

          如果對比自建和租卡的話,租三年成本和自建成本差不多。租卡的好處是省心。自建的好處有兩個。一是三年后如果Nvidia技術(shù)還遙遙領(lǐng)先,那么它能控制價格使得GPU仍然保值??。另一個是自建的數(shù)據(jù)存儲成本低。存儲需要跟GPU比較近,不管是大云還是小GPU云,存儲價格都高。但一次模型訓(xùn)練可以用幾TB空間存checkpoint,訓(xùn)練數(shù)據(jù)存儲是10PB起跳。如果用AWS S3的話,10PB一年兩百萬。這錢用來自建的話,可以上100PB。

          商業(yè):感恩客戶,第一年收支平衡

          非常幸運的,我們第一年收入和支出是打平的。我們支出主要在人力和算力上,感謝Openai的財力和Nvidia的瑤瑤領(lǐng)先,這兩項支出都挺大的??。我們的收入來源是給大客戶做定制的模型。很早就上LLM的公司大都是因為CEO非常有決策力,他們沒被高昂的算力和人力成本嚇到,果斷的去推動內(nèi)部團隊配合嘗試新技術(shù)。非常感恩客戶給了我們喘氣的時間,不然這個幾個月我又是奔波在各個投資人那里。

          接下來應(yīng)該會有更多公司才嘗試使用LLM,不論是自己產(chǎn)品的升級,還是降本增效。原因是一方面技術(shù)成本在降低,另一方面行業(yè)領(lǐng)先者(例如我們客戶)會陸續(xù)放出基于LLM的產(chǎn)品出來,把行業(yè)卷了起來。

          我們也在關(guān)注LLM在toC上的落地。上一波頂流例如c.ai和perplexity還在找商業(yè)模式,但也有小十來家LLM原生應(yīng)用收入還不錯。我們給一家做角色扮演的創(chuàng)業(yè)公司提供了模型,他們主打深度的玩家,打平了收入和支出,也是厲害的。模型能力還在進化,更多模態(tài)(語音、音樂、圖片、視頻)在融合,相信接下來還會有更有想象力的應(yīng)用出現(xiàn)。

          整體來說行業(yè)和資本還是急躁的。今年好幾家成立一年多但融資上十億的公司選擇退出。從技術(shù)到產(chǎn)品就是一個很長的過程,花2、3年實屬正常。算上用戶的需求的涌現(xiàn),可能得花更長時間。我們專注當(dāng)下在迷霧中探路,對未來保持樂觀。

          技術(shù):LLM認(rèn)知的四個階段

          對LLM的認(rèn)知經(jīng)歷了四個階段。

          第一階段是Bert到GPT3,感受是新架構(gòu),大數(shù)據(jù),這個可以搞。我們在Amazon的時候也是第一時間進去做了大規(guī)模的訓(xùn)練和在產(chǎn)品上的落地。

          第二階段是剛創(chuàng)業(yè)的時候GPT4了放出來,大受震撼。大半原因來自技術(shù)不公開了。根據(jù)小道消息估算一次模型訓(xùn)練一個億,標(biāo)數(shù)據(jù)成本幾千萬。很多投資人問我復(fù)現(xiàn)GPT4成本得多少,我說3-4億要把。后來他們中一家真一把投了大幾億出去。

          第三階段是創(chuàng)業(yè)的第一個半年。我們做不動GPT4,那就想著從具體的問題出發(fā)吧。于是開始找客戶,有游戲的、教育的、銷售的、金融的、保險的。針對具體的需求去訓(xùn)練模型。一開始市面上沒有好的開源模型,我們就從頭訓(xùn)練,后來很多很好的模型出來了,降低了我們成本。然后針對業(yè)務(wù)場景設(shè)計評估方法,標(biāo)數(shù)據(jù),去看模型哪些地方不行,針對性提升。

          23年年底時,驚喜發(fā)現(xiàn)我們的Photon(Boson的一種)系列模型在客戶應(yīng)用上的效果都打贏GPT4了。定制模型的好處是推理成本是調(diào)用API的1/10。雖然今天API已經(jīng)便宜很多,但我們自己技術(shù)也同樣在進步,仍然是1/10成本。另外,QPS,延時等都更好控制。這個階段的認(rèn)知是對于具體應(yīng)用,我們是可以打贏市面最好模型的。

          第四階段是創(chuàng)業(yè)的第二個半年。雖然客戶拿到了合同里要的模型,但還不是他們理想中的東西,因為GPT4還遠不夠。年初時發(fā)現(xiàn)針對單一應(yīng)用訓(xùn)練,模型很難再次飛躍?;剡^頭想,如果AGI是達到普通人類水平,客戶要的是專業(yè)人士的水平。游戲要專業(yè)策劃和專業(yè)演員、教育要金牌老師、銷售要金牌銷售、金融保險要高級分析師。這都是AGI加上行業(yè)專業(yè)能力。雖然當(dāng)時我們內(nèi)心對AGI充滿敬畏,但感覺是避不開的。

          年初我們設(shè)計了Higgs(上帝粒子,Boson的一種)系列模型。主打通用能力緊跟最好的模型,但在某個能力上突出。我們挑選的能力是角色扮演:扮演虛擬角色、扮演老師、扮演銷售、扮演分析師等等。24年年中的時候迭代到第二代,在測試通用能力的Arena-Hard和AlpacaEval 2.0上,V2跟最好的模型打得有來有回,在測試知識的MMLU-Pro上也沒差很遠。

          Higgs-V2是基于Llama3 base,然后做了完整的post-training。我們無法像Meta那樣花大錢標(biāo)注數(shù)據(jù),所以V2比Llama3 Instruct好,原因應(yīng)該還是主要來自算法的創(chuàng)新。

          然后我們做了個評估角色扮演的評測集,包含按照人設(shè)扮演,和按照場景扮演。怪不好意思是自己的模型在自己的榜單上拿了第一。但模型訓(xùn)練中是沒有碰評測用的數(shù)據(jù)。因為這個評測集一開始就是想自用,希望能真實反映模型能力,所以要避免模型overfit數(shù)據(jù)集。但做評測的同學(xué)想寫技術(shù)報告,所以放出來了。有意思的是,按角色扮演的測試樣本來自c.ai,但他們家的模型能力是墊底的。

          第四階段的認(rèn)知是,好的垂直模型通用能力也不能弱,例如reasoning,instruction following這些能力垂直上也是需要的。長遠來看,通用和垂直模型都得朝著AGI去。只是垂直模型可以稍微偏科一點,專業(yè)課高分,通用課還行,所以研發(fā)成本稍微低一點,研發(fā)方式也會不一樣點。

          那第五階段認(rèn)識呢?現(xiàn)在仍在進行中,希望能很快分享。

          愿景:人類陪伴

          說來慚愧,我們蒙頭做技術(shù),給客戶做定制,然后再慢慢想我們自己追求什么愿景。我們?nèi)タ纯蛻粝胍裁?、我們自己想要什么、未來可能需要什么。我自己的話,多年前我憧憬有個機器人保姆能幫我?guī)蕖⑴闼麄?,因為干這個我覺得很難,而且也不太理解娃當(dāng)前的認(rèn)知和想法。我希望工作上有個非常厲害的虛擬助手能跟我一起發(fā)明新的東西。等我老了也想有很有意思的機器人陪著。我對于未來的預(yù)測是,生產(chǎn)工具越來越發(fā)達,一個人完成之前一個團隊才能完成的事情,導(dǎo)致人類更加個體獨立,大家都忙著追求自己的事情,從而更加孤獨。

          這些綜合在一起,我們把愿景定成了“人類陪伴的智能體”。一個情商很高的,智商在線的智能體。算換成現(xiàn)實中的人的話,應(yīng)該會是一個專業(yè)團隊。例如你想讓它陪你玩,那它是專業(yè)策劃+演員。陪你運動,那么鼓勵師+專業(yè)運動教練。陪你學(xué)習(xí),那么能把你不懂的講懂。模型的好處是,它能做長期的陪伴,真的了解你。而且可以“真心為你”。

          不過目前技術(shù)離愿景還挺遙遠。當(dāng)下技術(shù)就能陪著聊聊。很多場景下聊得也不是那么好,內(nèi)容匱乏,智商情商有時都不在線。都是當(dāng)下要解決的問題。如果有小伙伴做這一塊的海外應(yīng)用,歡迎聯(lián)系我們。 

          團隊:有挑戰(zhàn)的事情得靠團隊

          創(chuàng)業(yè)之后才真正覺得團隊的重要性。在大廠的時候,覺得自己是個螺絲釘,團隊成員是螺絲,甚至團隊也是個螺絲釘。但創(chuàng)業(yè)團隊就是一輛車。車小點,但能跑,能載重,轉(zhuǎn)彎靈活,各個角落都能去。公司成立不久的時候,米哈游老蔡來看了眼,看見所有人在一間房子里,他感慨說小團隊真好。

          不方便的地方當(dāng)然也是有的,時刻要看有沒有油,不好走的路得小心別把車震散架了。每個成員都很重要,沒有冗余,一個人不給力,就可能是一個輪胎沒氣。人也寶貴,走一個人就可能少一個輪胎。

          以前我選項目會選自己能主導(dǎo)開發(fā)的。但這也意味著問題不是很有挑戰(zhàn)性。創(chuàng)業(yè)選了個很大的問題去做,只能全靠團隊了。別看本文里用了大量的“我”,其實工作都是團隊做的。沒了團隊,我可能得轉(zhuǎn)行去賣課了。

          個人追求:名還是利?

          到目前為止我都靠跟著內(nèi)心的聲音做決定,工作后再去讀博、去做視頻、去創(chuàng)業(yè)。創(chuàng)業(yè)需要強烈動機的支撐,才能克服層出不窮的困難。這需要對自己的動機做更深入的分析。

          動機要么來自欲望,要么來自恐懼。十年前我可能更熱衷名利,但到了現(xiàn)在的年紀(jì),覺得金錢的邊際效用已經(jīng)不高,名聲帶來的情緒價值也已經(jīng)很小。我深層的動機來自對生命可能沒有意義的恐懼。先不說宇宙的浩瀚,就是在人類的歷史長河,一個人也只是一粒沙。意外的到來,迅速的消失。地球上生活過一千億人,絕大部分人不會在歷史上留下痕跡。我家家譜上那些人名,我?guī)缀醵疾徽J(rèn)識。

          那么一個人的存在的意義是什么呢?小時候曾因為想不清這個問題而抑郁。所以潛意識里,我想去創(chuàng)造價值,獲得存在的意義。我選擇“上進”,去提升自己的創(chuàng)造價值的能力;選擇錄長視頻和寫教材,創(chuàng)造教育價值;選擇去寫讀博、工作、創(chuàng)業(yè)的總結(jié),描述里面的糾結(jié)和困難,創(chuàng)造事例的價值;選擇去創(chuàng)業(yè),團結(jié)很多人的力量去創(chuàng)造更大價值。

          后記

          去年跟宿華在斯坦福散步,他拍著我肩膀說:“跟我說句實話,你為什么想創(chuàng)業(yè)呀?”當(dāng)時候不以為然:“就是想換個事情做做”。然后宿華笑了笑。

          現(xiàn)在我懂了,因為他經(jīng)歷了創(chuàng)業(yè)酸甜苦辣。如果今天再來回答這個問題,我會說:“我就是腦子抽了”。但也慶幸當(dāng)時沒想到會那么不容易,所以一頭扎進來了。否則,大家看到的可能是「工作十年反思」。我覺得今天我寫的故事更有意思些。

          致敬所有創(chuàng)業(yè)人。

          -End-

          (最后廣告下沐神公司的招聘信息(灣區(qū)和溫哥華)https://jobs.lever.co/bosonai 有做出海應(yīng)用的小伙伴也請聯(lián)系沐神 [email protected]

          瀏覽 5745
          92點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          92點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  男人的天堂色婷婷 | 国产生活片三级片免费看 | 久久成人三级视频 | 欧美高清视频99 | av影音先锋一区 AV在线无码观看 av在线一区二区 |