OpenAI CEO親述:ChatGPT背后—從0到1,OpenAI的創(chuàng)立之路
來源:OneFlow
作者:Greg Brockman
編譯:OneFlow
翻譯:徐佳渝、賈川
ChatGPT一出,OpenAI名聲大震,CEO Sam Altman也成為聚光燈下的C位主角,有些報(bào)道甚至開始了對他的“造神”運(yùn)動(dòng)。年少成名,他不到30歲就成為YC總裁,從2019年GPT-3開始,他開始主導(dǎo)OpenAI的運(yùn)營事務(wù),并取得了如今的非凡成就。
他擅長將企業(yè)發(fā)展從1放大到1000,但自O(shè)penAI創(chuàng)立到GPT-2的發(fā)布期間,但自O(shè)penAI創(chuàng)立到GPT-2發(fā)布期間,還有更多的故事。
Greg Brockman是將OpenAI從0到1拉扯到大的關(guān)鍵先生。他是OpenAI的聯(lián)合創(chuàng)始人,從2015年開始,Greg和首席科學(xué)家Ilya Sutskever主導(dǎo)OpenAI的創(chuàng)建,以及日常運(yùn)營和研究工作。Greg現(xiàn)在也是OpenAI的董事長和總裁(2022年前一直擔(dān)任CTO),從企業(yè)權(quán)力結(jié)構(gòu)來看,他才是OpenAI背后的一號(hào)人物。
Greg有著非凡履歷。2009年,他本科畢業(yè)于哈佛大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)系,2010年在MIT計(jì)算機(jī)科學(xué)讀博,期間維護(hù)XVM、Linerva和scripts.mit.edu等知名項(xiàng)目。畢業(yè)后成為互聯(lián)網(wǎng)支付平臺(tái)Stripe的CTO,幫助團(tuán)隊(duì)實(shí)現(xiàn)了員工人數(shù)從4人到250人的增長,不過在公司發(fā)展蒸蒸日上之際,他選擇急流勇退,繼續(xù)追逐偉大的事業(yè),由此才有了OpenAI的創(chuàng)業(yè)歷程。
OpenAI的誕生也源自一群非凡的投資人。眾所周知,OpenAI起源于2015年門洛帕克的一頓晚飯上,那時(shí)大佬云集,在基于“構(gòu)建安全的人工智能以造福人類”的愿景下,他們決定創(chuàng)建一個(gè)非營利性機(jī)構(gòu),并且最終獲得了包括Greg Brockman和Sam Altman在內(nèi)的馬斯克、Jessica Livingston(Y C創(chuàng)始合伙人)、Peter Thiel(PayPal聯(lián)合創(chuàng)始人)、Reid Hoffman(LinkedIn聯(lián)合創(chuàng)始人)等企業(yè)家,以及亞馬遜的AWS等知名企業(yè)和機(jī)構(gòu)的十億美元投資。
光有錢還不夠,負(fù)責(zé)創(chuàng)建OpenAI團(tuán)隊(duì)的Greg還要找到能實(shí)現(xiàn)這一愿景的技術(shù)人才。ChatGPT大火之時(shí),知乎上有個(gè)熱議問題:阻礙國內(nèi)團(tuán)隊(duì)研究ChatGPT這樣產(chǎn)品的障礙是技術(shù)、錢還是領(lǐng)導(dǎo)力?
從技術(shù)上看,ChatGPT核心算法早就是公開的,沒什么秘密,無論是互聯(lián)網(wǎng)大廠還是融資上百億的創(chuàng)業(yè)公司也不缺買算力和數(shù)據(jù)的資本。還有不少人反思說國內(nèi)缺乏那種投資和創(chuàng)業(yè)的土壤。但最核心的是,我們?nèi)狈penAI這樣的團(tuán)隊(duì)以及其中極具遠(yuǎn)見和堅(jiān)定信念的領(lǐng)導(dǎo)者,這些是使得一切愿景成為可能的必要條件。
通過搜尋人際網(wǎng)絡(luò),Greg希望邀請一批頂級(jí)人才組建隊(duì)伍。這個(gè)網(wǎng)絡(luò)上的節(jié)點(diǎn)人物很是驚人,包括深度學(xué)習(xí)領(lǐng)域“三巨頭”Geoffrey Hinton、Yann LeCun、Yoshua Bengio等大牛,這些大牛又給他推薦了人工智能領(lǐng)域頂尖技術(shù)人才,包括機(jī)器人與強(qiáng)化學(xué)習(xí)領(lǐng)域大牛Pieter Abbeel、Andrej Karpathy(后來擔(dān)任了一段時(shí)間特斯拉AI總監(jiān)后,最近又回歸OpenAI)、Ian Goodfellow(GAN網(wǎng)絡(luò)發(fā)明者)、Wojciech Zaremba(Yann Lecun學(xué)生)等。當(dāng)然,除了明星級(jí)人物,如果那時(shí)你參加線下會(huì)議,坐你旁邊的人是Greg,他會(huì)主動(dòng)跟你交流,覺得合適也會(huì)邀請你加入OpenAI。
Greg認(rèn)為,團(tuán)隊(duì)的成功需要招募到對的人。盡管OpenAI成立不久,但經(jīng)過他和Ilya Sutskever的共同努力,吸引了不少業(yè)內(nèi)頂級(jí)大牛加入,而這更多依靠的是對OpenAI使命愿景的認(rèn)同,以及與聰明人一起工作的環(huán)境。
最近,ChatGPT讓國內(nèi)不少精英再一次感受到落后的緊迫感,不少創(chuàng)業(yè)團(tuán)隊(duì)要打造“中國版的OpenAI”。我們不乏真正有抱負(fù)的創(chuàng)業(yè)者,但想象一下,如果在2015年已經(jīng)有一支OpenAI團(tuán)隊(duì),Sam Altman和Greg Brockman這群人很可能會(huì)去打造另一支不同于它的“DeepMind”團(tuán)隊(duì),而不會(huì)稱自己要去打造“硅谷版的OpenAI”,并且是為了復(fù)現(xiàn)ChatGPT。
在Greg Brockman主導(dǎo)OpenAI的最初兩年里,2016年4月,OpenAI發(fā)布了強(qiáng)化學(xué)習(xí)研究平臺(tái)“OpenAI Gym”的公測版,同年12月,發(fā)布了軟件平臺(tái)“Universe”,用于衡量和訓(xùn)練人工智能在全球游戲、網(wǎng)站和其他應(yīng)用程序中的通用智能。
那一年,Alphago剛剛問世,新一輪AI黃金時(shí)代開啟。與此同時(shí),AI領(lǐng)域尚不存在大型語言模型(LLM)這個(gè)概念,剛剛成立兩年的OpenAI也沒有發(fā)布GPT模型,他們似乎只有模糊的想法,不過這個(gè)新組織每天都在為新技術(shù)探索而激動(dòng)。
不管怎樣,如果國內(nèi)要打造這樣一支團(tuán)隊(duì),不妨聽聽當(dāng)事者Greg Brockman是如何從零到一構(gòu)建起一支原版的OpenAI,從其創(chuàng)業(yè)旅程中一窺他的組織構(gòu)建思想,他如何聚攏了一大批才華橫溢的頂尖人才,這個(gè)組織的創(chuàng)新能量又從何而來。
(以下內(nèi)容由OneFlow編譯,轉(zhuǎn)載請聯(lián)系OneFlow獲得授權(quán)。原文:https://blog.gregbrockman.com/my-path-to-openai)
在高中畢業(yè)后的間隔年里,我曾認(rèn)真學(xué)過編程。我讀過圖靈的《計(jì)算機(jī)器與智能》一書,并深受啟發(fā):代碼能理解那些編寫代碼者所不能理解的東西。于是我準(zhǔn)備著手寫一個(gè)聊天機(jī)器人。那么寫出來有多難呢?
我想創(chuàng)建的是能與人正常對話的機(jī)器人,但找了很久,似乎沒有人能做出這種機(jī)器人。我很快便擱置了這個(gè)想法,轉(zhuǎn)而專注于創(chuàng)建那些能真正產(chǎn)生影響的系統(tǒng)。
1
大學(xué)研究項(xiàng)目
讀大學(xué)時(shí),我對編程語言很感興趣,由此便進(jìn)入了AI的大門。編譯器和靜態(tài)分析器能“理解”那些我理解不了的程序,于是我便常用其來做一些非常有用的事情,比如快速生成代碼并檢驗(yàn)其是否正確。
我一直想潛下心來去做編程語言研究,卻總是受到新的創(chuàng)業(yè)點(diǎn)子和新同事的影響。其實(shí)我的同事人都還不錯(cuò),但這些創(chuàng)業(yè)想法可就不敢恭維了。無論在哈佛還是麻省理工,我都努力向那些優(yōu)秀的人看齊,主動(dòng)融入他們,并與之共建有用的東西。

Greg Brockman
大三那年,我發(fā)現(xiàn)在校創(chuàng)業(yè)沒有意義,所以我就和那些創(chuàng)業(yè)者面談,汲取經(jīng)驗(yàn)。與此同時(shí),我終于開始了編程語言研究之旅。我從一位教授那里獲得了研究經(jīng)費(fèi),并招募了一些朋友進(jìn)行靜態(tài)緩沖超時(shí)檢測項(xiàng)目。
幾周后,帕洛阿托(Palo Alto)一家尚未啟動(dòng)的初創(chuàng)公司聯(lián)系了我。一般情況我會(huì)直接刪除這種郵件,但此時(shí)我也正準(zhǔn)備與初創(chuàng)公司會(huì)面,所以我們團(tuán)隊(duì)就立即點(diǎn)開了郵件,此時(shí)我也發(fā)現(xiàn),他們也正是我一直在尋找的那種人。于是我離開學(xué)校,這也意味著我們的緩沖超時(shí)檢測項(xiàng)目就此擱置了。
2
Stripe生涯
那家公司就是現(xiàn)在的Stripe。在我的幫助下,公司規(guī)模從4人擴(kuò)大到了250人;在我離開后的一年里,又繼續(xù)擴(kuò)大到了450人(當(dāng)然,這份功勞與我無關(guān))。
此時(shí)公司的發(fā)展正蒸蒸日上,無論有我沒我,都會(huì)繼續(xù)繼續(xù)做偉大的事情,所以我準(zhǔn)備離開Stripe。我想做的是與優(yōu)秀之人同行做些有意義的事情,但開發(fā)者基礎(chǔ)架構(gòu)并不是那個(gè)我想窮盡余生之力去解決的問題。
然而,我終于還是找到了那個(gè)我想解決的問題:創(chuàng)造出安全的人類級(jí)別的AI(human-level AI)。只要這項(xiàng)技術(shù)能真正為人類所用,我想一定會(huì)引起轟動(dòng),并給世界帶來積極影響。

(Greg Brockman與Sam Altman)
在我最終決定離職之前,Patrick說Sam Altman有很好的局外人視角,而且見過很多跟我情況類似的人,應(yīng)該能給我一些好的建議,讓我去和他談?wù)劇?/p>
在與Sam交談五分鐘后,他說:看來你是完全準(zhǔn)備好離職了,后續(xù)事宜有什么需要我?guī)椭膯幔?/p>
我說AI是我的首選(這絕對是我的人生目標(biāo)),但還不確定現(xiàn)在是否就是做這件事的最佳時(shí)機(jī),而且我也不知道最佳的貢獻(xiàn)方式是什么。
他回答:我們一直在考慮通過YC(譯者注:Y Combinator,美國著名創(chuàng)業(yè)孵化器)建立一個(gè)AI實(shí)驗(yàn)室,你或許可以跟我們合作。
3
研究深度學(xué)習(xí)
大約在這一兩周后,我就離開了Stripe,開始著手深入研究AI,想要更好地了解該領(lǐng)域正在發(fā)生的事情。僅從Hacker News上的帖子(例如http://karpathy.github.io/2015/05/21/rnn-effectiveness/)就可以看出:人們對AI尤其是對深度學(xué)習(xí)的關(guān)注度越來越高。但在進(jìn)入該領(lǐng)域時(shí),我仍然是持有合理懷疑的,在投身AI之前,我想確定一切都是可行的。
我的第一個(gè)目標(biāo)是弄清楚深度學(xué)習(xí)到底是什么。然而事實(shí)證明這并非易事。例如,deeplearning.net上只是說“深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究的一個(gè)新領(lǐng)域,引入深度學(xué)習(xí)的目的是使其更接近于最初的目標(biāo)——人工智能”。雖然這聽起來很令人興奮,然而卻并沒有說清楚到底什么是深度學(xué)習(xí)。
幸運(yùn)的是,我有一些從事AI行業(yè)的朋友:Dario Amodei(曾任OpenAI研究主管,現(xiàn)Anthropic創(chuàng)始人和CEO)和Chris Olah(曾任OpenAI技術(shù)主管,現(xiàn)為Anthropic聯(lián)合創(chuàng)始人)。我向他們征求了一些意見,他們給了我一些很好的入門資源,其中最有用的是Michael Nielsen寫的書。我讀完后還在Kaggle上練習(xí)了新學(xué)到的技能(在第一次比賽時(shí)我就拿到了第一名?。?。
一路走來,我不斷遇到AI領(lǐng)域中那些超級(jí)聰明的人,并與我大學(xué)時(shí)最聰明的一些朋友重新建立了聯(lián)系,例如現(xiàn)在在該領(lǐng)域工作的Paul Christiano(曾任OpenAI研究員,現(xiàn)Alignment Research Center創(chuàng)始人)和Jacob Steinhardt(加州伯克利分校助理教授)。我覺得這是一個(gè)強(qiáng)烈的信號(hào)。
我了解得越多,就越相信AI已準(zhǔn)備好散發(fā)自己的光芒。深度學(xué)習(xí)的能力簡直令人難以置信,比如,我們現(xiàn)在可以極其準(zhǔn)確地對圖像中的目標(biāo)進(jìn)行分類(2014年的XKCD就已經(jīng)實(shí)現(xiàn)),語音識(shí)別非常精準(zhǔn),還可以生成十分逼真的圖像。不過雖然這些技術(shù)足夠新,但到現(xiàn)在為止還沒有改變?nèi)藗兊纳罘绞剑鼈內(nèi)缃竦挠绊戇€僅限于支持某些產(chǎn)品實(shí)現(xiàn)特定功能。
有一位朋友曾開發(fā)過Facebook News Feed。還記得我曾對他說過這樣一句話:簡單的算法,大量的數(shù)據(jù)。每個(gè)人都試圖兜售很酷的新AI算法,但實(shí)際上只需要擴(kuò)展邏輯回歸(logistic regression)就會(huì)非常奏效。而他對此持懷疑態(tài)度。然后我就拿出了谷歌翻譯App,將其設(shè)置為飛行模式,并向他演示了如何直接翻譯圖片上的文字。他對此印象頗深,并承認(rèn)簡單的算法對此無濟(jì)于事(這背后主要是深度學(xué)習(xí)在發(fā)揮作用,不過這不是重點(diǎn),重點(diǎn)是它有效。)
4
創(chuàng)業(yè)想法誕生
Sam Altman在2015年6月聯(lián)系我,問我是否已經(jīng)想好下一步該做什么了,我告訴他目前的計(jì)劃是明年開一家AI公司。然后我們打了通電話,他提到他們正在推進(jìn)YC的AI項(xiàng)目。我問:實(shí)驗(yàn)室的目的是什么?“建立安全的人類級(jí)AI”,他說。
在那一刻我就知道,他很適合當(dāng)我下一家公司的合作伙伴。現(xiàn)在很少有人敢于明確嘗試構(gòu)建人類級(jí)AI。我意識(shí)到,有時(shí)候一項(xiàng)成就只需要有個(gè)膽大的人宣布目標(biāo),然后合適的人就會(huì)加入其中。
大約一個(gè)月后,Sam在門洛帕克(Menlo Park)舉辦了一場晚宴,參加宴會(huì)的有Dario、Chris、Paul、Ilya Sutskever、Elon Musk、Sam和其他一些人。
我們討論了AI領(lǐng)域的現(xiàn)狀、目前離人類級(jí)AI還有多遠(yuǎn)以及實(shí)現(xiàn)人類級(jí)AI還需要的東西等等。整場對話圍繞著“什么樣的組織可以最好地確保AI的有益性”展開。
答案很明顯:必須是非營利組織,因?yàn)闆]有任何利益沖突來影響其使命。此外,這樣組織還必須保持在研究的前沿(根據(jù)Alan Kay的名言,“預(yù)測未來的最好方法就是創(chuàng)造未來”)。為此,該組織需要有世界上最好的AI研究人員。
所以問題就變成了:是否有可能從頭開始創(chuàng)建一個(gè)擁有最優(yōu)秀AI研究人員的實(shí)驗(yàn)室?我們的結(jié)論:還是有機(jī)會(huì)。
這是我第一次見到Elon和Ilya,我對他們的印象非常深刻。Elon充滿了好奇心,他真誠地征求他人意見并用心傾聽每一份回答;而Ilya則是技術(shù)基礎(chǔ)的源泉,他是一位頭腦清晰的技術(shù)專家,知識(shí)廣博,視野開闊,并且總是能夠深入到當(dāng)前系統(tǒng)局限性和功能的具體細(xì)節(jié)。
我請Ilya對深度學(xué)習(xí)給出一個(gè)好的定義,以下是他的回答:
有監(jiān)督深度學(xué)習(xí)的目標(biāo)是解決幾乎所有“將X映射到Y(jié)”形式的問題。X包括圖像、語音或文本,Y包括類別甚至句子。將圖像映射到類別、將語音映射到文本、將文本映射到類別等等,如此種種,深度學(xué)習(xí)都是非常有用的,而且其他方法無法做到。
深度學(xué)習(xí)一大吸引人的特點(diǎn)是它在很大程度上是獨(dú)立于其他領(lǐng)域之外:在一個(gè)領(lǐng)域中學(xué)到的許多東西可以適用于其他領(lǐng)域。
深度學(xué)習(xí)模型中建立了抽象層,這些抽象可以完成工作,但很難理解它們究竟是如何做到的。模型通過使用反向傳播算法(簡單且高效)逐漸改變神經(jīng)網(wǎng)絡(luò)的突觸強(qiáng)度來學(xué)習(xí)。因此,我們可以用極少的代碼來構(gòu)建出大規(guī)模復(fù)雜的系統(tǒng)(因?yàn)槲覀冎恍枰帉懩P秃蛯W(xué)習(xí)算法的代碼,而非最終結(jié)果)。
晚宴結(jié)束后,Sam送我回城里。我們都認(rèn)同值得在AI領(lǐng)域做點(diǎn)什么。我知道,只有當(dāng)有人愿意全心全意地弄清楚這究竟是什么,誰又能夠加入其中,我們的愿景才會(huì)成為現(xiàn)實(shí)。那就讓我來當(dāng)這樣的人吧。
所以,我明天又要構(gòu)建一些有影響力的東西了。
5
OpenAI的愿景
那次晚宴上,我們談?wù)摿顺闪penAI實(shí)驗(yàn)室。雖然每個(gè)來參加晚宴的人都各抒己見,但并沒有一個(gè)清晰的愿景,而Elon和Sam則提出了自己的想法:OpenAI旨在構(gòu)建安全的人工智能以造福人類。我也想盡可能貢獻(xiàn)自己的力量,為了如愿以償,便開始和Sam一起組建團(tuán)隊(duì)。
不過我們?nèi)鄙倭艘粋€(gè)核心要素,即一位AI技術(shù)遠(yuǎn)見者,其直覺和想法可以幫助我們?nèi)〉猛黄啤?/p>
(從左至右依次為Ilya Sutskever, Alex Krizhevsky, Geoffrey Hinton)
顯然,Ilya Sutskever是最佳人選。Ilya可以說是一位藝術(shù)家,他常常通過機(jī)器學(xué)習(xí)來表達(dá)自己的感受(有時(shí)也會(huì)通過繪畫來表達(dá))。Geoffrey Hinton(深度學(xué)習(xí)教父)曾告訴我,AlexNet之所以能引發(fā)一場計(jì)算機(jī)視覺深度學(xué)習(xí)革命,在于Alex Krizhevsky高超的GPU編碼技能及Ilya的信念,即深度神經(jīng)網(wǎng)絡(luò)必定會(huì)在ImageNet競賽中獲勝。(Geoff對自己貢獻(xiàn)的管理技巧感到無比自豪。Alex非常討厭寫論文,Geoff告訴他,他在ImageNet上的性能每提高1%,他就可以把論文推遲一周。結(jié)果Alex拖延了15周。)
一直以來,我都認(rèn)為自己只能與相識(shí)多年的朋友共創(chuàng)公司。然而事實(shí)并非如此。八月下旬,我和Ilya在山景城共進(jìn)晚餐,當(dāng)時(shí)我就知道我們會(huì)一起合作,在此之前,我們也只在七月見過一次。我和Ilya聊得十分投機(jī),盡管我對機(jī)器學(xué)習(xí)研究的了解不多,他對工程和團(tuán)隊(duì)建設(shè)的認(rèn)識(shí)也沒有那么深入,但我們對彼此的成就印象十分深刻,也希望能夠相互學(xué)習(xí)。
我們交流了彼此的看法、汲取了彼此的長處。Ilya認(rèn)為,頂級(jí)研究人員希望在人工智能組織工作,而該組織致力于為世界創(chuàng)造最佳成果。在我看來,要想解決一些棘手問題,則需將私營企業(yè)的資源與學(xué)術(shù)界的使命相結(jié)合。
若無外界干預(yù),人工智能將會(huì)像自動(dòng)駕駛汽車一樣發(fā)揮自身的作用。一旦人工智能的潛力得以證實(shí),人們就會(huì)與之展開合作,而后則是一場場技術(shù)競賽。不過,人類級(jí)別的人工智能將會(huì)是一種與眾不同的變革性技術(shù),有其獨(dú)特的風(fēng)險(xiǎn)和收益。我們看到了這一機(jī)遇:在人工智能領(lǐng)域展開合作,匯集眾多頂尖研究人員,以取得史上最重大的科技突破。
Ilya和我一直在討論團(tuán)隊(duì)組建方案,直到該方案得以落實(shí)。期間,我們討論了戰(zhàn)略(即將從事什么工作)、文化(想雇用的人員,即同等重視工程和研究的人員)和策略(舉辦每日閱讀小組)。Alan Kay與我們共進(jìn)晚餐時(shí),向我們講述了施樂帕洛阿爾托研究中心(Xerox PARC)的故事,包括Alto的誕生及用硬件“在未來生存”,這些硬件在十年內(nèi)將花費(fèi)1000美元。
事后,Ilya對用餐期間的談話做了巧妙總結(jié):“雖然Alan的話我只聽懂了一半,但令人振奮不已。不過這頓飯幫我們驗(yàn)證了許多假設(shè),即怎樣才能構(gòu)建一支能將工程與研究相結(jié)合的有影響力的團(tuán)隊(duì)。
6
早期團(tuán)隊(duì)的招募
由于Ilya還在谷歌工作,因此無法幫忙招聘,這一工作就落到了我身上。8月至11月,由我負(fù)責(zé)創(chuàng)辦團(tuán)隊(duì)。不過,我對人工智能并不熟悉,不清楚如何招募優(yōu)秀的研究人員。我首先關(guān)注的是7月參加過晚宴的人,但不能確認(rèn)具體人選。
下一步,便是通過人際網(wǎng)絡(luò)與這些人取得聯(lián)系,并依次尋求他們的推薦,這與我以往的招聘方式有所不同。對于初創(chuàng)公司而言,首要挑戰(zhàn)總是要向候選人“兜售”使命,但在OpenAI,使命立刻引發(fā)大家的共鳴。于我而言,挑戰(zhàn)在于如何說服候選人相信這個(gè)未成形的組織。

人工智能領(lǐng)域頂尖人才的人際網(wǎng)絡(luò)對我?guī)椭艽?。一位朋友引薦我認(rèn)識(shí)Andrej Karpathy和Wojciech Zaremba(OpenAI聯(lián)合創(chuàng)始人),由于我并未從事該領(lǐng)域工作,他們對我說的話表示懷疑。Yoshua Bengio又將我引薦給Durk Kingma(曾任OpenAI研究科學(xué)家,現(xiàn)在谷歌研究團(tuán)隊(duì)),當(dāng)時(shí)后者對于我的提議表示很感興趣,不過這種興趣轉(zhuǎn)瞬即逝。真正的轉(zhuǎn)折點(diǎn)是John Schulman(OpenAI聯(lián)合創(chuàng)始人、研究科學(xué)家)的評(píng)價(jià),我跟他聊到這一組織的成立,他表示這樣的組織正是他所追尋的,能將學(xué)術(shù)界的開放與使命同私企的資源相結(jié)合,因此加入了我們。John的支持也引起了Andrej和Wojciech的關(guān)注。
招聘工程師相對容易一些。Trevor Blackwell是一位機(jī)器人專家,也是YC的合伙人,他一直在與Sam討論我們正在計(jì)劃的瘋狂想法。Vicki Cheung(現(xiàn)Gantry聯(lián)合創(chuàng)始人)是在我們成立贊助機(jī)構(gòu)“YC Research(現(xiàn)為OpenResearch)”之后申請加入的。那時(shí),我們雖未表明研究領(lǐng)域是AI,但她深受YC Research構(gòu)架的鼓舞,并表示很樂意參與我們團(tuán)隊(duì)的所有工作。
11月初,雖然我們對創(chuàng)始團(tuán)隊(duì)有了更深入的了解,但仍然需要讓大家正式加入進(jìn)來。在Sam的建議下,我們邀請了所有候選人去戶外漫步。期間,人人都真切地表達(dá)了內(nèi)心想法、觀點(diǎn),才思泉涌(實(shí)際上,該地也是Andrej提出Universe之地)?;爻讨?,一路上交通堵塞。不過幾乎沒人留意到這一點(diǎn),因?yàn)榇蠹伊牡锰度肓恕?/p>

我們給此次活動(dòng)的參與者都發(fā)了offer,并將offer的截止日期設(shè)置為12月1日,這樣我們就可以在12月初的NIPS(NeurIPS)機(jī)器學(xué)習(xí)會(huì)議上發(fā)布成員加入的消息。
“月末”就這樣開始了。Sam、Elon還有我和每個(gè)人都聊了聊,主要是讓大家相信這件事的真實(shí)性。除了一名完全無意涉足人工智能的工程師外,其他候選人都接受了我們的offer。
Fred Brooks在《人月神話》一書中提及了Robert Heinlein的故事,該故事講述了“登月”項(xiàng)目。該項(xiàng)目的總工程師總會(huì)被運(yùn)營任務(wù)分散注意力,例如關(guān)于運(yùn)輸車或電話的決策,這種情況一直持續(xù)到他收到一份報(bào)告,據(jù)報(bào)告顯示不再讓他負(fù)責(zé)所有與技術(shù)無關(guān)的任務(wù)。
這一故事給我留下了印象深刻,我認(rèn)為它同樣適用于構(gòu)建人工智能的項(xiàng)目。技術(shù)領(lǐng)導(dǎo)除了做實(shí)際技術(shù)工作以外,同時(shí)還應(yīng)該親自做決策。我不知道自己的工程技能何時(shí)才能派上用場,不過在此期間,我決定盡我所能幫Ilya分擔(dān)與研究無關(guān)的任務(wù)。
2016年1月4日,我們整個(gè)團(tuán)隊(duì)來到第一間辦公室(也就是我的公寓)開始工作。討論中,John和Ilya轉(zhuǎn)身打算在白板上寫點(diǎn)些什么,卻發(fā)現(xiàn)這兒沒有白板。我立即給他們買了一塊白板,還有一些辦公用品。

我們的第一間辦公室(配有白板)
在一月剩下的時(shí)間里,我負(fù)責(zé)組織團(tuán)隊(duì),幫忙確定哪些人負(fù)責(zé)哪些工作,以及團(tuán)隊(duì)想達(dá)成的目標(biāo)。我們討論了研究人員需要具備什么品質(zhì),踐行公司理念,設(shè)計(jì)并確保面試順利進(jìn)行。此外,我們還談?wù)摿嗽妇?、工作方式以及想要達(dá)成的目標(biāo)。我和Vicki購買了服務(wù)器,創(chuàng)建了Google Apps帳戶,同時(shí)對我們12月啟動(dòng)的Kubernetes集群進(jìn)行了維護(hù)。
余下的時(shí)間,我閱讀了Ian Goodfellow(GAN網(wǎng)絡(luò)發(fā)明者)的深度學(xué)習(xí)書籍(并寫下了書評(píng),由于我的評(píng)論比其官方評(píng)審員的評(píng)論更加全面,給他留下了深刻印象。因此,這也不失為一種招聘策略)。
7
Gym庫
比起使用新的數(shù)據(jù)集,使用一種新的算法通常能解決機(jī)器學(xué)習(xí)中的問題,Wojciech建議構(gòu)建一個(gè)庫來形成強(qiáng)化學(xué)習(xí)環(huán)境的標(biāo)準(zhǔn)(實(shí)際上是動(dòng)態(tài)數(shù)據(jù)集),現(xiàn)在稱之為Gym。這個(gè)代碼庫的質(zhì)量很快成為我們迭代速度的高階位(high-order bit)。二月底,我和John討論了Gym的公開發(fā)布時(shí)間。按照目前的發(fā)展情況,他認(rèn)為可能要到今年年底才能發(fā)布。

(我們正在用機(jī)器學(xué)習(xí)訓(xùn)練Fetch機(jī)器人。Gym支持控制物理機(jī)器人和模擬機(jī)器人。)
一時(shí)之間,工程學(xué)成了研究進(jìn)展的瓶頸。Ilya與我互換了角色,由他負(fù)責(zé)行政工作,這樣我就可以專注于技術(shù)工作。和John考察了這項(xiàng)工作之后,我們知道在四月底之前就能構(gòu)建好Gym。
在Stripe時(shí),我發(fā)現(xiàn)了一個(gè)能夠直接創(chuàng)建軟件系統(tǒng)的可重復(fù)模式,即專注于軟件,排除一切干擾,從早工作到晚。這樣一來便能激勵(lì)大家貢獻(xiàn)自己最好的作品(重要的是,是以輸出質(zhì)量來衡量而不是工作時(shí)間)。這是我感覺最有活力的時(shí)候:編程就如魔法變成現(xiàn)實(shí)一般,我所想象和描述的事情都將成為可能。這種模式產(chǎn)生了Stripe信用卡保險(xiǎn)庫(2010年構(gòu)建完畢,也就是在我假期回家的兩周內(nèi)完成的)、信用卡授權(quán)流程(在三周內(nèi)就能建成,而銀行構(gòu)建周期卻需要6-12個(gè)月)和奪旗賽(通常我和其他人都要花三周的時(shí)間)。從戰(zhàn)術(shù)上講,我可以選擇一個(gè)“試發(fā)行”日期和“正式”發(fā)布日期,間隔一兩周;我從未選擇過“試發(fā)行”日期,但從未錯(cuò)過“正式”發(fā)布日期。
隨之而來的是從未面臨過的挑戰(zhàn)。由于我并非該領(lǐng)域的專家,起初,引起了很多摩擦。我會(huì)構(gòu)造一個(gè)抽象的框架來幫助Wojciech的工作順利進(jìn)行,而John會(huì)發(fā)現(xiàn)這一舉動(dòng)阻礙了他的工作進(jìn)程。但很快,我就了解到哪些決定會(huì)影響研究的工作流程(例如人們?nèi)绾斡涗浿笜?biāo))以及哪些細(xì)節(jié)研究人員不會(huì)關(guān)注(例如人們?nèi)绾武浿埔曨l)。在確定了案例對研究的重要性之后,要保持一定的謙遜,才能做出最佳選擇。我通常會(huì)提出五個(gè)可能的備選方案,John則會(huì)指出其中有四個(gè)方案都不行。但大多數(shù)設(shè)計(jì)決策可以通過軟件工程的直覺做出,而無需深入了解相關(guān)領(lǐng)域。
幸運(yùn)的是,我不是一個(gè)人。大約在Gym發(fā)布的前六周,曾與我在Stripe一起研究CTF 3的Jonas Schneider聯(lián)系了我。短短幾天時(shí)間,我們就在Gym上建立了合作關(guān)系。因?yàn)樗嗽诘聡晕覀兺ㄟ^每日交接最終成功地完成了該項(xiàng)目。對于已經(jīng)建立好工作關(guān)系的人來說,這真的很奇妙,若一切從頭開始,我們不會(huì)保持如此緊密的工作關(guān)系。

(Gym發(fā)布后不久,我們在ICLR(國際表征學(xué)習(xí)大會(huì))上分發(fā)OpenAI的T恤。)
總的來說,機(jī)器學(xué)習(xí)系統(tǒng)可視為機(jī)器學(xué)習(xí)的核心之一——通常是一種高級(jí)算法,要想理解該算法,至少需要閱讀過幾章Ian的書——涉及大量軟件工程的內(nèi)容。工程可以圍繞數(shù)據(jù)進(jìn)行改組,提供輸入和輸出的封裝器,或調(diào)度分布式代碼,這些都會(huì)都以黑盒形式與核心(core)連接。我們在工程和研究方面作出的努力達(dá)到一定程度時(shí),機(jī)器學(xué)習(xí)就會(huì)取得進(jìn)步。工程方面每多一分努力(例如減少Universe延遲),我們的模型問題就會(huì)逐漸變得更容易,并且有機(jī)會(huì)完成當(dāng)前研究。
8
Universe平臺(tái)
在今年4月Gym上線后,我和Ilya開始調(diào)整組織流程。Sam和Elon都會(huì)到訪公司,提出一些指導(dǎo)意見,我們會(huì)根據(jù)其指導(dǎo)來確定團(tuán)隊(duì)的結(jié)構(gòu)及目標(biāo)。

(團(tuán)隊(duì)在第一間辦公室工作的場景。當(dāng)時(shí)辦公室有白板,只是圖片中未顯示。)
多樣、復(fù)雜的AI環(huán)境是必不可少的。Andrej提出了一個(gè)不錯(cuò)的建議,即創(chuàng)建一個(gè)Agent來控制Web瀏覽器,但這與Selenium測試工具有所沖突。我開始考慮使用VNC,以允許Agent從像素驅(qū)動(dòng)整個(gè)桌面。
但我們發(fā)現(xiàn),這種方法存在許多風(fēng)險(xiǎn)。例如,2013年DeepMind發(fā)布的Atari文章提出,他們花了50個(gè)小時(shí)從像素訓(xùn)練Pong游戲,我們的環(huán)境將比Pong更難。即使是做小規(guī)模的實(shí)驗(yàn),我們也需要花幾天時(shí)間,而且不會(huì)取得任何進(jìn)展。因此,我們設(shè)定了一個(gè)降低內(nèi)部風(fēng)險(xiǎn)的目標(biāo),即讓Agent在一小時(shí)內(nèi)學(xué)會(huì)Pong(如今我們已取得了突破:十分鐘內(nèi)便能解決Pong遇到的問題)。
就像構(gòu)建Gym時(shí)那樣,我專注于構(gòu)建VNC系統(tǒng),現(xiàn)稱之為Universe。與Gym不同的是,該項(xiàng)目并非旨在支持我們現(xiàn)有的研究方式,而是提出全新的問題。關(guān)于這一點(diǎn),我們每個(gè)團(tuán)隊(duì)都有負(fù)責(zé)人,他們負(fù)責(zé)照顧自身團(tuán)隊(duì)的成員,我們的工程師Jie Tang已開始帶頭招聘。因此,行政這一重?fù)?dān)并沒有完全落在Ilya身上。這十分幸運(yùn),因?yàn)檫@樣Ilya就能為該風(fēng)險(xiǎn)項(xiàng)目的首個(gè)版本構(gòu)建Agent。
一個(gè)從整個(gè)動(dòng)作空間隨機(jī)抽樣的Universe Agent(即隨意點(diǎn)擊、按鍵)。更多表現(xiàn)良好的Agent請參閱Universe發(fā)布的帖子。
Universe項(xiàng)目耗時(shí)相當(dāng)長,因此,需要合理分配時(shí)間來運(yùn)營項(xiàng)目。我找到了一個(gè)平衡點(diǎn),編碼時(shí),我會(huì)將時(shí)間進(jìn)行劃分。一次會(huì)議會(huì)扼殺整個(gè)上午/下午的生產(chǎn)力,若上午和下午都有會(huì)議,我將精疲力竭,從而導(dǎo)致晚間的編碼效率大大降低。因此,我開始將會(huì)議時(shí)間限制在清晨或午餐后,且每天的會(huì)議次數(shù)低于三次,隔天的會(huì)議次數(shù)不超過一次。
搭建Universe本身就是一項(xiàng)系統(tǒng)研究工作:雖然高級(jí)規(guī)范很簡單(允許Agent使用鍵盤/鼠標(biāo)/屏幕),但從來沒有人嘗試過構(gòu)建類似的系統(tǒng)。長期以來,人類一直可以用VNC控制一臺(tái)遠(yuǎn)程機(jī)器,但還無法實(shí)現(xiàn)以編程方式同時(shí)控制數(shù)十臺(tái)機(jī)器。
當(dāng)我們需要衡量系統(tǒng)的端到端延遲時(shí),Catherine Olsson和我構(gòu)建了一個(gè)系統(tǒng)來將時(shí)間戳嵌入圖像中。有時(shí)挑戰(zhàn)不是技術(shù)上的:當(dāng)研究因?yàn)橛?xùn)練數(shù)據(jù)有限而受阻時(shí),Tom Brown在24小時(shí)內(nèi)就組建了一個(gè)外包團(tuán)隊(duì)來玩游戲。有時(shí)候挑戰(zhàn)也可能很難以理解,比如當(dāng)Jonathan Gray注意到由于外包人員的筆記本電腦CPU較低端,游戲動(dòng)態(tài)可能會(huì)與AI有所不同。
一天,當(dāng)我正在努力重組一些JSON基準(zhǔn)規(guī)范時(shí),我意識(shí)到:我們需要重新構(gòu)建這些規(guī)范,因?yàn)闆]有人從未嘗試過在數(shù)千個(gè)游戲中對單個(gè)Agent進(jìn)行基準(zhǔn)測試。在OpenAI,做艱苦的工作也是最基本的。
在接下來的幾個(gè)月里,由Dario Amodei和Rafa? Józefowicz負(fù)責(zé)Universe的研究工作。他們都是夜貓子,我也和他們一起熬過了很多個(gè)夜晚,解決研究中遇到的問題。有時(shí)我也想躺在床上睡覺,但每修復(fù)一個(gè)Bug都會(huì)使研究加速幾個(gè)小時(shí)。每個(gè)人的工作中都有一些非常有用的東西,能讓研究人員提出人類此前從未有過的問題。

Universe團(tuán)隊(duì)在辦公室開會(huì)
到發(fā)布時(shí),Universe團(tuán)隊(duì)已經(jīng)有約20個(gè)人了。Universe現(xiàn)在是一個(gè)旗艦項(xiàng)目,也是我們研究戰(zhàn)略的核心部分。Universe的例子恰好說明“工程”是如何成為當(dāng)今ML研究的瓶頸,這也讓我知道為什么有那么幾天只想讀Ian的書了。
9
下一步發(fā)展方向
我們現(xiàn)在是一個(gè)擁有四十人的公司,需要有人全力來優(yōu)化團(tuán)隊(duì)。自O(shè)penAI成立以來,我們一直在尋找合適的首任技術(shù)經(jīng)理。幾個(gè)月前,Sam向我介紹了一位特別出色的工程執(zhí)行人:Erika Reinhardt。Erika曾在Planet Labs擔(dān)任產(chǎn)品工程總監(jiān),現(xiàn)在在和Sam一起運(yùn)營voteplz.org。在Planet Labs時(shí),Erika是對端到端衛(wèi)星成像系統(tǒng)了解最深的人之一。她工作努力,自驅(qū)力強(qiáng),總能把事情做好,前同事都說她是所能遇到的最聰明的人。Sam和我就準(zhǔn)備邀請她加入公司。

公司團(tuán)建,2016年10月
但在選舉會(huì)和Universe發(fā)布會(huì)上與我們合作時(shí)才是她最具魅力的時(shí)刻,她發(fā)現(xiàn)她的領(lǐng)導(dǎo)技能在這種環(huán)境中非常適用。她告訴我:在看到OpenAI在參議院舉辦的首次AI聽證會(huì)上發(fā)言的那一刻,她就下定決定要加入OpenAI。當(dāng)時(shí)OpenAI說:我們正處于重大技術(shù)變革的開端,此時(shí)最重要就是要把握時(shí)機(jī)。
在Stripe時(shí),Marc Hedlund和我常會(huì)遇到他在之前的許多公司中都遇到的問題,所以他喜歡開玩笑說所有公司都一樣。就這一點(diǎn)而言,確實(shí)有現(xiàn)實(shí)依據(jù):如果將范圍縮小一點(diǎn),就會(huì)發(fā)現(xiàn)公司都是圍繞一個(gè)目標(biāo)來把人組織起來。但每個(gè)公司要解決的問題又不一樣,這又決定了公司之間會(huì)有所差異。
大多數(shù)初創(chuàng)公司都是先創(chuàng)造出一種技術(shù),然后隨著時(shí)間的推移對其進(jìn)行運(yùn)營和擴(kuò)展。OpenAI是創(chuàng)造新技術(shù)的工廠,這意味著我們必須構(gòu)建公司來創(chuàng)造新事物。我們需要維護(hù)基礎(chǔ)設(shè)施和大型代碼庫,但它們又滿足了我們快速行動(dòng)、創(chuàng)新和通過結(jié)合軟件工程和機(jī)器學(xué)習(xí)研究來達(dá)到新高度的需求。
在OpenAI當(dāng)CTO的這段時(shí)光里,我做的正好是我最喜歡做的事:寫代碼。但即便如此,人仍然是我關(guān)注的焦點(diǎn),所以我在OpenAI的故事是與社會(huì)的故事,而不是與技術(shù)的故事。
在未來,我們團(tuán)隊(duì)要繼續(xù)攜手并進(jìn),共同應(yīng)對海因萊因短篇小說中“卡車或電話”的挑戰(zhàn),OpenAI才能持續(xù)發(fā)展。在此,我向Ilya、Sam、Elon以及為OpenAI付出過的每一個(gè)人表示衷心的感謝。
