?1:1公有云能力整體輸出,騰訊云“七劍”下云端
共 7143字,需瀏覽 15分鐘
·
2024-07-17 20:10
【全球云觀察 | 科技熱點(diǎn)關(guān)注】
曾幾何時(shí),云計(jì)算技術(shù)的興起,為千行萬業(yè)的數(shù)字化創(chuàng)新帶來了諸多新機(jī)遇,同時(shí)也催生了新產(chǎn)業(yè)新業(yè)態(tài)新模式,激發(fā)出高質(zhì)量發(fā)展的科技新動能。很顯然,如今的云創(chuàng)新已成為高質(zhì)量發(fā)展的重要引擎之一,有助于大力推動數(shù)字經(jīng)濟(jì)的創(chuàng)新發(fā)展。
01
「to B化浪潮異常兇猛」
公有云“出圈”勢在必行
隨著企業(yè)上云成為習(xí)以為常的事,云計(jì)算不斷驅(qū)動行業(yè)創(chuàng)新,系列成果競相涌現(xiàn),進(jìn)而引發(fā)了公有云to B化大潮。全球云觀察分析指出,賦能千行萬業(yè)的高質(zhì)量創(chuàng)新發(fā)展,云廠商加強(qiáng)公有云整體能力的輸出,將在行業(yè)數(shù)智化發(fā)展中起到至關(guān)重要的作用。
然而,一個全新的AI時(shí)代正在開啟,生成式人工智能(Generative artificial intelligence,GAl)迅速發(fā)展并影響著人類社會,給千行萬業(yè)帶來前所未有的震蕩與變革。就此,Gartner最近分析指出,生成式人工智能正在推動中國企業(yè)數(shù)據(jù)中心設(shè)計(jì)轉(zhuǎn)型,鑒于監(jiān)管要求以及數(shù)據(jù)隱私和安全方面的擔(dān)憂,相比國外企業(yè),中國企業(yè)更傾向于在本地而非通過公有云部署生成式人工智能。
然而,之前采取本地部署的傳統(tǒng)私有云卻面臨新的挑戰(zhàn),難以勝任生成式人工智能等新業(yè)務(wù)發(fā)展,維護(hù)管理復(fù)雜麻煩暫且不說,軟硬件更新迭代成本也很高,此外應(yīng)用部署與迭代效率低下,敏捷高效更是難以為繼。
這將意味著什么呢?公有云廠商生逢其時(shí),重任在肩,針對生成式人工智能的發(fā)展,施展云能力的舞臺將變得無比廣闊。
如此一來,對于公有云能力整體輸出全面、專業(yè)、到位的云廠商,必然能在這一輪大模型的AI大潮中,贏得先機(jī),乘風(fēng)破浪,直掛云帆濟(jì)滄海,實(shí)現(xiàn)自身的高質(zhì)量發(fā)展。這一切,又將迫使公有云廠商持續(xù)走下云端,走出公有云的圈子,開啟新一輪to B行業(yè)落地的熱烈較量。
就其云計(jì)算不同類型而言,公有云有著成本效益、靈活性和可擴(kuò)展性等優(yōu)勢,適用于初創(chuàng)公司、中小企業(yè)和個人用戶等需要快速、靈活和低成本的應(yīng)用場景。分布式云有著可用性、可靠性和可擴(kuò)展性等優(yōu)勢,適合大型企業(yè)和金融機(jī)構(gòu)等需要高度可靠和可用,同時(shí)兼顧在多個地理位置部署多個云平臺的應(yīng)用場景。
騰訊云不僅在公有云領(lǐng)域有著成熟的產(chǎn)品與技術(shù)陣營,而且在分布式云領(lǐng)域準(zhǔn)備充分且創(chuàng)新一直就沒有停止過。
目前,騰訊云基礎(chǔ)設(shè)施覆蓋地區(qū)達(dá)21個,運(yùn)營可用區(qū)58個,全球服務(wù)器數(shù)量100W+,全球加速節(jié)點(diǎn)數(shù) 3200+,全球帶寬儲備200T。資源決定實(shí)力,能力決定未來。騰訊云以卓越的技術(shù)能力打造豐富的行業(yè)解決方案,構(gòu)建開放共贏的云端生態(tài),助力行業(yè)數(shù)智化的高質(zhì)量發(fā)展。
長期以來,從公有云到分布式云,騰訊云憑借其深厚的實(shí)力不斷貼近行業(yè)數(shù)智化需求,賦能千行萬業(yè)的創(chuàng)新發(fā)展。早在2021年,騰訊云就已經(jīng)宣布推出了自己的分布式云戰(zhàn)略,正式官宣“出圈”。騰訊云公有云能力不斷下沉,在分布式云領(lǐng)域持續(xù)創(chuàng)新進(jìn)化,進(jìn)一步豐富產(chǎn)品與服務(wù),有效整合公有云能力,助力企業(yè)數(shù)智化轉(zhuǎn)型的加速,為分布廣闊的千行萬業(yè)貢獻(xiàn)分布式云的創(chuàng)新力量。
深入分析來看,在分布式云領(lǐng)域,騰訊云分布式云形成了不同云計(jì)算形態(tài)、不同部署位置和不同規(guī)模的全場景覆蓋,并幫助用戶實(shí)現(xiàn)一致管理、高效便捷的建云、上云、用云與管云,助力降低部署與維護(hù)成本,提升應(yīng)用效率。騰訊云分布式云價(jià)值優(yōu)勢尤為突出,不僅專屬安全,而且彈性便捷,這主要?dú)w功于騰訊云1:1公有云能力的復(fù)制,與公有云同構(gòu)而生,加上持續(xù)不斷豐富的云服務(wù)、生態(tài)服務(wù),從而成為了在AI大時(shí)代下的新一代本地化云平臺首選。
騰訊云分布式云在傳統(tǒng)私有云替代、本地合規(guī)上云、邊緣算力、行業(yè)云、產(chǎn)業(yè)云、集團(tuán)-分支云、本地智算平臺、大型智算中心和企業(yè)業(yè)務(wù)出海等典型場景實(shí)踐中得以能力的充分發(fā)揮,不僅具備與公有云一致體驗(yàn),而且為具體場景應(yīng)用帶來低延遲、高可靠性、高性價(jià)比的效果,同時(shí)也滿足本地化算力的數(shù)據(jù)合規(guī)性。即便是強(qiáng)合規(guī)的政府、金融等應(yīng)用場景,騰訊云分布式云的云邊端協(xié)同能力也可以發(fā)揮到極致,實(shí)現(xiàn)數(shù)智化轉(zhuǎn)型的降本增效。
很顯然,騰訊云分布式云是一朵與時(shí)俱進(jìn)的云。在這之前,為to B千行萬業(yè)創(chuàng)新輸出,騰訊云分布式云形態(tài)不斷豐富,已經(jīng)打造了專屬可用區(qū)CDZ、本地專用集群CDC、專有云TCE、云原生套件TCS、云原生分布式云(TKE Anywhere/Connector/Register Node)和邊緣安全加速平臺EdgeOne總計(jì)六大分布式云的核心產(chǎn)品線,有效支撐了用戶云原生跨平臺算力管理、全位置算力覆蓋、專有合規(guī)上云等不同需求,助推行業(yè)數(shù)智化發(fā)展,并在政府、運(yùn)營商、能源、金融、工業(yè)、交通出行、互聯(lián)網(wǎng)、教育、醫(yī)療等行業(yè)領(lǐng)域已經(jīng)實(shí)現(xiàn)廣泛落地,打造了一朵引人注目的金融云與政務(wù)云
隨著人工智能技術(shù)的飛速發(fā)展,AI基礎(chǔ)設(shè)施已經(jīng)成為支撐企業(yè)智能化轉(zhuǎn)型的關(guān)鍵要素。為了滿足企業(yè)在AI領(lǐng)域的極致需求,騰訊云一直致力于打造高性能、高可用的AI基礎(chǔ)設(shè)施。
在過去的發(fā)展中,騰訊云服務(wù)了大量的公有云客戶和自研業(yè)務(wù),積累了豐富的產(chǎn)品技術(shù)能力。在GPU硬件服務(wù)器基礎(chǔ)之上,為客戶提供了高性能計(jì)算集群HCC軟件能力、RDMA智能高性能網(wǎng)絡(luò)IHN、高性能存儲TurboFS、軟件加速框架Taco,打造出高性能、高性價(jià)比均領(lǐng)先業(yè)界的強(qiáng)大AI算力,可大幅提升AI訓(xùn)練和推理業(yè)務(wù)性能,實(shí)現(xiàn)萬億參數(shù)大模型訓(xùn)練時(shí)間縮短 80%。
為此,騰訊云融入諸多創(chuàng)新能力于2024年7月正式推出騰訊云智算套件,持續(xù)將公有云積攢的雄厚技術(shù)能力再次1:1對外輸出,支持私有化與分布式云部署。騰訊云智算套件不僅適用企業(yè)組織基于自有硬件搭建高性能專有智算云,滿足單租戶情況下的大規(guī)模物理算力集群場景、自研大模型場景與資源共享場景,而且也適用平臺化運(yùn)營形態(tài),滿足多租戶情況下的云化算力集群場景、資源隔離場景,以及對外售賣、計(jì)量計(jì)費(fèi)場景。
由此可見,騰訊云如今“出圈”的能力表現(xiàn)得更為細(xì)致化、更為極致化、更為接地氣。不過,作為早已“出圈”的騰訊云,都如此倚重智算套件的七大技術(shù)能力,這樣說來,該七大技術(shù)能力必然呈現(xiàn)出了異乎尋常的創(chuàng)新。
02
「“七劍”下云端」
新品“智算套件”到底暗藏什么玄機(jī)?
在云廠商to B化發(fā)展大趨勢中,對于騰訊云而言,七大技術(shù)能力通過智算套件解決方案強(qiáng)力輸出,猶如“七劍”下天山一樣鋒芒出鞘,誰與爭鋒。
或許你會問,“七劍”下云端,智算套件到底暗藏著什么玄機(jī)呢?下天山的七劍之所以在江湖上非常有吸引力,在于七劍擁有各自的神奇屬性與獨(dú)特功能。智算套件的七大技術(shù)創(chuàng)新也同樣擁有不同的目的與價(jià)值,并且能為用戶智算需求帶來應(yīng)有的創(chuàng)新回報(bào)。
由龍劍之高性能計(jì)算集群HCC。晦明大師采用玄鐵打造的由龍劍名不虛傳,一劍既出,無堅(jiān)不摧,眾劍臣服。騰訊云的高性能計(jì)算集群HCC好似“由龍劍“,無往不利。HCC采用騰訊云星星海自研服務(wù)器,對外提供最新代次GPU實(shí)例。憑借騰訊云獨(dú)創(chuàng)的軟硬件協(xié)同優(yōu)化,支持訓(xùn)練性能提升30%以上,為大模型訓(xùn)練提供高性能、高帶寬、低延遲的智算能力支撐。可謂性能超強(qiáng),且又高可用,對于模型訓(xùn)練各種算力挑戰(zhàn)迎刃而解,超100小時(shí)連續(xù)訓(xùn)練不在話下。
莫問劍之智能高性能網(wǎng)絡(luò)IHN。智能算力存在“木桶短板效應(yīng)”,只是依靠GPU卡不足以發(fā)揮算力優(yōu)勢,相關(guān)網(wǎng)絡(luò)、存儲等因素對其影響也頗大。正所謂大集群不等于大算力。
莫問劍屬于天山七劍中造型最為古樸的利器,烏黑劍刃,修長彈性,劍招善變,應(yīng)對自然,使用者需要有大智慧。軟硬一體的智算網(wǎng)絡(luò)解決方案(IHN)猶如莫問劍,計(jì)算子網(wǎng)絡(luò)的高帶寬、高智能可以靈活地應(yīng)對各類智算場景下的網(wǎng)絡(luò)挑戰(zhàn)。可謂莫問智算有愧,只求IHN無悔。在對外輸出IHN時(shí)也如莫問劍一樣富有彈性,騰訊云提供軟硬一體的IHN產(chǎn)品將騰訊云領(lǐng)先的GPU網(wǎng)絡(luò)能力向用戶輸出。
IHN擁有3.2Tbps超高接入帶寬的RoCE網(wǎng)絡(luò),相比上一代產(chǎn)品實(shí)現(xiàn)了60%的通信效率提升。值得一提的是,IHN采用一套網(wǎng)絡(luò)架構(gòu)靈活支持多種異構(gòu)卡混跑接入,性能與智能的雙雙優(yōu)化不僅降低了網(wǎng)絡(luò)通信時(shí)間,還間接提升了GPU的利用率。
IHN全棧自研的軟硬一體技術(shù)保證了極致的性能和統(tǒng)一的產(chǎn)品體驗(yàn),業(yè)界一流的建設(shè)效率加上分鐘級集群自愈能力、全鏈路的精細(xì)監(jiān)控讓客戶應(yīng)對自如,完整地保障了客戶算力的穩(wěn)定運(yùn)行。RDMA創(chuàng)新標(biāo)桿,IHN當(dāng)之無愧。
青干劍之高性能分布式文件存儲TurboFS。青干劍以隕石鍛造,千錘百煉,青銅凹凸,奇鈍無比,能守大局。何為大模型訓(xùn)練與推理的大局,其核心必在數(shù)據(jù)存儲。騰訊云自研高性能存儲TurboFS好比青干劍一樣,歷經(jīng)多重創(chuàng)新,基于分布式架構(gòu),采取多級緩存加速,實(shí)現(xiàn)100GBps存儲帶寬與1000萬IOPS性能,滿足大模型訓(xùn)練需要的極致性能,能守住用戶AI應(yīng)用的數(shù)據(jù)存儲大局。
事實(shí)上,大模型訓(xùn)練、推理對存儲系統(tǒng)要求能存儲更多數(shù)據(jù),擁有更大吞吐,實(shí)現(xiàn)更高并發(fā)。因?yàn)門urboFS屬于騰訊云自研的高性能并行文件存儲,代碼都在自己手里,性能調(diào)優(yōu)能力自然更佳,可以幫助用戶優(yōu)化大模型訓(xùn)練、高性能計(jì)算、視頻制作等極端場景下的存儲性能,特別是針對智算中心千卡萬卡并發(fā)讀寫有奇效,確保用戶的應(yīng)用成功,讓業(yè)務(wù)無感知。
騰訊云在自研并行文件存儲系統(tǒng)的過程中,還實(shí)現(xiàn)了不少新突破,而這些技術(shù)突破讓用戶模型訓(xùn)練享受到業(yè)界少有的存儲高性能。比如通過持久化客戶端緩存技術(shù),將裸金屬服務(wù)器本地NVMe SSD和Turbo文件系統(tǒng)構(gòu)成統(tǒng)一命名空間,實(shí)現(xiàn)微秒級延時(shí),融入閃存技術(shù)的參與自然可以解決大數(shù)據(jù)量、高帶寬、低延時(shí)的大模型場景訴求。此外因?yàn)橹С肿詣永錈釘?shù)據(jù)分層技術(shù),自動沉降低頻訪問的Checkpoint和樣本文件,從而帶來存儲成本的極致優(yōu)化。
競星劍之云原生調(diào)度編排TKE&qGPU。競星劍的特點(diǎn)劍輕靈巧,藏身方便,神速迅猛,亦動亦靜,“疾雷不及掩耳,?迅電不及瞑目”之勢解決戰(zhàn)斗。云原生調(diào)度編排TKE&qGPU與競星劍的特質(zhì)不謀而合,采用容器編排技術(shù),敏捷高效支持智算應(yīng)用。
騰訊云容器服務(wù)平臺TKE支持原生K8S API,通過插件機(jī)制和高性能基礎(chǔ)設(shè)施進(jìn)行集成,同時(shí)支持多種容器GPU插件,支持RDMA高性能網(wǎng)絡(luò)。qGPU作為騰訊自研的新一代容器GPU虛擬化方案,精準(zhǔn)切分GPU實(shí)現(xiàn)GPU資源虛擬化,讓GPU資源實(shí)現(xiàn)更好的池化,調(diào)用GPU資源神速迅猛,可以很好應(yīng)對異構(gòu)智算挑戰(zhàn),解決智算資源利用率低的問題,支持在離線混合部署能力,GPU利用率壓榨到極致,從而也帶來了部署密度20%的提升。同時(shí)還擁有GPU Manager的算力隔離能力,讓算力智能化實(shí)現(xiàn)GPU共享中的干擾問題。
日月劍之訓(xùn)練加速TACO Train。針對大模型訓(xùn)練,軟件加速框架TACO帶來前所未有的性能支撐,可以為用戶帶來創(chuàng)新體驗(yàn)。TACO Train好比AI訓(xùn)練性能加速的日月劍,日月劍由兩把相連的母子劍組成,攻擊范圍可大可細(xì),亦可雙劍一體出擊。TACO時(shí)而雙劍合一實(shí)現(xiàn)訓(xùn)練與推理的一體化,時(shí)而單劍出擊滿足訓(xùn)練高性能加速需求。可謂變化多樣,滿足AI訓(xùn)練與推理的性能苛刻要求。
作為騰訊云自研的大模型訓(xùn)練加速引擎,TACO Train對網(wǎng)絡(luò)協(xié)議、通信策略、AI框架、模型編譯有著獨(dú)創(chuàng)性的大量系統(tǒng)級優(yōu)化,大幅節(jié)約訓(xùn)練調(diào)優(yōu)和算力成本,成為大模型型訓(xùn)練加速的日月劍,可以根據(jù)用戶訓(xùn)練的規(guī)模實(shí)現(xiàn)智算資源的優(yōu)化利用。
舍神劍之推理加速TACO LLM。舍神劍攻勢力大,寬大鈍重,能開山辟石,善擔(dān)當(dāng)。騰訊云推出的這款易部署的大語言模型推理加速引擎,面對模型參數(shù)大的壓力從不退縮,猶如舍神劍那樣善于擔(dān)當(dāng)重任,能將并行計(jì)算能力與分布式推理能力發(fā)揮到極致,應(yīng)對用戶“模型大,一張卡放不下”的尷尬。
TACO-LLM采用分布式推理框架,擁有動態(tài)Batching、Paged Attention等多種特性,支持多個主流模型。作為AI的核心引擎,TACO-LLM可以快速接收用戶的請求,并且迅速進(jìn)行處理和回應(yīng)。因?yàn)門ACO-LLM基于騰訊云異構(gòu)計(jì)算產(chǎn)品研發(fā),所以更能充分利用計(jì)算資源的并行計(jì)算能力,從而可以帶來更高吞吐和更低時(shí)延,處理模型推理請求吞吐性能提升了78%。模型再大也不怕,TACO-LLM加速提升語言模型的推理效能,帶來兼顧高吞吐和低時(shí)延的推理效果,從而減少了生成結(jié)果的等待時(shí)間,提高推理流程效率。
天瀑劍之通信套件TCCL。天瀑劍作為雙頭劍,攻守兼?zhèn)洌?xì)長善藏,劍光善變,顫動如飛瀑流水,幻化無窮。作為騰訊集合通訊加速套件TCCL,宛如一把天瀑劍那樣善于應(yīng)對各種變數(shù)的挑戰(zhàn),以自身強(qiáng)大的集合通訊能力,敏捷支持AI大模型訓(xùn)練和推理,其強(qiáng)大的網(wǎng)絡(luò)拓?fù)涓兄夹g(shù)能夠減少了50%~80% SPINE流量,帶來大模型訓(xùn)練場景下的極致的網(wǎng)絡(luò)性能。
誠然,“七劍”下云端,憑借1:1公有云能力整體輸出,打造了智算套件,不僅讓騰訊云擁有了新的超強(qiáng)戰(zhàn)斗力,而且也可以讓更多的行業(yè)用戶從中享受到智算帶來的紅利,從而加速數(shù)智化轉(zhuǎn)型進(jìn)程,迎來高質(zhì)量發(fā)展的新機(jī)遇。
03
「小結(jié)」
Al Infra整裝進(jìn)發(fā),數(shù)智賦能勠力爭先
全球云觀察分析認(rèn)為,從全球千行萬業(yè)的發(fā)展趨勢來看,下一個十年,AI創(chuàng)新和AI算力創(chuàng)新將是不可或缺的新質(zhì)生產(chǎn)力。AI基礎(chǔ)設(shè)施理所當(dāng)然成為了支撐企業(yè)數(shù)字化、智能化轉(zhuǎn)型的關(guān)鍵要素。為了滿足千行萬業(yè)在AI時(shí)代的新算力需求,作為公有云領(lǐng)域著名代表廠商,騰訊云基于強(qiáng)大的公有云體系與能力,自研攻克多重技術(shù)難題,鍛造出助力數(shù)智化轉(zhuǎn)型的“七劍”,特別整體封裝為騰訊云智算套件,構(gòu)建起了智算時(shí)代的騰訊云“Al Infra”。
進(jìn)一步分析來看,厚積薄發(fā)才能鑄就輝煌,而成熟穩(wěn)定的智算套件才是用戶之選。騰訊云智算套件的推出是基于服務(wù)公有云百萬客戶大規(guī)模訓(xùn)練、推理等多種智算場景,滿足算力、吞吐、時(shí)延極致性能,相當(dāng)于支撐百萬張卡集群量級的性能需求。以及服務(wù)騰訊內(nèi)部超600個應(yīng)用,加持騰訊混元大模型,支持?jǐn)?shù)十萬張卡集群量級的運(yùn)行,支撐日均調(diào)用次數(shù)達(dá)2億次的高并發(fā),智算套件可謂集公有云與騰訊自生態(tài)應(yīng)用的能力于一身。而騰訊云智算套件的七大技術(shù)能力組合,也可以稱得上千錘百煉磨“七劍”了。如今出鞘下云端,必然將掀起一場云廠商to B化的新熱潮。
況且無論是由龍劍之高性能計(jì)算集群HCC、莫問劍之智能高性能網(wǎng)絡(luò)IHN、青干劍之高性能分布式文件存儲TurboFS、競星劍之云原生調(diào)度編排TKE&qGPU、日月劍之訓(xùn)練加速TACO Train、舍神劍之推理加速TACO LLM,還是天瀑劍之集合通訊庫TCCL,七劍齊出,數(shù)智爭先,在公有云、分布式云領(lǐng)域都將鋒芒畢露。
今有詩云:
千錘百煉磨七劍,順勢出鞘下云端。
云上全能全輸出,數(shù)智賦能力爭先。
驕陽盛夏,七劍出鞘,開箱即用,智算嘗鮮。因此,我們有理由相信,騰訊云智算套件將讓更多企業(yè)的數(shù)智化發(fā)展變得輕松起來。同時(shí),一個全新的“Al Infra”正在公有云、分布式云中脫穎而出,這意味著騰訊云在AI與大模型時(shí)代將獲得全新崛起,我們拭目以待。
目前,Al Infra的組成已經(jīng)十分豐富與完善,除了強(qiáng)大的智算能力,還主要包括數(shù)據(jù)管理與提效(向量數(shù)據(jù)庫+大數(shù)據(jù)ES)、開發(fā)增質(zhì)(Cloud Studio +AI代碼助手)等全面能力。最近,騰訊云整合在AI基礎(chǔ)設(shè)施方面的技術(shù)積累,攜手Gartner聯(lián)名發(fā)布了業(yè)內(nèi)首個《AI原生云建設(shè)與加速》白皮書,指引企業(yè)在AI原生時(shí)代找到價(jià)值、成本和風(fēng)險(xiǎn)的最佳平衡點(diǎn),并探索未來創(chuàng)新的無限可能。
進(jìn)一步了解Al Infra及《AI原生云建設(shè)與加速》白皮書,請掃下圖二維碼。??????
