<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          獨(dú)家 | 一文揭開(kāi)領(lǐng)英機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施的面紗-領(lǐng)英機(jī)器學(xué)習(xí)架構(gòu)和技術(shù)概覽

          共 3366字,需瀏覽 7分鐘

           ·

          2022-05-23 01:07


          作者:Jesus Rodriguez

          翻譯:王闖(Chuck)

          校對(duì):歐陽(yáng)錦

          本文約1700,建議閱讀5分鐘
          本文介紹了全球知名職業(yè)社交平臺(tái)領(lǐng)英(LinkedIn)背后的大規(guī)模機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施,從中我們得以一窺硅谷互聯(lián)網(wǎng)大廠的機(jī)器學(xué)習(xí)架構(gòu)和工程技術(shù)實(shí)踐前沿。

          標(biāo)簽:機(jī)器學(xué)習(xí)、架構(gòu)、TensorFlow、領(lǐng)英、LinkedIn


          圖片來(lái)源:
          https://solutionsreview.com/business-intelligence/machine-learning-linkedin-groups/

          ?

          構(gòu)建大規(guī)模機(jī)器學(xué)習(xí)是?條充滿(mǎn)挑戰(zhàn)的道路,沒(méi)有多少過(guò)往案例可以參考。我在Invector Labs(譯者注:一家使用人工智能改進(jìn)軟件開(kāi)發(fā)的公司)的團(tuán)隊(duì)最近發(fā)布了一份PPT報(bào)告,總結(jié)了我們?cè)跇?gòu)建?規(guī)模機(jī)器學(xué)習(xí)解決?案過(guò)程中學(xué)到的?些經(jīng)驗(yàn)教訓(xùn),當(dāng)然我們也?直在學(xué)習(xí)該領(lǐng)域的其他公司是如何解決這些問(wèn)題的。

          領(lǐng)英(LinkedIn)是多年來(lái)?直將機(jī)器學(xué)習(xí)應(yīng)?于?規(guī)模場(chǎng)景的公司之?,但我們對(duì)這家軟件巨頭使?的具體?法和技術(shù)卻知之甚少。最近,領(lǐng)英?程團(tuán)隊(duì)發(fā)布了?系列博客?章,就他們的機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施和實(shí)踐提出了?些?常有趣的?解。雖然說(shuō)領(lǐng)英的很多應(yīng)用場(chǎng)景是特定的,但這些技術(shù)和最佳實(shí)踐方案普遍適?于許多?型的機(jī)器學(xué)習(xí)解決?案。

          人機(jī)閉環(huán)

          領(lǐng)英的機(jī)器學(xué)習(xí)架構(gòu)最有意思的其中一點(diǎn)是考慮了如何引入“人”作為機(jī)器學(xué)習(xí)?作流的?部分。讓我們以?個(gè)場(chǎng)景為例,領(lǐng)英需要發(fā)現(xiàn)不同職位頭銜之間的關(guān)系,比如“高級(jí)軟件?程師”或“?席程序員”,從而用來(lái)改善搜索體驗(yàn)。領(lǐng)英會(huì)讓人工分類(lèi)專(zhuān)家來(lái)標(biāo)記頭銜之間的關(guān)系,以便?于機(jī)器學(xué)習(xí)模型,例如有助于發(fā)現(xiàn)頭銜之間其他關(guān)系的?短記憶?絡(luò)(Long-Short-Term-Memory networks)。該機(jī)器學(xué)習(xí)架構(gòu)就是領(lǐng)英知識(shí)圖譜(LinkedIn Knowledge Graph)的基礎(chǔ)。

          ?規(guī)模機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施?
          ?
          領(lǐng)英機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施的核?是?個(gè)名為Pro-ML的專(zhuān)有系統(tǒng)。從概念上來(lái)講,Pro-ML控制機(jī)器學(xué)習(xí)模型從訓(xùn)練到監(jiān)控的整個(gè)?命周期。為了擴(kuò)展Pro-ML,領(lǐng)英自建了?個(gè)架構(gòu),整合了?些開(kāi)源技術(shù)(如Kafka或Samza)和其他一些基礎(chǔ)設(shè)施構(gòu)建模塊(如Spark或Hadoop YARN)。

          圖片來(lái)源:?
          https://engineering.linkedin.com/blog/2018/09/open-sourcing-tony--native-support-of-tensorflow-on-hadoop


          盡管領(lǐng)英機(jī)器學(xué)習(xí)技術(shù)棧中的?多數(shù)技術(shù)都是眾所周知的,但仍有?些新的貢獻(xiàn)值得進(jìn)?步探索:


          • Ambry:領(lǐng)英的Ambry是?個(gè)分布式不可變blob存儲(chǔ)系統(tǒng),它具有高可?性,非常易于擴(kuò)展,經(jīng)過(guò)優(yōu)化能夠提供下至KB、上至GB??的不可變對(duì)象,具備高吞吐和低延遲特性,并?持從客戶(hù)端到存儲(chǔ)層的相互傳輸。該系統(tǒng)已經(jīng)被部署在跨多個(gè)數(shù)據(jù)中?,能在主動(dòng)-主動(dòng)設(shè)置(active-active setup)模式下?作,存儲(chǔ)成本大大降低。

          • TonY:TensorFlow on YARN(TonY)是?個(gè)原?運(yùn)行在Apache Hadoop上的TensorFlow框架。TonY?持將單節(jié)點(diǎn)或分布式TensorFlow訓(xùn)練作為Hadoop應(yīng)?程序運(yùn)行。

          • PhotonML:Photon ML是?個(gè)基于Apache Spark的機(jī)器學(xué)習(xí)庫(kù)。?前,Photon ML?持訓(xùn)練不同類(lèi)型的?義線性模型(GLM)和?義線性混合模型(GLMMs/GLMix),如:邏輯回歸、線性回歸和泊松回歸。


          Hadoop 上的 TensorFlow

          ?

          上個(gè)?,領(lǐng)英?程團(tuán)隊(duì)在YARN(TonY)框架上開(kāi)源了其TensorFlow的第?個(gè)版本。該版本的?標(biāo)是使TensorFlow程序能夠在分布式Y(jié)ARN集群上運(yùn)行。雖然TensorFlow?作流已經(jīng)在 Apache Spark等基礎(chǔ)設(shè)施上得到?泛?持,但YARN仍然在很?程度上被機(jī)器學(xué)習(xí)社區(qū)所忽視。TonY能夠通過(guò)處理資源協(xié)商和容器環(huán)境設(shè)置等任務(wù),對(duì)在Hadoop上運(yùn)行的TensorFlow作業(yè)提供一流的支持。


          圖片來(lái)源:

          ?https://engineering.linkedin.com/blog/2018/09/open-sourcing-tony--native-support-of-tensorflow-on-hadoop

          ?
          TonY的核心是一個(gè)TensorFlow程序,將其拆分為多個(gè)可以在YARN集群上并行的任務(wù)。這樣做的同時(shí)還可以保持對(duì)TensorFlow計(jì)算關(guān)系圖的完全支持,這意味著TensorBoard等工具無(wú)需做任何修改即可在TonY上使用。

          圖片來(lái)源:

          https://engineering.linkedin.com/blog/2018/09/open-sourcing-tony--native-support-of-tensorflow-on-hadoop


          TonY是對(duì)TensorFlow生態(tài)系統(tǒng)的一項(xiàng)有趣貢獻(xiàn),它可以改善大規(guī)模運(yùn)行TensorFlow應(yīng)用程序的體驗(yàn)。此外,TonY還受益于YARN生態(tài)系統(tǒng)中提供的各種工具和庫(kù),為訓(xùn)練和運(yùn)行 TensorFlow應(yīng)用程序提供了高可擴(kuò)展的內(nèi)存管理/運(yùn)行時(shí)(runtime)。

          測(cè)試

          領(lǐng)英背后運(yùn)行著數(shù)千個(gè)并發(fā)的機(jī)器學(xué)習(xí)模型,這些模型不斷進(jìn)行更新和版本迭代。在這些情況下,開(kāi)發(fā)出一套穩(wěn)健的測(cè)試?法對(duì)于優(yōu)化機(jī)器學(xué)習(xí)模型的運(yùn)行性能來(lái)說(shuō)?關(guān)重要。在領(lǐng)英的實(shí)踐中,?程團(tuán)隊(duì)將A/B測(cè)試視為其Pro-ML架構(gòu)的重中之重,它允許機(jī)器學(xué)習(xí)?程師針對(duì)特定場(chǎng)景部署各自的算法,就像競(jìng)賽,最后經(jīng)過(guò)評(píng)估得到效果最佳的算法。

          圖片來(lái)源:
          https://engineering.linkedin.com/blog/2018/09/open-sourcing-tony--native-support-of-tensorflow-on-hadoop

          尾聲

          像領(lǐng)英這樣的互聯(lián)?巨頭是?規(guī)模機(jī)器學(xué)習(xí)解決?案實(shí)施的最前沿玩家,他們關(guān)于這?主題的?解對(duì)于許多剛開(kāi)始機(jī)器學(xué)習(xí)之旅的公司來(lái)說(shuō)?常有價(jià)值。本文中我們清楚地了解了領(lǐng)英如何開(kāi)發(fā)大規(guī)模機(jī)器學(xué)習(xí),將流行的開(kāi)源庫(kù)和平臺(tái)與其專(zhuān)有的框架和?法相結(jié)合,這是?項(xiàng)永??境的?作。

          原文標(biāo)題:
          Inside LinkedIn’s Machine Learning Infrastructure
          -?An overview of the architecture and techniques powering machine learning at LinkedIn.
          原文鏈接:
          https://pub.towardsai.net/inside-linkedins-machine-learning-infrastructure-125076417ee0

          ?

          編輯:王菁

          校對(duì):林亦霖





          譯者簡(jiǎn)介






          王闖(Chuck),臺(tái)灣清華大學(xué)資訊工程碩士。曾任奧浦諾管理咨詢(xún)公司數(shù)據(jù)分析主管,現(xiàn)任尼爾森市場(chǎng)研究公司數(shù)據(jù)科學(xué)經(jīng)理。很榮幸有機(jī)會(huì)通過(guò)數(shù)據(jù)派THU微信公眾平臺(tái)和各位老師、同學(xué)以及同行前輩們交流學(xué)習(xí)。

          翻譯組招募信息

          工作內(nèi)容:需要一顆細(xì)致的心,將選取好的外文文章翻譯成流暢的中文。如果你是數(shù)據(jù)科學(xué)/統(tǒng)計(jì)學(xué)/計(jì)算機(jī)類(lèi)的留學(xué)生,或在海外從事相關(guān)工作,或?qū)ψ约和庹Z(yǔ)水平有信心的朋友歡迎加入翻譯小組。

          你能得到:定期的翻譯培訓(xùn)提高志愿者的翻譯水平,提高對(duì)于數(shù)據(jù)科學(xué)前沿的認(rèn)知,海外的朋友可以和國(guó)內(nèi)技術(shù)應(yīng)用發(fā)展保持聯(lián)系,THU數(shù)據(jù)派產(chǎn)學(xué)研的背景為志愿者帶來(lái)好的發(fā)展機(jī)遇。

          其他福利:來(lái)自于名企的數(shù)據(jù)科學(xué)工作者,北大清華以及海外等名校學(xué)生他們都將成為你在翻譯小組的伙伴。


          點(diǎn)擊文末“閱讀原文”加入數(shù)據(jù)派團(tuán)隊(duì)~



          轉(zhuǎn)載須知

          如需轉(zhuǎn)載,請(qǐng)?jiān)陂_(kāi)篇顯著位置注明作者和出處(轉(zhuǎn)自:數(shù)據(jù)派ID:DatapiTHU),并在文章結(jié)尾放置數(shù)據(jù)派醒目二維碼。有原創(chuàng)標(biāo)識(shí)文章,請(qǐng)發(fā)送【文章名稱(chēng)-待授權(quán)公眾號(hào)名稱(chēng)及ID】至聯(lián)系郵箱,申請(qǐng)白名單授權(quán)并按要求編輯。

          發(fā)布后請(qǐng)將鏈接反饋至聯(lián)系郵箱(見(jiàn)下方)。未經(jīng)許可的轉(zhuǎn)載以及改編者,我們將依法追究其法律責(zé)任。








          點(diǎn)擊“閱讀原文”擁抱組織



          瀏覽 45
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  婷婷丁香大香蕉 | 国产福利1000 | 大香蕉俺也去在线 | 国产一级女婬乱免费看 | 91精品国内手机在线高清 |