<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          獨(dú)家 | 展望未來(lái):數(shù)據(jù)科學(xué)、數(shù)據(jù)工程及技術(shù)(附鏈接)

          共 4231字,需瀏覽 9分鐘

           ·

          2021-03-26 13:36


          作者:SeattleDataGuy (Zack Shapiro)

          翻譯:殷之涵

          校對(duì):歐陽(yáng)錦


          本文約2800字,建議閱讀8分鐘
          本文通過(guò)6位科技工作者的觀察及感受,為大家介紹2021年即將發(fā)生在數(shù)據(jù)科學(xué)及數(shù)據(jù)工程領(lǐng)域的一些變化。


          2020年已經(jīng)成為歷史,我們想對(duì)過(guò)去這一年內(nèi)技術(shù)方面發(fā)生的變化進(jìn)行一次復(fù)盤,并展望未來(lái)的發(fā)展方向。

          無(wú)論您對(duì)初創(chuàng)企業(yè)及其IPO(首次公開募股)、技術(shù)創(chuàng)新感興趣,抑或是Amazon re:Invent大會(huì)的密切關(guān)注者,相信在過(guò)去一年里,您都看到了很多不斷突破自身界限的公司。

          AWS的SageMaker Data Wrangler是2020年里筆者最喜歡的公告,其旨在加快機(jī)器學(xué)習(xí)和AI應(yīng)用程序的數(shù)據(jù)準(zhǔn)備工作。這似乎是朝著擁有更流暢的機(jī)器學(xué)習(xí)管道的方向邁出的一大步,并且有望幫助那些非技術(shù)驅(qū)動(dòng)型公司更方便地應(yīng)用機(jī)器學(xué)習(xí)技術(shù)。

          為此,我們邀請(qǐng)了來(lái)自技術(shù)界的各個(gè)領(lǐng)域的人們,談一談他們關(guān)于2021年展望的見解——無(wú)論是新興的初創(chuàng)公司、技術(shù)還是最佳實(shí)踐。

          那就讓我們看看他們會(huì)說(shuō)些什么吧!

          Sam Cannon,F(xiàn)acebook數(shù)據(jù)科學(xué)家

          圖片源自LinkedIn

          我覺(jué)得自然語(yǔ)言處理(NLP)當(dāng)前正在以驚人的速度發(fā)展,這真是一件讓人喜憂摻半的事情。一旦搭建出了不錯(cuò)的文本分類或詞向量聚類的管道,就會(huì)出現(xiàn)一個(gè)新模型,其性能往往比哪怕是昨天剛搭好的模型還要好。

          話雖如此,我對(duì)NLP的發(fā)展方向仍然感到非常興奮,特別是在針對(duì)復(fù)雜NLP任務(wù)的開源解決方案方面。Hugging Face是我在這個(gè)領(lǐng)域最喜歡的公司之一,個(gè)人認(rèn)為它是NLP領(lǐng)域最先進(jìn)生產(chǎn)力的開源代表。Hugging Face通過(guò)使復(fù)雜的NLP模型和任務(wù)“民主化”,從而解決NLP領(lǐng)域長(zhǎng)期存在的問(wèn)題——即由于算力或?qū)I(yè)知識(shí)的缺乏,許多人通常無(wú)法獨(dú)自應(yīng)付復(fù)雜的NLP模型和任務(wù)。

          舉例來(lái)說(shuō),他們已經(jīng)支持用戶僅通過(guò)最少的輸入來(lái)完成文本情感分析。在此基礎(chǔ)上,我認(rèn)為2021年將迎來(lái)一系列可通過(guò)一行代碼就實(shí)現(xiàn)的預(yù)打包SOTA NLP模型。雖然無(wú)法預(yù)測(cè)2021年這個(gè)領(lǐng)域的具體成果,但我認(rèn)為,至少開箱即用的NLP模型能讓更多的人從自然語(yǔ)言數(shù)據(jù)中得到洞察和見解—這就是2021年這個(gè)領(lǐng)域中我最期待的事了。

          Catherine Tao,Data Standard數(shù)據(jù)科學(xué)家

          圖片源自LinkedIn

          我很期待看到云計(jì)算在2021年的創(chuàng)新。當(dāng)前階段,云是存儲(chǔ)公司數(shù)據(jù)的空間。這個(gè)領(lǐng)域存在一些挑戰(zhàn),例如可擴(kuò)展性、效率、數(shù)據(jù)流等等。

          我想看看云計(jì)算針對(duì)平衡技術(shù)企業(yè)所面臨的一些主要問(wèn)題將會(huì)有哪些改善。許多公司都還在糾結(jié)如何將AI引入其業(yè)務(wù)中,這導(dǎo)致一些公司在技術(shù)行業(yè)中落后于其它公司。通過(guò)云計(jì)算技術(shù)創(chuàng)新,更多的公司都應(yīng)該能夠迎來(lái)人工智能落地,并以更高的生產(chǎn)率來(lái)部署項(xiàng)目或產(chǎn)品。

          Riley Kinser,Terrain產(chǎn)品負(fù)責(zé)人

          圖片源自LinkedIn

          展望2021年(對(duì)于商業(yè)房地產(chǎn)來(lái)說(shuō),希望會(huì)是光明的一年?。业闹饕攸c(diǎn)是成為地理數(shù)據(jù)繪圖工具——無(wú)論是新的還是現(xiàn)行的——專家。我的主要目標(biāo)之一是將我們?cè)赥errain的見解轉(zhuǎn)化為易于向終端用戶解釋和說(shuō)明的地圖。

          當(dāng)今行業(yè)中的許多示例都是使用ArcGIS來(lái)完成的,ArcGIS是一種比較老但成熟的地理數(shù)據(jù)繪圖工具。我相信可能會(huì)有更好的工具,這為我們的客戶提供一個(gè)在傳統(tǒng)經(jīng)典的基礎(chǔ)上了解新事物的機(jī)會(huì)。我感興趣的兩個(gè)工具是由Uber開發(fā)的開源項(xiàng)目:H3和kepler.gl。據(jù)我了解,H3的主要優(yōu)勢(shì)之一是能夠根據(jù)縮放比例將世界細(xì)分為大小不同的六邊形。

          這解決了我們發(fā)現(xiàn)的早期問(wèn)題之一,即不同的用戶對(duì)都市圈內(nèi)的社區(qū)、市場(chǎng)或城市的邊界劃分持有不同的觀點(diǎn)。這也使我們能夠更好地在全球范圍內(nèi)開發(fā)難以獲取邊界數(shù)據(jù)的地圖。

          另一方面,kepler.gl很有趣,因?yàn)樗鄬?duì)容易為終端用戶或MVP(最小化可行產(chǎn)品)提供在線開發(fā)和托管支持。Uber開發(fā)了Kepler.gl,以允許用戶在內(nèi)部(技術(shù)和非技術(shù))快速開發(fā)可共享的地圖,以可視化地理空間數(shù)據(jù)中的想法。另一件有趣的事是,kepler.gl對(duì)具有時(shí)間序列性質(zhì)的地理數(shù)據(jù)提供便捷的可視化功能。我希望通過(guò)kepler.gl開發(fā)出我們的MVP(最小化可行產(chǎn)品),然后在我們開始收集用戶反饋時(shí)對(duì)H3進(jìn)行探索。

          Chris Zeoli,Base10 Partners負(fù)責(zé)人

          圖片源自LinkedIn

          盡管我對(duì)許多趨勢(shì)感到非常興奮,但電子商務(wù)(尤其是Shopify及其相關(guān)工具的興起)和遠(yuǎn)程醫(yī)療是最能讓我感到激動(dòng)的兩個(gè)領(lǐng)域。我之前寫過(guò)有關(guān)Shopify生態(tài)系統(tǒng)的文章,這家公司目前仍在創(chuàng)造新高——已為200多萬(wàn)商家提供了超過(guò)1000億美元的GMV(成交總額)。

          我對(duì)與Facebook / Instagram、TikTok、支付寶、Affirm和Pinterest等新的合作伙伴關(guān)系感到特別興奮,因?yàn)镾hopify已成為消費(fèi)者商務(wù)交易主要網(wǎng)絡(luò)的基礎(chǔ)架構(gòu)。它的軟件以及第三方生態(tài)系統(tǒng)都正在經(jīng)歷著蓬勃發(fā)展。電子商務(wù)的傳統(tǒng)領(lǐng)域(服裝和時(shí)尚、快速消費(fèi)品、保健產(chǎn)品等)持續(xù)增長(zhǎng),而食品/雜貨等較新的類別可以通過(guò)Shopify等平臺(tái)自動(dòng)上線,這些都是很有趣的觀察。

          遠(yuǎn)程醫(yī)療和新的數(shù)字醫(yī)療體驗(yàn)也讓我感到非常興奮。就目前的新冠疫情現(xiàn)狀而言,很明顯,醫(yī)療保健是經(jīng)濟(jì)發(fā)展中的頭等大事。該領(lǐng)域的總量占GDP的20%(并且還在增長(zhǎng)),然而它幾乎沒(méi)有突破性成果,也沒(méi)有FAANG規(guī)模的公司。我可以想象,五年內(nèi)該領(lǐng)域至少會(huì)有一個(gè)主要參與者出現(xiàn)(同時(shí)也期望看到Apple,Google和Amazon繼續(xù)推動(dòng)醫(yī)療保健發(fā)展)。2020年對(duì)于遠(yuǎn)程醫(yī)療來(lái)說(shuō)是重要的一年,Teladoc收購(gòu)了Livongo并創(chuàng)建了數(shù)字醫(yī)療領(lǐng)域迄今最強(qiáng)大的品牌,其企業(yè)價(jià)值總和超過(guò)300億美元,而且超過(guò)$ 15億美元的ARR(年度經(jīng)常性收入)增長(zhǎng)超過(guò)100%。

          我很高興看到嶄新的數(shù)字醫(yī)療體驗(yàn)浪潮,使人類最基本的照顧自己的需求得以被充分滿足。

          Jun Kim,F(xiàn)acebook數(shù)據(jù)工程師

          圖片源自LinkedIn

          在即將到來(lái)的2021年里,最令我興奮的技術(shù)是期待已久的Apache Airflow 2.0版本。自2015年首次發(fā)布以來(lái),Apache Airflow一直是數(shù)據(jù)工程領(lǐng)域中最受歡迎的工作流管理系統(tǒng)之一。

          它的巨大成功可以歸因于以下事實(shí):它允許將工作流編寫為代碼、簡(jiǎn)單但有效的GUI以及在構(gòu)造數(shù)據(jù)管道方面具有通用的靈活性。借助新的2.0版本,每個(gè)人都喜歡的工作流管理系統(tǒng)將變得更加完善。Airflow 2.0將具有許多令人印象深刻的附加功能,包括完全受支持的綜合REST API、TaskFlow API和Task Groups。它還有不少其他改進(jìn),包括簡(jiǎn)化的Kubernetes Executor、低延遲的調(diào)度程序以及更加直觀的GUI。

          我迫不及待地想要嘗試改進(jìn)后的新版本Airflow了。


          Michael Mirandi,Saturn Cloud.io戰(zhàn)略主管

          圖片源自LinkedIn

          我很高興在2021年看到幾種技術(shù)趨勢(shì),但其中最好的莫過(guò)于GPU計(jì)算在數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域中的日益普及。這種趨勢(shì)一開始是由性能方面的需求所驅(qū)動(dòng)的,而開源項(xiàng)目RAPIDS將其變得更為易用。如果您不太熟悉RAPIDS,這里做一下簡(jiǎn)單科普:用戶可以使用RAPIDS在NVIDIA硬件上執(zhí)行Python代碼(免責(zé)聲明:NVIDIA對(duì)該項(xiàng)目進(jìn)行了贊助)。

          該團(tuán)隊(duì)于今年早些時(shí)候發(fā)布了行業(yè)標(biāo)準(zhǔn)的Big Data Analytics Benchmarks(大數(shù)據(jù)分析基準(zhǔn)),其表現(xiàn)(相比benchmark)要高出近20倍!另一個(gè)有趣的事實(shí)是,這些基準(zhǔn)測(cè)試不僅展示了GPU計(jì)算在完成數(shù)據(jù)科學(xué)工作方面的強(qiáng)大功能,而且還展示了其對(duì)傳統(tǒng)數(shù)據(jù)工程ETL工作的加速能力。這會(huì)使Python得到更為廣泛的使用嗎?我愿意賭“會(huì)的”,特別是最近已有一批新的數(shù)據(jù)科學(xué)初創(chuàng)公司發(fā)布了分布式GPU計(jì)算平臺(tái)——這可是一種能夠以前所未有的速度啟動(dòng)云中GPU集群的功能。

          2021年及以后的技術(shù)展望

          我們對(duì)2021年有諸多期待,無(wú)論是能夠通過(guò)一行代碼調(diào)用的預(yù)打包SOTA NLP模型、自然語(yǔ)言查詢,抑或是類似Airflow這樣對(duì)當(dāng)前框架所進(jìn)行的改進(jìn)。

          大大小小的科技公司似乎都依然走在探索的路上,即使大家都處于“Zoom疲勞”之中(譯者注:新冠疫情使員工被迫通過(guò)Zoom進(jìn)行遠(yuǎn)程開會(huì)及辦公)。

          希望2021年不僅能帶領(lǐng)我們獲得技術(shù)上的進(jìn)步,而且也是能讓所有人的處境都有所改善的一年。

          感謝您的閱讀,祝您新的一年里好運(yùn)連連!

          編輯:王菁
          校對(duì):林亦霖



          譯者簡(jiǎn)介




          殷之涵(Jane),研究生畢業(yè)于康奈爾大學(xué)生物統(tǒng)計(jì)與數(shù)據(jù)科學(xué)專業(yè),本科畢業(yè)于普渡大學(xué)精算與應(yīng)用統(tǒng)計(jì)專業(yè)。目前在騰訊擔(dān)任數(shù)據(jù)科學(xué)家,主要負(fù)責(zé)騰訊視頻用戶增長(zhǎng)&市場(chǎng)營(yíng)銷數(shù)據(jù)科學(xué)方面的工作;此前在京東任數(shù)據(jù)分析師一年半,負(fù)責(zé)通過(guò)指標(biāo)體系搭建、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)建模來(lái)驅(qū)動(dòng)決策、制定并落地億級(jí)用戶的精細(xì)化運(yùn)營(yíng)策略。對(duì)數(shù)據(jù)科學(xué)充滿興趣和熱情,希望通過(guò)多年勤懇深耕成長(zhǎng)為真正的領(lǐng)域?qū)<摇?/span>

          翻譯組招募信息

          工作內(nèi)容:需要一顆細(xì)致的心,將選取好的外文文章翻譯成流暢的中文。如果你是數(shù)據(jù)科學(xué)/統(tǒng)計(jì)學(xué)/計(jì)算機(jī)類的留學(xué)生,或在海外從事相關(guān)工作,或?qū)ψ约和庹Z(yǔ)水平有信心的朋友歡迎加入翻譯小組。

          你能得到:定期的翻譯培訓(xùn)提高志愿者的翻譯水平,提高對(duì)于數(shù)據(jù)科學(xué)前沿的認(rèn)知,海外的朋友可以和國(guó)內(nèi)技術(shù)應(yīng)用發(fā)展保持聯(lián)系,THU數(shù)據(jù)派產(chǎn)學(xué)研的背景為志愿者帶來(lái)好的發(fā)展機(jī)遇。

          其他福利:來(lái)自于名企的數(shù)據(jù)科學(xué)工作者,北大清華以及海外等名校學(xué)生他們都將成為你在翻譯小組的伙伴。


          點(diǎn)擊文末“閱讀原文”加入數(shù)據(jù)派團(tuán)隊(duì)~



          轉(zhuǎn)載須知

          如需轉(zhuǎn)載,請(qǐng)?jiān)陂_篇顯著位置注明作者和出處(轉(zhuǎn)自:數(shù)據(jù)派ID:DatapiTHU),并在文章結(jié)尾放置數(shù)據(jù)派醒目二維碼。有原創(chuàng)標(biāo)識(shí)文章,請(qǐng)發(fā)送【文章名稱-待授權(quán)公眾號(hào)名稱及ID】至聯(lián)系郵箱,申請(qǐng)白名單授權(quán)并按要求編輯。

          發(fā)布后請(qǐng)將鏈接反饋至聯(lián)系郵箱(見下方)。未經(jīng)許可的轉(zhuǎn)載以及改編者,我們將依法追究其法律責(zé)任。




          點(diǎn)擊“閱讀原文”擁抱組織



          瀏覽 55
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  色五月激情网 | 日本人妻在线视频 | 婷婷亚洲性爱 | 成人网址在线看 | 色欲熟妇|