<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          25個廣泛使用的數(shù)據(jù)科學(xué)與機器學(xué)習(xí)工具

          共 5385字,需瀏覽 11分鐘

           ·

          2020-08-19 19:35


          導(dǎo)讀:本文為大家從兩個方面——大數(shù)據(jù)和數(shù)據(jù)科學(xué),介紹了本年度的20+個被廣泛使用的數(shù)據(jù)科學(xué)和機器學(xué)習(xí)工具。結(jié)合了大數(shù)據(jù)的3V特征,數(shù)據(jù)科學(xué)與其各個領(lǐng)域的關(guān)系特征較為完整的闡述了各種工具的使用背景、情況和各自特點。


          作者:RAM DEWANI
          翻譯:歐陽錦
          來源:數(shù)據(jù)派THU(ID:DatapiTHU)




          • 數(shù)據(jù)科學(xué)的工具數(shù)不勝數(shù)——你應(yīng)該選擇哪一個?
          • 這里列出了超過20種的數(shù)據(jù)科學(xué)工具,滿足數(shù)據(jù)科學(xué)生命周期不同階段的需求。

          執(zhí)行數(shù)據(jù)科學(xué)任務(wù)的最佳工具有哪些?作為數(shù)據(jù)科學(xué)新手,你應(yīng)該選擇哪些工具?

          我相信在你的數(shù)據(jù)科學(xué)之旅的某些時刻中你已經(jīng)問過(或搜索過)這些問題。這些問題是合理的!雖然在這個行業(yè)中并不缺乏數(shù)據(jù)科學(xué)工具,但是為你的數(shù)據(jù)科學(xué)旅程和生涯做出一個選擇可能是一個棘手的決定。

          我們得承認——數(shù)據(jù)科學(xué)的范圍龐雜,每一個領(lǐng)域要求處理數(shù)據(jù)的方式各有不同,這讓許多分析家/數(shù)據(jù)庫科學(xué)家陷入困惑。而如果你是一位商業(yè)領(lǐng)袖,你將要選擇你和你的公司所使用的工具,這很關(guān)鍵,因為這些工具會產(chǎn)生長期的影響。

          同樣地,問題是你應(yīng)該選擇哪種數(shù)據(jù)科學(xué)工具呢?

          在本文中,我將通過羅列出數(shù)據(jù)科學(xué)領(lǐng)域廣泛使用的工具并細分它們的用途和優(yōu)勢,來幫你解決這些困惑。所以,讓我們開始吧!

          目錄

          深入大數(shù)據(jù)?– 處理大數(shù)據(jù)的工具
          • 體量
          • 種類
          • 速度
          數(shù)據(jù)科學(xué)的工具
          • 報告和商業(yè)智能
          • 預(yù)測建模和機器學(xué)習(xí)
          • 人工智能




          01 大數(shù)據(jù)的數(shù)據(jù)科學(xué)工具


          為了真正了解大數(shù)據(jù)背后的深刻意義,我們需要了解給大數(shù)據(jù)下定義所的基本原理。他們被稱為大數(shù)據(jù)的3V而廣為人知。

          • 體量
          • 種類
          • 速度

          • 處理大數(shù)據(jù)體量的工具


          顧名思義,體量是指數(shù)據(jù)的規(guī)模和數(shù)量。要了解我在說的數(shù)據(jù)規(guī)模,你需要知道,世界上超過90%的數(shù)據(jù)是在最近兩年內(nèi)創(chuàng)建的!

          十年來,隨著數(shù)據(jù)量的增加,該技術(shù)也變得越來越好。計算和存儲成本的降低使收集和存儲大量數(shù)據(jù)變得更加容易。

          數(shù)據(jù)體量定義了它是否符合大數(shù)據(jù)的條件。

          當我們的數(shù)據(jù)范圍在1Gb到10Gb左右時,傳統(tǒng)的數(shù)據(jù)科學(xué)工具就可以很好地工作。那么這些工具有哪些呢?

          1. Microsoft Excel

          Excel是處理少量數(shù)據(jù)的最簡單,最受歡迎的工具。它支持的最大行數(shù)只剛剛超過一百萬,一張表一次最多只能處理16,380列。當數(shù)據(jù)量很大時,這些根本不夠用。


          2. Microsoft Access

          它是Microsoft流行的用于數(shù)據(jù)存儲的工具。使用此工具可以平穩(wěn)順暢地處理高達2Gb的較小數(shù)據(jù)庫,但超過這個數(shù)字,Access會開始崩潰。


          3. SQL

          SQL是自1970年代以來最流行的數(shù)據(jù)管理系統(tǒng)之一。幾十年來,它一直是主要的數(shù)據(jù)庫解決方案。SQL仍然很流行,但有一個缺點——隨著數(shù)據(jù)庫的不斷增長,很難對其進行擴展。


          到目前為止我們已經(jīng)介紹了一些基本工具。現(xiàn)在該放大招了!如果你的數(shù)據(jù)大于10Gb,甚至超過1Tb+,那么需要使用我在下面提到的工具:

          4. Hadoop

          它是一個開源的分布式框架,用于管理大數(shù)據(jù)的數(shù)據(jù)處理和存儲。當你從零開始構(gòu)建機器學(xué)習(xí)項目時,很可能會使用此工具。


          5. Hive

          它是建立在Hadoop之上的數(shù)據(jù)倉庫。Hive提供了一個類似于SQL的接口來查詢存儲在與Hadoop集成的各種數(shù)據(jù)庫和文件系統(tǒng)中的數(shù)據(jù)。


          • 處理大數(shù)據(jù)種類的工具


          數(shù)據(jù)種類是指存在的不同類型的數(shù)據(jù)。數(shù)據(jù)類型可以是以下之一:結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。

          讓我們看一下不同數(shù)據(jù)類型的示例:


          花一點時間去觀察這些示例,并且將它們與你的真實數(shù)據(jù)關(guān)聯(lián)起來。

          你可能在結(jié)構(gòu)化數(shù)據(jù)中觀察到,這種類型的數(shù)據(jù)有固定的順序和結(jié)構(gòu),而非結(jié)構(gòu)化數(shù)據(jù)相反,這些示例并不遵循任何趨勢或者模式。例如,顧客反饋在長度、情感和其他方面有所不同。另外,這類數(shù)據(jù)巨大并且種類繁多。

          處理這類數(shù)據(jù)可能非常具有挑戰(zhàn)性,那么市場上用于管理和處理這些不同數(shù)據(jù)類型的數(shù)據(jù)科學(xué)工具有哪些呢?

          兩個最常見的數(shù)據(jù)庫是SQL和NoSQL。在NoSQL出現(xiàn)前,SQL多年來一直是市場主導(dǎo)者。


          SQL的一些例子是Oracle,MySQL,SQLite,而NoSQL由諸如MongoDB,Cassandra等流行的數(shù)據(jù)庫組成。這些NoSQL數(shù)據(jù)庫由于具有擴展和處理動態(tài)數(shù)據(jù)的能力而被廣泛地應(yīng)用。

          • 處理大數(shù)據(jù)速度的工具


          第三個,也是最后一個V代表了速度。這是捕獲數(shù)據(jù)時的速度,包括實時和非實時數(shù)據(jù)。我們在這里將主要討論實時數(shù)據(jù)。

          我們周圍有許多捕獲和處理實時數(shù)據(jù)的示例。最復(fù)雜的是自動駕駛汽車收集的傳感器數(shù)據(jù)。想象一下,在自動駕駛汽車中,汽車必須同時動態(tài)地收集和處理有關(guān)車道、與其他車輛的距離等數(shù)據(jù)!

          其他正在收集的實時數(shù)據(jù)的例子包括:

          • 閉路電視
          • 股票交易
          • 信用卡交易欺詐檢測
          • 網(wǎng)絡(luò)數(shù)據(jù)——社交媒體(Facebook、Twitter等)

          ?“你知道嗎?在紐約證券交易所的每個交易時段中,都會生成超過1TB的數(shù)據(jù)!”?現(xiàn)在,讓我們來看看處理實時數(shù)據(jù)的一些常用數(shù)據(jù)科學(xué)工具:

          6. Apache Kafka

          Kafka是Apache的開源工具。它用于創(chuàng)建實時數(shù)據(jù)管道。Kafka的一些優(yōu)點在于——它具有容錯性、速度很快,并且被大量機構(gòu)投入生產(chǎn)使用。


          7. Apache Storm

          Apache的該工具幾乎可用于所有編程語言。它每秒可處理多達100萬個元組,并具有高度的可擴展性。對于高數(shù)據(jù)速率來說,這是個好工具。


          8. Amazon Kinesis

          亞馬遜提供的此工具類似于Kafka,但需要付費。然而,它提供的是開箱即用的解決方案,這使其成為組織機構(gòu)的強勢的備選方案。


          9. Apache Flink

          Flink是Apache另一種可用于實時數(shù)據(jù)的工具。Flink的優(yōu)點在于它的高性能、容錯能力和有效的內(nèi)存管理。


          現(xiàn)在,我們已經(jīng)掌握了通常用于處理大數(shù)據(jù)的各種工具,接下來將介紹使用高級機器學(xué)習(xí)技術(shù)和算法來利用數(shù)據(jù)的部分。


          02 廣泛使用的數(shù)據(jù)科學(xué)工具


          如果你要建立一個全新的數(shù)據(jù)科學(xué)項目,那么腦海中會浮現(xiàn)很多問題,這與你的水平無關(guān)——無論你是數(shù)據(jù)科學(xué)家,數(shù)據(jù)分析師,項目經(jīng)理還是高級數(shù)據(jù)科學(xué)主管,都是如此。

          你將面對的一些問題是:

          • 在數(shù)據(jù)科學(xué)的不同領(lǐng)域中應(yīng)該使用哪些工具?
          • 應(yīng)該購買這些工具的許可證還是選擇開源工具?等等。

          在本節(jié)中,我們將根據(jù)不同領(lǐng)域討論行業(yè)中使用的一些受歡迎的數(shù)據(jù)科學(xué)工具。

          數(shù)據(jù)科學(xué)本身就是一個廣義術(shù)語,它由各種不同的領(lǐng)域組成,每個領(lǐng)域都有它自己的業(yè)務(wù)重要性和復(fù)雜性,正如下圖所示:


          數(shù)據(jù)科學(xué)的范圍包含了各種領(lǐng)域,上圖表示了這些領(lǐng)域的相對復(fù)雜性和它們提供的業(yè)務(wù)價值。讓我們討論一下以上頻譜中顯示的每一個點。

          • 報告和商業(yè)智能


          讓我們從這個范圍的底端開始。報告和商業(yè)智能使一個機構(gòu)能夠識別出數(shù)據(jù)的趨勢和模式,從而制定關(guān)鍵的戰(zhàn)略決策。這種分析的類型包括MIS、數(shù)據(jù)分析和儀表板。

          這些領(lǐng)域中常用的工具有:

          • Excel

          它提供了多種選擇,包括了數(shù)據(jù)透視表和圖表,使你可以快速分析數(shù)據(jù)。簡而言之,它是數(shù)據(jù)科學(xué)/分析工具中的“瑞士軍刀”。

          10. QlikView

          您只需單擊幾下即可合并,搜索,可視化和分析所有數(shù)據(jù)資源。這是一種易于學(xué)習(xí)的直觀的工具,因此非常受歡迎。


          11. Tableau

          它是當今市場上最受歡迎的數(shù)據(jù)可視化工具之一。它能夠處理大量數(shù)據(jù),甚至提供類似于Excel的計算功能和參數(shù)。Tableau因其整潔的儀表板和故事界面而倍受贊譽.


          12. Microstrategy

          它是另一個BI工具,支持儀表板、自動分發(fā)和其他關(guān)鍵數(shù)據(jù)分析任務(wù)。


          13. PowerBI

          它是商業(yè)智能(BI)領(lǐng)域中的Microsoft產(chǎn)品。PowerBI旨在與Microsoft技術(shù)進行集成。因此,如果你的組織有Sharepoint或SQL數(shù)據(jù)庫用戶,那么你和你的團隊將會喜歡這個工具。


          14. Google Analytics

          想知道Google Analytics如何進入此名單的嗎?嗯……數(shù)字營銷在業(yè)務(wù)轉(zhuǎn)型中起著重要作用,沒有比它更好的工具可以用來分析你的數(shù)字化工作。


          • 預(yù)測分析和機器學(xué)習(xí)工具


          順著前面那個圖再往上走,其復(fù)雜性和商業(yè)價值也變高了!這是大多數(shù)數(shù)據(jù)科學(xué)家賴以生存的領(lǐng)域。你將要解決的問題類型是統(tǒng)計建模,預(yù)測,神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)。

          讓我們了解一些該領(lǐng)域的常用工具:

          15. Python

          由于其易用性,靈活性和開源特性,Python是當今行業(yè)數(shù)據(jù)科學(xué)中最主要的語言之一。它已經(jīng)在ML社區(qū)中迅速普及并被廣泛接受。


          16. R

          它是數(shù)據(jù)科學(xué)中另一種非常常用且受人尊敬的語言。R有一個蓬勃發(fā)展且被極大支持的社區(qū),附帶了許多軟件包和庫,支持大多數(shù)的機器學(xué)習(xí)任務(wù)。


          17. Apache Spark

          Spark由加州大學(xué)伯克利分校于2010年開源,此后已成為最大的大數(shù)據(jù)社區(qū)之一。它被稱為大數(shù)據(jù)分析的“瑞士軍刀”,因為它具有多種優(yōu)勢,例如靈活性、速度、計算能力等。


          18. Julia

          它是一種即將到來的語言,被捧為Python的繼承者。目前它仍處于起步階段,觀察其在未來的表現(xiàn)將會是一件有趣的事。


          19. Jupyter Notebooks

          這些筆記本廣泛用于Python編程。盡管它主要用于Python,但它也支持其他語言,例如Julia,R等。


          到目前為止,我們討論的工具都是真正的開源工具。你無需支付費用或購買任何額外的許可證。它們擁有活躍的社區(qū),可以定期維護和發(fā)布更新。

          現(xiàn)在,我們將看一些在某些特定行業(yè)中通用的收費工具:

          20. SAS

          這是一個非常受歡迎且功能強大的工具。在銀行和金融部門中被普遍使用。它的使用在美國運通,摩根大通,西格瑪,蘇格蘭皇家銀行等私人組織中占有很高的份額。


          21. SPSS

          SPSS是“社會科學(xué)統(tǒng)計軟件包”的縮寫,在2009年被IBM收購。它提供高級統(tǒng)計分析、龐大的機器學(xué)習(xí)算法庫、文本分析等。


          22. Matlab

          Matlab在組織機構(gòu)的領(lǐng)域里確實被低估了,但在學(xué)術(shù)界和研究部門中得到了廣泛的使用。最近相較于Python,R和SAS,Matlab已經(jīng)陣地失守,但是大學(xué)(尤其在美國)仍在使用Matlab教授許多本科課程。



          03 深度學(xué)習(xí)的通用框架


          深度學(xué)習(xí)需要大量的計算資源,并且需要特殊的框架才能有效地利用這些資源。因此,你很可能需要GPU或TPU。

          讓我們看看本節(jié)中用于深度學(xué)習(xí)的一些框架。


          23. TensorFlow

          它很容易成為當今行業(yè)中使用最廣泛的工具。Google可能與此有關(guān)!

          24. PyTorch

          這種超級靈活的深度學(xué)習(xí)框架正在成為TensorFlow的強勢競爭對手。PyTorch最近受到一些關(guān)注,它的開發(fā)者是Facebook的研究人員。

          25. Keras和Caffe

          是廣泛用于構(gòu)建深度學(xué)習(xí)應(yīng)用程序的其他框架。

          • 人工智能工具


          AutoML的時代就在這里。如果還沒有聽說過這些工具,那么這是一個自我學(xué)習(xí)的好機會!作為數(shù)據(jù)科學(xué)家,你很可能會在不久的將來與他們合作。


          列舉一些最受歡迎的AutoML工具,包括AutoKeras,Google Cloud AutoML,IBM Watson,DataRobot,H20的無人駕駛AI和亞馬遜的Lex。AutoML有望成為AI / ML社區(qū)中的下一個大事件。它旨在消除或減少技術(shù)性,以便商業(yè)領(lǐng)導(dǎo)者可以使用它來制定戰(zhàn)略決策。

          這些工具將推動整個數(shù)據(jù)分析流程自動化!


          尾注


          我們已經(jīng)討論了數(shù)據(jù)收集引擎以及完成檢索、處理和存儲,這一整個流水線所需的工具。數(shù)據(jù)科學(xué)的眾多領(lǐng)域中每個領(lǐng)域都有自己的一套工具和框架。

          選擇數(shù)據(jù)科學(xué)工具通常取決于你的個人選擇、你的領(lǐng)域或項目,當然也取決于你的機構(gòu)。

          在評論中讓我知道你喜歡使用的最喜歡的數(shù)據(jù)科學(xué)工具或框架!

          原文標題:
          22 Widely Used Data Science and Machine Learning Tools in 2020
          原文鏈接:
          https://www.analyticsvidhya.com/blog/2020/06/22-tools-data-science-machine-learning/

          關(guān)于譯者:歐陽錦,我是一名即將去埃因霍芬理工大學(xué)繼續(xù)攻讀數(shù)據(jù)科學(xué)專業(yè)的碩士生。本科畢業(yè)于華北電力大學(xué),自己喜歡的科研方向是隱私安全中的數(shù)據(jù)科學(xué)算法。有很多愛好和興趣(攝影、運動、音樂),對生活中的事情充滿興趣,是個熱愛鉆研、開朗樂觀的人。為了更好地學(xué)習(xí)自己喜歡的專業(yè)領(lǐng)域,希望能夠接觸到更多相關(guān)的事物以開拓自己的眼界和思路。


          劃重點?


          干貨直達?


          更多精彩?

          在公眾號對話框輸入以下關(guān)鍵詞
          查看更多優(yōu)質(zhì)內(nèi)容!

          PPT?|?讀書?|?書單?|?硬核?|?干貨?|?講明白?|?神操作
          大數(shù)據(jù)?|?云計算?|?數(shù)據(jù)庫?|?Python?|?可視化
          AI?|?人工智能?|?機器學(xué)習(xí)?|?深度學(xué)習(xí)?|?NLP
          5G?|?中臺?|?用戶畫像?|?1024?|?數(shù)學(xué)?|?算法?|?數(shù)字孿生

          據(jù)統(tǒng)計,99%的大咖都完成了這個神操作
          ?


          瀏覽 57
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  久久人人妻人人做人人玩精品 | 青青激情| 色青草无码视屏 | 欧美成人精品一级乱黄 | 欧美成人在线三级免费 |