<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          譯文 | 通俗易懂的機(jī)器學(xué)習(xí)(1)

          共 2548字,需瀏覽 6分鐘

           ·

          2020-11-04 08:50

          翻譯:Ahong

          原文:https://valyrics.vas3k.com/blog/machine_learning/

          來源轉(zhuǎn)自dataxon公眾




          機(jī)器學(xué)習(xí)好比高中時代的性——人人都在談?wù)摚死蠋焸冎淄?,只有很少的人能說清楚怎么回事。如果閱讀網(wǎng)上關(guān)于機(jī)器學(xué)習(xí)的文章,你很可能會遇到兩種情況:充斥各種定理的厚重學(xué)術(shù)三部曲(我搞定半個定理都夠嗆),或是關(guān)于人工智能、數(shù)據(jù)科學(xué)魔法以及未來工作的天花亂墜的故事。

          我決定寫一篇醞釀已久的文章,對那些想了解機(jī)器學(xué)習(xí)的人做一個簡單的介紹。不涉及高級原理,只用簡單的語言來談現(xiàn)實世界的問題和實際的解決方案。不管你是一名程序員還是管理者,都能看懂。

          那我們開始吧!

          為什么我們想要機(jī)器去學(xué)習(xí)?

          現(xiàn)在出場的是Billy,Billy想買輛車,他想算出每月要存多少錢才付得起。瀏覽了網(wǎng)上的幾十個廣告之后,他了解到新車價格在2萬美元左右,用過1年的二手車價格是1.9萬美元,2年車就是1.8萬美元,依此類推。

          作為聰明的分析師,Billy發(fā)現(xiàn)一種規(guī)律:車的價格取決于車齡,每增加1年價格下降1000美元,但不會低于10000美元。

          用機(jī)器學(xué)習(xí)的術(shù)語來說,Billy發(fā)明了“回歸”(regression)——基于已知的歷史數(shù)據(jù)預(yù)測了一個數(shù)值(價格)。當(dāng)人們試圖估算eBay上一部二手iPhone的合理價格或是計算一場燒烤聚會需要準(zhǔn)備多少肋排時,他們一直在用類似Billy的方法——每人200g? 500?

          是的,如果能有一個簡單的公式來解決世界上所有的問題就好了——尤其是對于燒烤派對來說——不幸的是,這是不可能的。

          讓我們回到買車的情形,現(xiàn)在的問題是,除了車齡外,它們還有不同的生產(chǎn)日期、數(shù)十種配件、技術(shù)條件、季節(jié)性需求波動……天知道還有哪些隱藏因素……普通人Billy沒法在計算價格的時候把這些數(shù)據(jù)都考慮進(jìn)去,換我也同樣搞不定。

          人們又懶又笨——我們需要機(jī)器人來幫他們做數(shù)學(xué)。因此,這里我們采用計算機(jī)的方法——給機(jī)器提供一些數(shù)據(jù),讓它找出所有和價格有關(guān)的潛在規(guī)律。

          終~于~見效啦。最令人興奮的是,相比于真人在頭腦中仔細(xì)分析所有的依賴因素,機(jī)器處理起來要好得多。

          就這樣,機(jī)器學(xué)習(xí)誕生了。

          機(jī)器學(xué)習(xí)的3個組成部分

          拋開所有和人工智能(AI)有關(guān)的扯淡成分,機(jī)器學(xué)習(xí)唯一的目標(biāo)是基于輸入的數(shù)據(jù)來預(yù)測結(jié)果,就這樣。所有的機(jī)器學(xué)習(xí)任務(wù)都可以用這種方式來表示,否則從一開始它就不是個機(jī)器學(xué)習(xí)問題。

          樣本越是多樣化,越容易找到相關(guān)聯(lián)的模式以及預(yù)測出結(jié)果。因此,我們需要3個部分來訓(xùn)練機(jī)器:

          數(shù)據(jù)

          想檢測垃圾郵件?獲取垃圾信息的樣本。想預(yù)測股票?找到歷史價格信息。想找出用戶偏好?分析他們在Facebook上的活動記錄(不,Mark,停止收集數(shù)據(jù)~已經(jīng)夠了)。數(shù)據(jù)越多樣化,結(jié)果越好。對于拼命運(yùn)轉(zhuǎn)的機(jī)器而言,至少也得幾十萬行數(shù)據(jù)才夠吧。

          獲取數(shù)據(jù)有兩種主要途徑——手動或者自動。手動采集的數(shù)據(jù)混雜的錯誤少,但要耗費(fèi)更多的時間——通?;ㄙM(fèi)也更多。自動化的方法相對便宜,你可以搜集一切能找到的數(shù)據(jù)(但愿數(shù)據(jù)質(zhì)量夠好)。

          一些像Google這樣聰明的家伙利用自己的用戶來為他們免費(fèi)標(biāo)注數(shù)據(jù),還記得ReCaptcha(人機(jī)驗證)強(qiáng)制你去“選擇所有的路標(biāo)”么?他們就是這樣獲取數(shù)據(jù)的,還是免費(fèi)勞動!干得漂亮。如果我是他們,我會更頻繁地展示這些驗證圖片,不過,等等……

          好的數(shù)據(jù)集真的很難獲取,它們是如此重要,以至于有的公司甚至可能開放自己的算法,但很少公布數(shù)據(jù)集。

          特征

          也可以稱為“參數(shù)”或者“變量”,比如汽車行駛公里數(shù)、用戶性別、股票價格、文檔中的詞頻等。換句話說,這些都是機(jī)器需要考慮的因素。

          如果數(shù)據(jù)是以表格的形式存儲,特征就對應(yīng)著列名,這種情形比較簡單。但如果是100GB的貓的圖片呢?我們不能把每個像素都當(dāng)做特征。這就是為什么選擇適當(dāng)?shù)奶卣魍ǔ1葯C(jī)器學(xué)習(xí)的其他步驟花更多時間的原因,特征選擇也是誤差的主要來源。人性中的主觀傾向,會讓人去選擇自己喜歡或者感覺“更重要”的特征——這是需要避免的。

          算法

          最顯而易見的部分。任何問題都可以用不同的方式解決。你選擇的方法會影響到最終模型的準(zhǔn)確性、性能以及大小。需要注意一點(diǎn):如果數(shù)據(jù)質(zhì)量差,即使采用最好的算法也無濟(jì)于事。這被稱為“垃圾進(jìn),垃圾出”(garbae in - garbage out,GIGO)。所以,在把大量心思花到正確率之前,應(yīng)該獲取更多的數(shù)據(jù)。

          學(xué)習(xí) V.S. 智能

          我曾經(jīng)在一些流行媒體網(wǎng)站上看到一篇題為“神經(jīng)網(wǎng)絡(luò)是否會取代機(jī)器學(xué)習(xí)?”的文章。這些媒體人總是莫名其妙地把線性回歸這樣的技術(shù)夸大為“人工智能”,就差稱之為“天網(wǎng)”了。下圖展示了幾個容易混淆的概念之間的關(guān)系。

          • 人工智能”是整個學(xué)科的名稱,類似于“生物學(xué)”或“化學(xué)”。
          • 機(jī)器學(xué)習(xí)”是“人工智能”的重要組成部分,但不是唯一的部分。
          • 神經(jīng)網(wǎng)絡(luò)”是機(jī)器學(xué)習(xí)的一種分支方法,這種方法很受歡迎,不過機(jī)器學(xué)習(xí)大家庭下還有其他分支。
          • 深度學(xué)習(xí)”是關(guān)于構(gòu)建、訓(xùn)練和使用神經(jīng)網(wǎng)絡(luò)的一種現(xiàn)代方法。本質(zhì)上來講,它是一種新的架構(gòu)。在當(dāng)前實踐中,沒人會將深度學(xué)習(xí)和“普通網(wǎng)絡(luò)”區(qū)分開來,使用它們時需要調(diào)用的庫也相同。為了不讓自己看起來像個傻瓜,你最好直接說具體網(wǎng)絡(luò)類型,避免使用流行語。

          一般原則是在同一水平上比較事物。這就是為什么“神經(jīng)網(wǎng)絡(luò)將取代機(jī)器學(xué)習(xí)”聽起來就像“車輪將取代汽車”。親愛的媒體們,這會折損一大截你們的聲譽(yù)哦。


          機(jī)器能機(jī)器不能
          預(yù)測創(chuàng)造新事物
          記憶快速變聰明
          復(fù)制超出任務(wù)范圍
          選擇最優(yōu)項消滅全人類

          機(jī)器學(xué)習(xí)世界的版圖

          如果你懶得閱讀大段文字,下面這張圖有助于獲得一些認(rèn)識。

          在機(jī)器學(xué)習(xí)的世界里,解決問題的方法從來不是唯一的——記住這點(diǎn)很重要——因為你總會發(fā)現(xiàn)好幾個算法都可以用來解決某個問題,你需要從中選擇最適合的那個。當(dāng)然,所有的問題都可以用“神經(jīng)網(wǎng)絡(luò)”來處理,但是背后承載算力的硬件成本誰來負(fù)擔(dān)呢?


          我們先從一些基礎(chǔ)的概述開始。目前機(jī)器學(xué)習(xí)主要有4個方向。



          未完待續(xù)……

          瀏覽 66
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  影音先锋内射麻豆 | 插一插色一色撸一撸视频在线 | 三级片www. | 免费国产黄色 | 日本成人A电影院 |