<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          談?wù)剻C(jī)器學(xué)習(xí)的趨勢 - 新三大學(xué)習(xí)范式

          共 5341字,需瀏覽 11分鐘

           ·

          2020-09-19 21:38

          1引 言

          機(jī)器學(xué)習(xí)/深度學(xué)習(xí)是一個(gè)廣闊的研究領(lǐng)域,說來并不年輕,但又朝氣蓬勃,似乎每天都在涌現(xiàn)大量的新方法和新技術(shù)。

          一般來說,傳統(tǒng)的機(jī)器學(xué)習(xí)可以分為三個(gè)基本學(xué)習(xí)范式,即監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)以及強(qiáng)化學(xué)習(xí)。

          但在本篇中,我們將現(xiàn)代機(jī)器學(xué)習(xí)根據(jù)模型的形式分為新的三個(gè)學(xué)習(xí)范式,即混合學(xué)習(xí)、復(fù)合學(xué)習(xí)以及簡化學(xué)習(xí)。在每個(gè)范式中都包含一種學(xué)習(xí)方式和理念,它為拓展當(dāng)前機(jī)器學(xué)習(xí)的能力和研究范圍提供了巨大的潛力。

          • 混合學(xué)習(xí)(Hybrid learning)— 如何跨越監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的邊界,以充分使用大量的未標(biāo)記數(shù)據(jù)?

          • 復(fù)合學(xué)習(xí)(Composite learning)— 如何以新方式組合模型或組件以產(chǎn)生一個(gè)比各部分總和更強(qiáng)大的復(fù)合模型?

          • 簡化學(xué)習(xí)(Reduced learning)— 出于性能和部署目的,在保持相同或更大的預(yù)測能力的同時(shí),如何減少模型的規(guī)模和信息流?

          機(jī)器學(xué)習(xí)的未來或許在于這三種學(xué)習(xí)范式,而每一種都是緊密相關(guān)的。

          2混合 學(xué)習(xí)

          這種范式試圖跨越監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)之間的界限。由于標(biāo)簽數(shù)據(jù)缺乏且成本高,因此常常在業(yè)務(wù)上下文中使用這類方法。從本質(zhì)上說,混合學(xué)習(xí)就是下面這個(gè)問題的答案,

          + 如何使用監(jiān)督方法來解決或結(jié)合無監(jiān)督問題?

          首先,半監(jiān)督學(xué)習(xí)在機(jī)器學(xué)習(xí)社區(qū)中獲得了發(fā)展,因?yàn)樗軌蛞暂^少的標(biāo)記數(shù)據(jù)在監(jiān)督問題上表現(xiàn)出色。例如,經(jīng)過精心設(shè)計(jì)的半監(jiān)督 GAN(Generative Adversarial Network)僅查看 25 個(gè)訓(xùn)練示例[1]后,在 MNIST 數(shù)據(jù)集上實(shí)現(xiàn)了 90% 以上的準(zhǔn)確率。

          半監(jiān)督學(xué)習(xí)是針對(duì)存在大量無監(jiān)督數(shù)據(jù)而少量監(jiān)督數(shù)據(jù)的數(shù)據(jù)集而設(shè)計(jì)的。傳統(tǒng)上,將在數(shù)據(jù)的一部分上訓(xùn)練帶監(jiān)督的學(xué)習(xí)模型,而在另一部分上訓(xùn)練無監(jiān)督的模型,而半監(jiān)督的模型則可以將標(biāo)記數(shù)據(jù)與未標(biāo)記數(shù)據(jù)中提取的見解(insights)相結(jié)合。

          ? 半監(jiān)督模型示例。

          半監(jiān)督的 GAN(縮寫為 SGAN)是對(duì)標(biāo)準(zhǔn)對(duì)抗網(wǎng)絡(luò)模型的改進(jìn)。鑒別器既輸出 0/1 以判斷是否為生成圖像,又輸出類別信息(multi-output learning)。

          基于這樣的思想,即通過鑒別器的學(xué)習(xí)來區(qū)分真實(shí)圖像和生成圖像,它能夠在沒有具體標(biāo)記的情況下學(xué)習(xí)數(shù)據(jù)背后的結(jié)構(gòu)。通過來自少量標(biāo)記數(shù)據(jù)的額外增強(qiáng),半監(jiān)督模型可以用少量的監(jiān)督數(shù)據(jù)來達(dá)到最佳性能。

          可以在此處閱讀有關(guān) SGAN 和半監(jiān)督學(xué)習(xí)的更多信息[2]

          GAN 還參與了混合學(xué)習(xí)的另一個(gè)領(lǐng)域 — 自監(jiān)督學(xué)習(xí),其中無監(jiān)督問題被明確地定義為監(jiān)督問題。GAN 通過生成器的引入來人為創(chuàng)建監(jiān)督數(shù)據(jù);創(chuàng)建標(biāo)記以標(biāo)識(shí)真實(shí)的/生成的圖像。在無人監(jiān)督的前提下,實(shí)施了監(jiān)督任務(wù)。

          或者,考慮使用編碼器 - 解碼器模型進(jìn)行壓縮。形式最簡單的一種,就是中間有少量節(jié)點(diǎn)的神經(jīng)網(wǎng)絡(luò),表示以某種瓶頸方式的壓縮。兩側(cè)分別對(duì)應(yīng)編碼器和解碼器。

          ? 自編碼器示例。

          網(wǎng)絡(luò)經(jīng)過訓(xùn)練可以產(chǎn)生與輸入相同的輸出(從無監(jiān)督的數(shù)據(jù)人為創(chuàng)建監(jiān)督任務(wù))。由于中間有一個(gè)故意放置的瓶頸,因此網(wǎng)絡(luò)無法直接保持原樣地傳遞信息。相反,它必須找到最佳方法來將輸入內(nèi)容保存到一個(gè)較小的單元中,以便解碼器可以對(duì)其進(jìn)行合理地解碼。

          經(jīng)過訓(xùn)練后,編碼器和解碼器被拆開,可用于解碼數(shù)據(jù),或者以極小的形式壓縮數(shù)據(jù)。它們也可以用于數(shù)據(jù)降維。

          再舉一個(gè)例子,考慮大量文本(比如來自數(shù)字平臺(tái)的評(píng)論)。通過一些聚類或流形學(xué)習(xí)方法,我們可以為文本集生成聚類標(biāo)記,然后將它們視為標(biāo)記。

          在解釋了每個(gè)聚類之后(例如,聚類 A 代表抱怨產(chǎn)品的評(píng)論,聚類 B 代表積極的反饋等),然后可以使用像 BERT 這樣的深度自然語言處理(NLP)架構(gòu)將新文本分類到這些聚類中,所有這些都是在沒有標(biāo)記的數(shù)據(jù)以及較少人員參與的情況下進(jìn)行。

          這又是將無監(jiān)督任務(wù)轉(zhuǎn)換為監(jiān)督任務(wù)的一種精彩應(yīng)用。在一個(gè)絕大多數(shù)數(shù)據(jù)都是無監(jiān)督數(shù)據(jù)的時(shí)代,通過混合學(xué)習(xí),在監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)之間建立創(chuàng)造性的聯(lián)接,具有巨大的潛力和應(yīng)用價(jià)值。

          3復(fù)合 學(xué)習(xí)

          復(fù)合學(xué)習(xí)的目的不是利用一種模型的知識(shí),而是幾種模型的知識(shí)。人們認(rèn)為,通過靜態(tài)或動(dòng)態(tài)信息的獨(dú)特組合或注入,深度學(xué)習(xí)可以比單一模型在理解和性能上更加深入。

          遷移學(xué)習(xí)是復(fù)合學(xué)習(xí)的一個(gè)典型示例,其前提是模型的權(quán)重可以從一個(gè)在類似任務(wù)上預(yù)先訓(xùn)練過的模型中借用,然后在特定任務(wù)上進(jìn)行微調(diào)。像 Inception 或 VGG-16 這樣的預(yù)訓(xùn)練模型,其結(jié)構(gòu)和權(quán)重被設(shè)計(jì)用來分類圖像。

          如果我要訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)來識(shí)別動(dòng)物(如貓,狗等),那么我不會(huì)從頭開始訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò),因?yàn)橐@得良好的結(jié)果將花費(fèi)大量時(shí)間。相反地,我將采用像 Inception 這樣的預(yù)訓(xùn)練網(wǎng)絡(luò),該網(wǎng)絡(luò)已經(jīng)具有圖像識(shí)別的基本知識(shí),只需要在數(shù)據(jù)集上進(jìn)行了一些額外的訓(xùn)練。

          同樣,NLP 神經(jīng)網(wǎng)絡(luò)中的詞嵌入功能,根據(jù)詞與詞之間的關(guān)系將詞在實(shí)際意義上更接近其他詞(例如,蘋果橙子的距離要比蘋果卡車的距離?。?/span>。像 GloVe 這樣的預(yù)訓(xùn)練嵌入可以放置到神經(jīng)網(wǎng)絡(luò)中,從已經(jīng)有效的單詞映射到數(shù)字的、有意義的實(shí)體。

          不太明顯的是,競爭也會(huì)刺激知識(shí)的增長。一方面,生成對(duì)抗網(wǎng)絡(luò)通過從根本上使兩個(gè)神經(jīng)網(wǎng)絡(luò)相互對(duì)抗而借鑒了復(fù)合學(xué)習(xí)范式。生成器的目標(biāo)是欺騙鑒別器,而鑒別器的目標(biāo)則是不被欺騙。

          模型之間的競爭將被稱為對(duì)抗性學(xué)習(xí),不要與另一種對(duì)抗學(xué)習(xí)相混淆,后者是指設(shè)計(jì)惡意輸入以及利用模型中的弱決策邊界。

          對(duì)抗學(xué)習(xí)可以刺激通常是不同類型的模型,其中模型的性能可以相對(duì)于其他模型的性能來表示。在對(duì)抗學(xué)習(xí)領(lǐng)域,仍有很多研究工作要做,生成對(duì)抗網(wǎng)絡(luò)是對(duì)抗學(xué)習(xí)領(lǐng)域唯一突出的創(chuàng)新。

          另一方面,競爭學(xué)習(xí)與對(duì)抗學(xué)習(xí)類似,不過是在逐節(jié)點(diǎn)的規(guī)模上執(zhí)行的: 節(jié)點(diǎn)在對(duì)輸入數(shù)據(jù)的子集做出響應(yīng)的權(quán)利上競爭。競爭學(xué)習(xí)是在競爭層中實(shí)現(xiàn)的,除了一些隨機(jī)分布的權(quán)重外,所有神經(jīng)元完全相同。

          將每個(gè)神經(jīng)元的權(quán)值向量與輸入向量進(jìn)行比較,將相似度最高的神經(jīng)元激活(輸出 = 1),將其他神經(jīng)元停用(輸出 = 0),這種無監(jiān)督技術(shù)是自組織映射[3]特征探索[4]的核心組成部分。

          復(fù)合學(xué)習(xí)的另一個(gè)有趣示例是神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索。簡單來說,強(qiáng)化學(xué)習(xí)環(huán)境中的神經(jīng)網(wǎng)絡(luò)(通常是遞歸的)會(huì)學(xué)習(xí)為數(shù)據(jù)集生成最佳的神經(jīng)網(wǎng)絡(luò) — 此算法為你找到最佳的架構(gòu)!

          集成方法也是復(fù)合學(xué)習(xí)中的主要內(nèi)容。深度集成方法已經(jīng)證明是非常有效的,并且在實(shí)際應(yīng)用中,端對(duì)端模型的堆疊(例如編碼器和解碼器)已經(jīng)越來越流行。

          許多復(fù)合學(xué)習(xí)正在尋找在不同模型之間建立聯(lián)系的獨(dú)特方法。前提是,一個(gè)單一的模型,甚至是非常大的模型,都比幾個(gè)小型模型/組件的復(fù)合模型的性能差,其中那個(gè)每個(gè)小型模型/組件都被委托專門負(fù)責(zé)部分任務(wù)。

          例如,考慮為餐廳構(gòu)建聊天機(jī)器人的任務(wù)。

          ? 聊天機(jī)器人模型設(shè)計(jì)示例。

          我們可以將其分為三個(gè)獨(dú)立的模塊: 閑聊、信息檢索以及動(dòng)作,并設(shè)計(jì)一個(gè)專門針對(duì)每種任務(wù)的模型。另外,我們可以委托一個(gè)單一模型來執(zhí)行所有三個(gè)任務(wù)。

          復(fù)合模型可以在占用更少空間的同時(shí)實(shí)現(xiàn)更好的性能。此外,可以用 Keras functional API 之類的工具輕松地構(gòu)建這些具有非線性拓?fù)涞木W(wǎng)絡(luò)架構(gòu)。

          為了處理越來越多的數(shù)據(jù)類型(例如視頻和 3D 數(shù)據(jù)),研究人員必須建立更復(fù)雜的復(fù)合模型。

          這里閱讀更多關(guān)于復(fù)合學(xué)習(xí)及其未來發(fā)展的知識(shí)[5]。

          4簡化?學(xué)習(xí)

          模型的規(guī)模正在不斷擴(kuò)大,尤其是在 NLP 方面。最新的 GPT-3 模型具有 1750 億個(gè)參數(shù)。將其與 BERT 進(jìn)行比較就像將木星與蚊子進(jìn)行比較。深度學(xué)習(xí)的未來會(huì)更廣闊嗎?

          這點(diǎn)可能具有很大的爭議?并沒有。誠然,GPT-3 的功能非常強(qiáng)大,但是人類歷史一再證明成功的科學(xué)對(duì)人類影響最大的科學(xué)。當(dāng)學(xué)術(shù)界偏離現(xiàn)實(shí)太遠(yuǎn)時(shí),它通常就會(huì)淡出人們的視線。這也是神經(jīng)網(wǎng)絡(luò)在 20 世紀(jì)后期的一段短暫時(shí)間里被遺忘了的原因之一,因?yàn)榭捎玫臄?shù)據(jù)太少了,所以無論它的想法多么精巧,都毫無用處。

          GPT-3 是另一種語言模型,它可以編寫令人信服的文本。它的應(yīng)用在哪里?它的確可以生成例如查詢答案。但是,有更加有效的方法可以做到這一點(diǎn)(例如遍歷知識(shí)圖并使用較小的模型 BERT 來輸出答案)。

          考慮到計(jì)算能力的下降,GPT-3 的龐大規(guī)模(更不用說更大的模型)似乎根本不是可行或必要的了。

          “摩爾定律有點(diǎn)兒沒用了。” — 微軟首席執(zhí)行官 Satya Nadella。

          取而代之的是,我們正朝著嵌入式 AI 的世界邁進(jìn)。在這個(gè)世界中,智能冰箱可以自動(dòng)訂購雜貨,而無人機(jī)則可以自行導(dǎo)航整個(gè)城市。強(qiáng)大的機(jī)器學(xué)習(xí)方法應(yīng)該能夠加載到 PC、移動(dòng)電話和小型芯片上。

          這要求輕量級(jí) AI,即在保持性能的同時(shí)使神經(jīng)網(wǎng)絡(luò)更小。

          事實(shí)證明,在深度學(xué)習(xí)研究中,幾乎所有的東西都直接或間接地與減少必要數(shù)量的參數(shù)有關(guān),而這些參數(shù)與提高泛化和性能緊密相關(guān)。

          例如,卷積層的引入大大地減少了神經(jīng)網(wǎng)絡(luò)處理圖像所需的參數(shù)數(shù)量。遞歸層在使用相同權(quán)值的同時(shí)融入了時(shí)間概念,使得神經(jīng)網(wǎng)絡(luò)能夠以更少的參數(shù)更好地處理序列數(shù)據(jù)。

          嵌入層顯式地將實(shí)體映射到具有物理意義的數(shù)值上,從而使得負(fù)擔(dān)不會(huì)放在其他參數(shù)上。在一種解釋中,Dropout 層顯式地阻止參數(shù)對(duì)輸入的某些部分進(jìn)行操作。L1/L2 正則化確保網(wǎng)絡(luò)利用了所有的參數(shù),確保每個(gè)參數(shù)都不會(huì)太大,并且每個(gè)參數(shù)都最大化了它們的信息價(jià)值。

          隨著專業(yè)層的建立,網(wǎng)絡(luò)對(duì)更復(fù)雜、更大數(shù)據(jù)的要求越來越少,而對(duì)于尋求壓縮網(wǎng)絡(luò)的趨勢則更加明顯了。

          神經(jīng)網(wǎng)絡(luò)修剪試圖去除對(duì)網(wǎng)絡(luò)輸出沒有價(jià)值的突觸和神經(jīng)元。通過修剪,網(wǎng)絡(luò)可以在幾乎完全去除自身的情況下保持其性能。

          ? 神經(jīng)網(wǎng)絡(luò)修剪示例。

          其他方法,例如患者知識(shí)提煉(Patient Knowledge Distillation)查找方法,可將大型語言模型壓縮為可下載到用戶手機(jī)上的表單。這是 Google 神經(jīng)機(jī)器翻譯(GNMT)系統(tǒng)的做法,該系統(tǒng)為 Google Translate 提供支持,且可以創(chuàng)建可離線訪問的高性能翻譯服務(wù)。

          實(shí)質(zhì)上,簡化學(xué)習(xí)圍繞以部署為中心的架構(gòu)設(shè)計(jì)。這就是為什么大多數(shù)學(xué)習(xí)的研究來自公司的研究部門。以部署為中心的設(shè)計(jì)的一個(gè)方面不是盲目遵循數(shù)據(jù)集的性能指標(biāo),而是專注于部署模型時(shí)的潛在問題。

          例如,前面提到的對(duì)抗輸入是旨在欺騙網(wǎng)絡(luò)的惡意輸入。在標(biāo)志上噴上油漆或貼紙會(huì)欺騙自動(dòng)駕駛汽車,使其加速超過極限速度。負(fù)責(zé)任的學(xué)習(xí)的一部分,不僅是使模型輕巧到足以使用,同時(shí)要確保它可以適應(yīng)數(shù)據(jù)集中未顯示的極端情況。

          在深度學(xué)習(xí)研究中,學(xué)習(xí)可能得到的關(guān)注最少,因?yàn)?code style="overflow-wrap: break-word;padding: 2px 4px;border-radius: 4px;margin-right: 2px;margin-left: 2px;background-color: rgba(27, 31, 35, 0.05);font-family: "Operator Mono", Consolas, Monaco, Menlo, monospace;word-break: break-all;font-size: 14px;color: rgb(51, 51, 51);font-weight: bold;">我們成功地在可行的架構(gòu)規(guī)模下實(shí)現(xiàn)了良好的性能遠(yuǎn)不如我們通過一個(gè)擁有無數(shù)參數(shù)的架構(gòu)實(shí)現(xiàn)了最先進(jìn)的性能那么吸引人。

          不可避免地,當(dāng)對(duì)更高百分比的追求消失時(shí),正如創(chuàng)新的歷史所顯示的那樣,學(xué)習(xí)(實(shí)際上可以認(rèn)為是實(shí)用學(xué)習(xí))將得到它應(yīng)該得到的更多關(guān)注。

          5小 結(jié)

          混合學(xué)習(xí)試圖跨越監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的邊界。半監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)之類的方法能夠從未標(biāo)記的數(shù)據(jù)中提取有價(jià)值的見解。隨著無監(jiān)督數(shù)據(jù)的數(shù)量呈指數(shù)級(jí)增長,這種方法具有不可思議的價(jià)值。

          隨著任務(wù)變得越來越復(fù)雜,復(fù)合學(xué)習(xí)將一項(xiàng)任務(wù)分解為幾個(gè)更簡單的部分。當(dāng)這些對(duì)應(yīng)不同部分的模型一起工作或相互對(duì)抗時(shí),結(jié)果就形成了一個(gè)更加強(qiáng)大的模型。

          深度學(xué)習(xí)走入炒作階段,學(xué)習(xí)并沒有引起太多關(guān)注,但是很快就會(huì)出現(xiàn)足夠的實(shí)用性以及以部署為中心的網(wǎng)絡(luò)設(shè)計(jì)。

          ?參考資料?

          [1]

          半監(jiān)督 GAN: https://coursys.sfu.ca/2020sp-cmpt-726-x1/pages/SSL_GAN_report/view

          [2]

          SGAN 和半監(jiān)督學(xué)習(xí): https://towardsdatascience.com/supervised-learning-but-a-lot-better-semi-supervised-learning-a42dff534781

          [3]

          自組織映射: https://en.wikipedia.org/wiki/Self-organizing_map

          [4]

          特征探索: https://onlinelibrary.wiley.com/doi/pdf/10.1207/s15516709cog0901_5

          [5]

          復(fù)合學(xué)習(xí): https://medium.com/analytics-vidhya/compositional-learning-is-the-future-of-machine-learning-22b56ad09edc

          [6]

          Andre Ye: https://towardsdatascience.com/the-future-of-deep-learning-can-be-broken-down-into-these-3-learning-paradigms-e7970dec5502





          前沿?zé)狳c(diǎn): 自監(jiān)督學(xué)習(xí)圖鑒

          認(rèn)識(shí)元學(xué)習(xí) Meta Learning

          零樣本學(xué)習(xí) Zero-Shot Learning 入門



          瀏覽 81
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  一级生活毛片 | 精品国产一区二区三区麻豆传媒 | A黄色片 爆操嫩逼 | 大香蕉久久伊 | 无码映画在线 |