<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          【深度學(xué)習(xí)】Transformer直接預(yù)測完整數(shù)學(xué)表達式,推理速度提高多個數(shù)量級

          共 2377字,需瀏覽 5分鐘

           ·

          2022-06-09 08:51

          機器之心報道

          機器之心編輯部

          來自 Mata AI、法國索邦大學(xué)、巴黎高師的研究者成功讓 Transformer 直接預(yù)測出完整的數(shù)學(xué)表達式。


          符號回歸,即根據(jù)觀察函數(shù)值來預(yù)測函數(shù)數(shù)學(xué)表達式的任務(wù),通常涉及兩步過程:預(yù)測表達式的「主干」并選擇數(shù)值常數(shù),然后通過優(yōu)化非凸損失函數(shù)來擬合常數(shù)。其中用到的方法主要是遺傳編程,通過多次迭代子程序?qū)崿F(xiàn)算法進化。神經(jīng)網(wǎng)絡(luò)最近曾在一次嘗試中預(yù)測出正確的表達式主干,但仍然沒有那么強大。

          在近期的一項研究中,來自 Meta AI(Facebook)、法國索邦大學(xué)、巴黎高師的研究者提出了一種 E2E 模型,嘗試一步完成預(yù)測,讓 Transformer 直接預(yù)測完整的數(shù)學(xué)表達式,包括其中的常數(shù)。隨后通過將預(yù)測常數(shù)作為已知初始化提供給非凸優(yōu)化器來更新預(yù)測常數(shù)。


          論文地址:https://arxiv.org/abs/2204.10532

          該研究進行消融實驗以表明這種端到端方法產(chǎn)生了更好的結(jié)果,有時甚至不需要更新步驟。研究者針對 SRBench 基準測試中的問題評估了該模型,并表明該模型接近 SOTA 遺傳編程的性能,推理速度提高了幾個數(shù)量級。

          方法

          Embedder?

          該模型提供了 N 個輸入點 (x, y) ∈ R^(D+1),每個輸入點被表征為 d_emb 維度的 3(D + 1) 個 token。隨著 D 和 N 變大,這會導(dǎo)致輸入序列很長(例如,D = 10 和 N = 200 時有 6600 個 token),這對 Transformer 的二次復(fù)雜度提出了挑戰(zhàn)。

          為了緩解這種情況,該研究提出了一個嵌入器( embedder )來將每個輸入點映射成單一嵌入。嵌入器將空輸入維度填充(pad)到 D_max,然后將 3(D_max+1)d_emb 維向量饋入具有 ReLU 激活的 2 層全連接前饋網(wǎng)絡(luò) (FFN) 中,該網(wǎng)絡(luò)向下投影到 d_emb 維度,得到的 d_emb 維的 N 個嵌入被饋送到 Transformer。

          該研究使用一個序列到序列的 Transformer 架構(gòu),它有 16 個 attention head,嵌入維度為 512,總共包含 86M 個參數(shù)。像《 ‘Linear algebra with transformers 》研究中一樣,研究者觀察到解決這個問題的最佳架構(gòu)是不對稱的,解碼器更深:在編碼器中使用 4 層,在解碼器中使用 16 層。該任務(wù)的一個顯著特性是 N 個輸入點的排列不變性。為了解釋這種不變性,研究者從編碼器中刪除了位置嵌入。

          如下圖 3 所示,編碼器捕獲所考慮函數(shù)的最顯著特征,例如臨界點和周期性,并將專注于局部細節(jié)的短程 head 與捕獲函數(shù)全局的長程 head 混合在一起。


          訓(xùn)練

          該研究使用 Adam 優(yōu)化器優(yōu)化交叉熵損失,在前 10000 步中將學(xué)習(xí)率從 10^(-7) 提升到 2.10^(-4),然后按照論文《 Attention is all you need 》中的方法將其衰減為步數(shù)的平方根倒數(shù)(inverse square root)。該研究提供了包含來自同一生成器的 10^4 個樣本的驗證集,并訓(xùn)練模型,直到驗證集的準確率達到飽和(大約 50 個 epoch 的 3M 個樣本)。

          輸入序列長度隨點數(shù) N 顯著變化;為了避免浪費填充,該研究將相似長度的樣本一起批處理,確保一個完整的批處理包含至少 10000 個 token。

          實驗結(jié)果

          該研究不僅評估了域內(nèi)準確性,也展示了在域外數(shù)據(jù)集上的結(jié)果。

          域內(nèi)性能

          表 2 給出了該模型的平均域內(nèi)結(jié)果。如果不進行修正,E2E 模型在低精度預(yù)測(R^2 和 Acc_0.1 指標)方面優(yōu)于在相同協(xié)議下訓(xùn)練的 skeleton 模型,但常數(shù)預(yù)測中存在的錯誤會導(dǎo)致在高精度(Acc_0.001)下的性能較低。


          修正之后的程序顯著緩解了這個問題,讓 Acc_0.001 提升了三倍,同時其他指標也有所改進。


          圖 4A、B、C 給出了 3 個公式難度指標的消融實驗結(jié)果(從左到右):一元算子的數(shù)量、二元算子的數(shù)量和輸入維數(shù)。正如人們所預(yù)料的那樣,在所有情況下,增加難度系數(shù)會降低性能。這可能會讓人認為該模型在輸入維度上不能很好地擴展,但實驗表明,與并發(fā)方法相比,該模型在域外數(shù)據(jù)集上的擴展性能非常好,如下圖所示。


          圖 4D 顯示了性能與輸入模型的點數(shù) N 之間的關(guān)系。在所有情況下,性能都會提高,但 E2E 模型比 skeleton 模型更顯著,這證明大量數(shù)據(jù)對于準確預(yù)測表達式中的常數(shù)是非常重要的。

          外推和穩(wěn)健性。如圖 4E 所示,該研究通過改變測試點的規(guī)模來檢查模型內(nèi)插 / 外推的能力:該研究沒有將測試點歸一化為單位方差,而是將它們歸一化為 σ。隨著 σ 的增加,性能會下降,但是即使遠離輸入(σ = 32),外推性能仍然不錯。

          最后,如圖 4F 所示,研究者檢查了使用方差 σ 的乘性噪聲(multiplicative noise)對目標 y 的影響:y → y(1 + ξ), ξ ~ N (0, ε)。這個結(jié)果揭示了一些有趣的事情:如果不進行修正,E2E 模型對噪聲的穩(wěn)健性不強,實際上在高噪聲下性能比 skeleton 模型差。這顯示了 Transformer 在預(yù)測常數(shù)時對輸入的敏感程度。修正之后 E2E 模型的穩(wěn)健性顯著提高,但將常數(shù)初始化為估計值的影響較小,因為常數(shù)的預(yù)測被噪聲破壞了。

          感興趣的讀者可以閱讀論文原文,了解更多研究細節(jié)。
          往期精彩回顧




          瀏覽 35
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  青青草超碰免费 | 国产精品人妻在线 | 国产激情在线视频网站 | 91视频强奸乱伦家庭国产 | 免费看A片秘 免费 |