<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          預(yù)測過去?DeepMind用AI復(fù)原古希臘銘文,登Nature封面

          共 3338字,需瀏覽 7分鐘

           ·

          2022-03-19 00:14


          來源:機(jī)器之心

          本文約2400字,建議閱讀9分鐘

          用深度神經(jīng)網(wǎng)絡(luò)(DNN)修復(fù)受損的古希臘銘文,DeepMind 探索 AI 與古文字學(xué)的融合。


          人類文字的誕生標(biāo)志著歷史的曙光,對于我們了解過去的文明和今天生活的世界至關(guān)重要。例如,2500 多年前,古希臘人開始在石頭、陶器和金屬上書寫,記錄下了包括租約、法律、日歷、神諭在內(nèi)的所有內(nèi)容,從而令后人詳細(xì)了解地中海地區(qū)。遺憾的是,這種記錄是不完整的。

          幾個世紀(jì)以來,許多遺留下來的銘文已被損壞或從原來的位置移走。同時,放射性碳測年法等現(xiàn)代測年技術(shù)不能用于這些材料,導(dǎo)致解釋銘文變得困難且耗時。

          DeepMind 一直探索如何利用 AI 修復(fù)古老的語言。2019 年 10 月,DeepMind 聯(lián)合牛津大學(xué)共同打造了 AI 工具 Pythia,它可以通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)來修復(fù)古希臘銘文中缺失的字符或單詞。

          近日,在最新一期 Nature 封面文章中,DeepMind 聯(lián)合威尼斯大學(xué)人類學(xué)系、牛津大學(xué)經(jīng)典學(xué)院的研究者,探索利用機(jī)器學(xué)習(xí)來幫助歷史學(xué)家更好地解釋這些銘文,從而讓人們更深入地了解古代歷史,并釋放 AI 和歷史學(xué)家之間合作的潛力。

          他們提出了首個可以恢復(fù)受損銘文缺失文本、識別原始位置并幫助確定創(chuàng)建日期的深度神經(jīng)網(wǎng)絡(luò) —— Ithaca,它是以荷馬史詩《奧德賽》中的希臘伊薩卡島命名,在之前的 Pythia 工具上構(gòu)建并進(jìn)行了擴(kuò)展。


          • 論文地址:
            https://www.nature.com/articles/s41586-022-04448-z
          • GitHub 地址:
            https://github.com/deepmind/ithaca

          研究結(jié)果表明,當(dāng)單獨使用時,Ithaca 在恢復(fù)受損銘文文本方面的準(zhǔn)確率達(dá)到了 62%。相比之下,參與的歷史學(xué)家的準(zhǔn)確率為 25%,不過他們使用 Ithaca 可以將這一數(shù)字提升到 72%。

          同時,Ithaca 在識別銘文原始位置方面的準(zhǔn)確率達(dá)到了 71%,鑒定它們的年代只與真實日期范圍相差不到 30 年。歷史學(xué)家已經(jīng)使用 Ithaca 重新評估了希臘歷史上的重要時期。

          此外,為了讓廣大研究人員、教育工作者、博物館職員及其他人使用他們的研究成果,DeepMind 與谷歌云、谷歌藝術(shù)與文化合作推出了 Ithaca 的免費交互版本。并且,DeepMind 還開源代碼、預(yù)訓(xùn)練模型和交互 Colab 筆記本。


          Ithaca 交互版本:https://ithaca.deepmind.com/

          下圖 1 中修復(fù)的銘文(IG I3 4B)記錄了一項關(guān)于雅典衛(wèi)城(Acropolis of Athens)的法令,日期為公元前 485/4 年。


          下圖 2 為 Ithaca 的架構(gòu)。文本受損部分用符號「-」表示,并人為損壞了字符。提供輸入后,Ithaca 恢復(fù)了文本,并識別出文本編寫的時間和地點。


          研究者相信,這只是 Ithaca 這類工具應(yīng)用的開始。他們目前正在研究針對其他古語言訓(xùn)練的 Ithaca 版本,歷史學(xué)家也已經(jīng)可以在當(dāng)前架構(gòu)中使用他們的數(shù)據(jù)集來研究其他古書寫系統(tǒng),比如阿卡德語、古埃及世俗體、希伯來語和瑪雅語言。

          Ithaca

          該研究使用機(jī)器學(xué)習(xí)進(jìn)行銘文識別,他們提出了 Ithaca,這是一種經(jīng)過訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)架構(gòu),可以同時執(zhí)行文本恢復(fù)、地理歸因和時間歸因任務(wù)。

          Ithaca 是在最大的希臘銘文數(shù)字?jǐn)?shù)據(jù)集上訓(xùn)練完成,該數(shù)據(jù)集由帕卡德人文學(xué)院 (PHI)提供,這是一個非營利基金會,成立于 1987 年,該機(jī)構(gòu)旨在為基礎(chǔ)研究創(chuàng)建工具人文學(xué)。通常來講,自然語言處理模型使用單詞進(jìn)行訓(xùn)練,它們在句子中出現(xiàn)的順序以及單詞之間的關(guān)系可以提供額外的上下文和含義。然而 Ithaca 的銘文損壞嚴(yán)重,丟失了大部分文本塊。為了確保模型有效,該研究使用單詞和單個字符作為輸入。模型核心為稀疏自注意力機(jī)制,用來并行計算這兩個輸入(單詞和單個字符)。

          圖 3:Ithaca 的輸出

          為了最大限度地發(fā)揮 Ithaca 作為研究工具的價值,該研究還創(chuàng)建了許多視覺輔助工具,以確保 Ithaca 的研究結(jié)果易于被歷史學(xué)家解讀:

          • 恢復(fù)假設(shè):Ithaca 為文本修復(fù)任務(wù)生成幾個預(yù)測假設(shè),供歷史學(xué)家利用自身專業(yè)知識進(jìn)行選擇;
          • 地理歸屬:Ithaca 通過為歷史學(xué)家提供所有可能預(yù)測的概率分布來顯示其不確定性,而不僅僅是單個輸出。因此,Ithaca 返回代表其確定性水平的 84 個不同古代區(qū)域的概率。可以在地圖上將這些結(jié)果可視化,以闡明古代世界可能存在的潛在地理聯(lián)系;
          • 時間歸屬:當(dāng)需要確定一篇文獻(xiàn)的年代時,Ithaca 會產(chǎn)生從公元前 800 年到公元 800 年預(yù)測日期分布,這可以使歷史學(xué)家了解模型對特定日期范圍的可信度,提供有價值的歷史見解;
          • 顯著圖:為了將結(jié)果傳達(dá)給歷史學(xué)家,Ithaca 使用計算機(jī)視覺中常用的一種技術(shù)來識別哪些輸入序列對預(yù)測的貢獻(xiàn)最大,輸出以不同顏色強(qiáng)度突出 Ithaca 預(yù)測缺失文本、地點和日期的單詞。



          數(shù)據(jù)集與模型

          為了訓(xùn)練 Ithaca,該研究開發(fā)了一個 pipeline 來檢索未處理的 PHI 數(shù)據(jù)集,該數(shù)據(jù)集由 178,551 個銘文轉(zhuǎn)錄文本組成。每個 PHI 銘文都被分配了一個唯一的數(shù)字 ID,并標(biāo)有與寫作地點和時間相關(guān)的元數(shù)據(jù)。PHI 共列出了 84 個古代區(qū)域,而年代信息以多種格式記錄,從歷史時代到精確的年份間隔,用多種語言編寫。PHI 數(shù)據(jù)集在經(jīng)過處理和過濾后,該研究得到新數(shù)據(jù)集 I.PHI,據(jù)了解這是最大的機(jī)器可操作銘文多任務(wù)數(shù)據(jù)集,包含 78,608 個銘文。

          由于部分銘文文字丟失,該研究將字符和單詞作為輸入,用特殊符號 [unk] 表示損壞、丟失或未知的單詞。接下來,為了實現(xiàn)大規(guī)模處理,Ithaca 的主干是基于 transformer 的神經(jīng)網(wǎng)絡(luò)架構(gòu),它使用注意力機(jī)制來衡量輸入的不同部分(如字符、單詞)對模型決策的影響過程。通過將輸入字符和單詞表示與它們的順序位置信息連接起來,注意力機(jī)制得到輸入文本的每個部分的位置。

          Ithaca 的主干由堆疊的 transformer 塊組成:每個塊輸出一系列處理后的表示,其長度等于輸入字符的數(shù)量,每個塊的輸出成為下一個塊的輸入。主干的最終輸出被傳遞給三個不同的任務(wù)頭,分別處理恢復(fù)、地理歸屬和時間歸屬。每個頭都由一個淺層前饋神經(jīng)網(wǎng)絡(luò)組成,專門針對每個任務(wù)進(jìn)行訓(xùn)練。在圖 2 所示的例子中,恢復(fù)頭預(yù)測了三個丟失的字符;地理歸屬頭將銘文分為 84 個區(qū)域,并且按時間順序的歸屬頭將其追溯到公元前 800 年至公元 800 年之間。

          該短語的前三個字符被隱藏,Ithaca 提出了修復(fù)建議,同時,Ithaca 還預(yù)測了銘文的地區(qū)和日期

          評估

          如下表 所示,對于恢復(fù)任務(wù),Ithaca 始終優(yōu)于競爭方法,獲得 26.3% 的 CER 和 61.8% 的 top 1 準(zhǔn)確率。具體來說,與人類專家相比,Ithaca 實現(xiàn)了 2.2 倍(即更好)的 CER,而與 Pythia 相比,Ithaca 的 top 20 預(yù)測實現(xiàn)了 1.5 倍的性能提升,準(zhǔn)確率為 78.3%。

          值得注意的是,將歷史學(xué)家與 Ithaca 組合時,借助 Ithaca 輔助的人類專家的 CER 為 18.3%,top 1 準(zhǔn)確率為 71.7%,與原始人類專家 CER 和 top 1 相比,提高了 3.2 倍和 2.8 倍。

          關(guān)于區(qū)域歸屬,Ithaca 的 top 1 預(yù)測準(zhǔn)確率為 70.8%,top 3 的預(yù)測準(zhǔn)確率為 82.1%。最后,對于時間歸屬,從真實日期間隔到人類基線預(yù)測的平均時間是 144.4 年,中位數(shù)是 94.5 年,但 Ithaca 中位距離僅為 30 年。


          原文鏈接:https://deepmind.com/blog/article/Predicting-the-past-with-Ithaca

          編輯:黃繼彥
          校對:林亦霖

          瀏覽 89
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  一级a片欧美 | 操逼网日| 十八禁免费观看网站 | xx在线看| 大香蕉尹人在线观看 |