明年,我要用 AI 給全村寫對聯(lián)
By 超神經(jīng)
內(nèi)容提要:到了臘月二十九、三十,家家戶戶都要開始貼春聯(lián)了。今年,各種 AI 寫春聯(lián)應用都紛紛上線,幫大家寫春聯(lián),要試試嗎?
關(guān)鍵詞:AI 寫春聯(lián) NLP
春節(jié)接近尾聲,你是否還沉浸在年味里?
到臘月二十九、三十,家家戶戶貼上了 紅紅的春聯(lián),春節(jié)就正式拉開了序幕。
春聯(lián)也稱為「對聯(lián)」、「門對」、「楹聯(lián)」,是漢語所獨有的一種藝術(shù)形式,有著悠久的歷史。2005 年,中國國務院把楹聯(lián)習俗,列為第一批國家非物質(zhì)文化遺產(chǎn)名錄。
對聯(lián)對聯(lián),講究的就是「成對」,要對仗工整,平仄協(xié)調(diào)。不過現(xiàn)代人的對對聯(lián)技能,已經(jīng)遠不如古代的文人墨客,甚至有時候可能連上下聯(lián)都傻傻分不清楚。而聰明的 AI 已經(jīng)學會自己寫對聯(lián)了。
70 萬條對聯(lián)數(shù)據(jù),教會 AI 對對子
在現(xiàn)有公開的對聯(lián)數(shù)據(jù)集中,以馮重樸_梨味齋散葉_的博客所發(fā)布的 couplet-dataset 數(shù)據(jù)最為龐大、使用也最為廣泛。
左右滑動查看數(shù)據(jù)集節(jié)選內(nèi)容
前兩張分別為訓練集的上聯(lián)和下聯(lián)
后兩張分別為測試集的上聯(lián)和下聯(lián)
這份數(shù)據(jù)集共包含 70 余萬條對聯(lián)數(shù)據(jù),按字切分。
數(shù)據(jù)集分為訓練集、測試集以及詞匯表。
其中,如上圖節(jié)選內(nèi)容所示,訓練集分輸入、輸出兩部分,分別為對聯(lián)的上聯(lián)與下聯(lián),按次序一一對應,測試集同理。
數(shù)據(jù)集詳細信息如下:
couplet-dataset
對聯(lián)數(shù)據(jù)集
數(shù)據(jù)來源:馮重樸_梨味齋散葉
包含數(shù)量:70 萬條對聯(lián)
數(shù)據(jù)格式:.txt
地址:https://hyper.ai/datasets/14547
這個數(shù)據(jù)集已經(jīng)成為對聯(lián)數(shù)據(jù)中的「團寵」,被眾多 AI 工程師、團隊用來作為寫對聯(lián)模型的訓練數(shù)據(jù)集,華為的樂府春聯(lián)亦是用該數(shù)據(jù)集訓練而來,可通過以上地址或點擊閱讀原文,下載該數(shù)據(jù)集。不過有一個小小的遺憾是,這一數(shù)據(jù)集中沒有橫批,還需要各位自己發(fā)揮。
AI:沒有我對不出來的對聯(lián)
一位名叫王斌的程序員,爬取和使用該對聯(lián)數(shù)據(jù)集,用 GTX 1080 Ti 訓練了 4 天,得到了一個自動對對聯(lián)模型。效果如何?我們來測試一下。
左右滑動查看更多
測試地址:https://ai.binwang.me/couplet/
這位程序員還將該項目在 GitHub 開源:
https://github.com/wb14123/couplet-dataset
另外一位工程師,則基于 GPT2-Chinese 和該對聯(lián)數(shù)據(jù)集,訓練了一份對聯(lián)領(lǐng)域的 GPT-2 模型,可自動生成對聯(lián)。
它將其 server 版本對接到微信公眾號 AINLP 后臺,可以直接在對話框進行測試。
輸入關(guān)鍵詞「寫對聯(lián)」,可觸發(fā)對聯(lián)自動生成,例如輸入「寫對聯(lián)金?!梗瑢β?lián)模型會基于「金?!惯M行自動續(xù)寫,給出以「金?!归_頭的 3 個對聯(lián):
左右滑動查看更多
輸入「對對聯(lián) + 一組上聯(lián)」,可得到三組對聯(lián),比如:
左右滑動查看更多
目前看來,對于一些經(jīng)典對聯(lián),AI 能做到對仗比較工整,且想象力豐富,對于同一上聯(lián),可對出多個不同下聯(lián);而對于一些不常在對聯(lián)中出現(xiàn)的字詞,AI 表現(xiàn)有些隨意牽強。當然,讓 AI 對「人工智能」什么的,也的確是有些為難人家了。
華為團隊開發(fā)的 AI 對聯(lián),也是以 Couplet-dataset 對聯(lián)數(shù)據(jù)集作為訓練數(shù)據(jù)。該模型可以根據(jù)給定主題,生成對聯(lián)。以下分別是輸入「新春快樂」、「平安健康」、「一夜暴富」主題的生成結(jié)果,可滑動查看:
左右滑動查看不同主題的 AI 對聯(lián)
明年,你要不要也訓練一個自己的 AI 寫春聯(lián)模型,為家人寫副對聯(lián)呢?
—— 完 ——
更多精彩內(nèi)容(點擊圖片閱讀)























