大數(shù)據(jù)文摘出品

作者：王燁

郭敬明終于道歉了。

2020年12月31日零時，郭敬明就當年小說《夢里花落知多少》抄襲莊羽的作品《圈里圈外》一事在微博上道歉。

同時郭敬明還表示，將把《夢里花落知多少》的版權收入全部賠償給莊羽女士，“如果莊羽女士不愿意接受，我會把這筆錢捐給公益慈善機構”。

郭敬明道歉后，莊羽也很快進行了回應：時隔十五年，收到郭敬明的道歉，如郭敬明先生所說，這的確是一份遲來的歉意，我接受郭敬明先生的道歉。

除了接受郭敬明的道歉，莊羽還提議將《圈里圈外》這本小說出版后獲得的線上線下所有版稅以及全部收益同《夢里花落知多少》的收益合并在一起成立一個反剽竊基金，用以幫助原創(chuàng)作者維權。

至于具體的維權方式，盡管莊羽沒有表示，但可以想見只可能是用于支持原創(chuàng)作者在發(fā)現(xiàn)別人抄襲自己后，維護自身權益的各種舉措。

而以目前的網(wǎng)絡文學數(shù)量來看，原創(chuàng)作者最需要的——也是最難的一點——是及時發(fā)現(xiàn)自己被剽竊了。

如果只是靠人力，多大規(guī)模的反剽竊基金都很難做到及時發(fā)現(xiàn)剽竊現(xiàn)象。

那這事兒，能不能靠AI？

AI 反剽竊，并不容易

一提到反抄襲、反剽竊，我們的第一反應一般都是論文的自動查重系統(tǒng)。無數(shù)學子都曾在“降重”（降低重復率）的路上被論文查重系統(tǒng)按在地上反復摩擦。

傳統(tǒng)的論文查重系統(tǒng)并不能稱為現(xiàn)在意義上的AI，比如我們熟知的知網(wǎng)論文查詢，就是以連續(xù)十三個字符重復為原理，通常是以句子為單位，就是說一句話當中如果有連續(xù)十三個以上含十三個字符重復的，則該句被判定為重復率的概率就比較高。

但是這一呆板系統(tǒng)有著明顯的缺陷，簡單的更換同義詞、更換語序就能很大程度上避開這種查重。

這就涉及到了NLP領域一個非常有意思的領域——文本語義相似度計算。

舉個例子，智能客服如何理解人類針對同一個問題的同一個提法？

對AI來說，理解這些相似的問題并不容易。從傳統(tǒng)的特征工程方法，到現(xiàn)在的深度學習方法，這一問題都沒有得到很好的解決。

Kaggle針對這一問題也有一些比賽，主要是針對搜索引擎和QA系統(tǒng)，這也側面說明了目前AI連單個句子的相似性分析都很難準確判斷，更別談對整個文章甚至書籍相似度的剽竊判斷了。

更何況，即使往后AI解決了文本語義相似度的問題，抄襲者如果在文學作品中只抄襲故事架構和情節(jié)，AI想要判斷就難上加難了，這個難度甚至超越了AI對于語義的理解，上升到了AI對人類復雜社會和情感關系的理解。

當然了，如果是直白的抄襲，改寫都懶得改寫，那么最簡單的查重系統(tǒng)都可以查出來，比如下面這個。

反剽竊不行，AI剽竊卻很在行

AI是把雙刃劍，這句話用在剽竊和反剽竊上太合適不過了。

盡管剛才說了目前AI剽竊可能還不能做的很好，但是剽竊這事兒，AI現(xiàn)在卻很在行。

在百度上隨便搜一下，都能搜到一些可以用AI洗稿的工具，號稱可以通過AI識別他人的原創(chuàng)文章，然后通過改寫生成一篇“偽原創(chuàng)”的文章。

就針對上面那句話，文摘菌找了一個有線上版本的AI智能改寫工具試了一下。順便看了看工具的介紹，上面列舉了幾個耳熟能詳?shù)腘LP技術：情感分析、信息分類、實體識別。

這么一看，效果貌似還行，但還是很容易就看出來是改寫的，比如第三句只是將“號稱”改成了“聲稱”。

也許這種改寫工具很難對付嚴格的學術審查，但是對付像微信公眾號原創(chuàng)校驗這樣的反抄襲機制呢？

我們不妨來試試。

首先選擇一篇文摘的原創(chuàng)文章，然后進行改寫。

之后我們再將改寫后的文章復制到后臺發(fā)送，看能不能通過原創(chuàng)校驗。

點擊發(fā)送之后，微信公眾號后臺并沒有彈出原創(chuàng)校驗不通過的選項，而是可以直接發(fā)送。

很顯然，至少這個工具可以成功剽竊微信公眾號文章而不被原創(chuàng)校驗機制發(fā)現(xiàn)。

這么看來，難道AI真的有點不厚道，反剽竊不行，剽竊卻很在行？

小伙伴們，你們怎么看？

點「在看」的人都變好看了哦！