莊羽提議郭敬明成立反剽竊基金,AI:反剽竊,不行;剽竊,行!

大數(shù)據(jù)文摘出品
作者:王燁
郭敬明終于道歉了。
2020年12月31日零時,郭敬明就當年小說《夢里花落知多少》抄襲莊羽的作品《圈里圈外》一事在微博上道歉。
同時郭敬明還表示,將把《夢里花落知多少》的版權收入全部賠償給莊羽女士,“如果莊羽女士不愿意接受,我會把這筆錢捐給公益慈善機構”。

郭敬明道歉后,莊羽也很快進行了回應:時隔十五年,收到郭敬明的道歉,如郭敬明先生所說,這的確是一份遲來的歉意,我接受郭敬明先生的道歉。

除了接受郭敬明的道歉,莊羽還提議將《圈里圈外》這本小說出版后獲得的線上線下所有版稅以及全部收益同《夢里花落知多少》的收益合并在一起成立一個反剽竊基金,用以幫助原創(chuàng)作者維權。
至于具體的維權方式,盡管莊羽沒有表示,但可以想見只可能是用于支持原創(chuàng)作者在發(fā)現(xiàn)別人抄襲自己后,維護自身權益的各種舉措。
而以目前的網(wǎng)絡文學數(shù)量來看,原創(chuàng)作者最需要的——也是最難的一點——是及時發(fā)現(xiàn)自己被剽竊了。
如果只是靠人力,多大規(guī)模的反剽竊基金都很難做到及時發(fā)現(xiàn)剽竊現(xiàn)象。
那這事兒,能不能靠AI?
AI 反剽竊,并不容易
AI 反剽竊,并不容易
一提到反抄襲、反剽竊,我們的第一反應一般都是論文的自動查重系統(tǒng)。無數(shù)學子都曾在“降重”(降低重復率)的路上被論文查重系統(tǒng)按在地上反復摩擦。
傳統(tǒng)的論文查重系統(tǒng)并不能稱為現(xiàn)在意義上的AI,比如我們熟知的知網(wǎng)論文查詢,就是以連續(xù)十三個字符重復為原理,通常是以句子為單位,就是說一句話當中如果有連續(xù)十三個以上含十三個字符重復的,則該句被判定為重復率的概率就比較高。
但是這一呆板系統(tǒng)有著明顯的缺陷,簡單的更換同義詞、更換語序就能很大程度上避開這種查重。
這就涉及到了NLP領域一個非常有意思的領域——文本語義相似度計算。
舉個例子,智能客服如何理解人類針對同一個問題的同一個提法?
“花唄如何還款”&“花唄怎么還款”
“花唄如何還款”& “我怎么還我的花被呢”
“花唄分期后逾期了如何還款”&“花唄分期后逾期了哪里還款”
對AI來說,理解這些相似的問題并不容易。從傳統(tǒng)的特征工程方法,到現(xiàn)在的深度學習方法,這一問題都沒有得到很好的解決。
Kaggle針對這一問題也有一些比賽,主要是針對搜索引擎和QA系統(tǒng),這也側面說明了目前AI連單個句子的相似性分析都很難準確判斷,更別談對整個文章甚至書籍相似度的剽竊判斷了。
更何況,即使往后AI解決了文本語義相似度的問題,抄襲者如果在文學作品中只抄襲故事架構和情節(jié),AI想要判斷就難上加難了,這個難度甚至超越了AI對于語義的理解,上升到了AI對人類復雜社會和情感關系的理解。
當然了,如果是直白的抄襲,改寫都懶得改寫,那么最簡單的查重系統(tǒng)都可以查出來,比如下面這個。

反剽竊不行,AI剽竊卻很在行
反剽竊不行,AI剽竊卻很在行
AI是把雙刃劍,這句話用在剽竊和反剽竊上太合適不過了。
盡管剛才說了目前AI剽竊可能還不能做的很好,但是剽竊這事兒,AI現(xiàn)在卻很在行。
在百度上隨便搜一下,都能搜到一些可以用AI洗稿的工具,號稱可以通過AI識別他人的原創(chuàng)文章,然后通過改寫生成一篇“偽原創(chuàng)”的文章。

就針對上面那句話,文摘菌找了一個有線上版本的AI智能改寫工具試了一下。順便看了看工具的介紹,上面列舉了幾個耳熟能詳?shù)腘LP技術:情感分析、信息分類、實體識別。

這么一看,效果貌似還行,但還是很容易就看出來是改寫的,比如第三句只是將“號稱”改成了“聲稱”。
也許這種改寫工具很難對付嚴格的學術審查,但是對付像微信公眾號原創(chuàng)校驗這樣的反抄襲機制呢?
我們不妨來試試。
首先選擇一篇文摘的原創(chuàng)文章,然后進行改寫。

之后我們再將改寫后的文章復制到后臺發(fā)送,看能不能通過原創(chuàng)校驗。

點擊發(fā)送之后,微信公眾號后臺并沒有彈出原創(chuàng)校驗不通過的選項,而是可以直接發(fā)送。
很顯然,至少這個工具可以成功剽竊微信公眾號文章而不被原創(chuàng)校驗機制發(fā)現(xiàn)。
這么看來,難道AI真的有點不厚道,反剽竊不行,剽竊卻很在行?
小伙伴們,你們怎么看?

