這個項目厲害了,橫跨六十余年的中文歷時語料庫
【公眾號回復(fù) “1024”,免費領(lǐng)取程序員賺錢實操經(jīng)驗】

大家好,我是章魚貓。
今天推薦的這個項目是「ChineseDiachronicCorpus」,中文歷時語料庫,橫跨六十余年,包括騰訊歷時新聞 2009 - 2016,人民日報歷時語料 1946 - 2003,參考消息歷時語料 1957 - 2002。
基于歷時流通語料庫,可用于歷時語言變化計算、語言監(jiān)測、社會文化變遷研究提供基礎(chǔ)性的語料支持。
項目的由來
語言是人類重要的交際工具,同時也是社會的鏡子,語言記錄并反映了社會,對語言記錄進(jìn)行挖掘、計算,可以從各個層面對社會進(jìn)行解讀。
例如,基于語料庫進(jìn)行詞語考察,以反映單個詞語在不同時間周期中的使用及變動情況。以語料為載體,挖掘出屬于某個特定時間周期的社會特點,例如年度關(guān)鍵詞、年度人物、年度流行語;對詞語進(jìn)行文化計算,如顏色計算、性別計算、觀點計算等,以考察整個社會對某一事物、看法的演變。
當(dāng)前,開源可用的中文歷時語料庫較少。代表性的有北京語言大學(xué)國家語言資源監(jiān)測與研究平面媒體中心 DCC 動態(tài)流通語料庫,其對國內(nèi)數(shù)十家報紙媒體進(jìn)行監(jiān)測,也有中國傳媒大學(xué)網(wǎng)絡(luò)媒體中心的歷時語料庫可以使用。
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展以及采集技術(shù)的相對成熟,構(gòu)建起歷時語料庫變得越來越容易,這就使得向外界共享歷時語料庫變得更為便利且必要。
本項目,旨在通過公開收集的方式,從網(wǎng)絡(luò)媒體和平面媒體兩個角度出發(fā),形成騰訊新聞、人民日報、參考消息三大歷時語料庫,以供社會開放使用。
項目的用途
基于這個語料庫,能夠做什么呢?總結(jié)了下,至少可以從詞語考察、語義計算、熱度計算、文化計算、媒體對比、語法研究等六個方面開展工作。

項目的獲取
對于如何獲取數(shù)據(jù),下表是對數(shù)據(jù)集的介紹,需要使用的可以開放下載使用,因涉及版權(quán)問題,暫只放數(shù)據(jù)來源。

開源項目地址:https://github.com/liuhuanyong/ChineseDiachronicCorpus
開源項目作者:劉煥勇
推薦閱讀:
只有 1000 行代碼的分布式數(shù)據(jù)庫,真的牛逼值得學(xué)習(xí)
開源推薦:如何實現(xiàn)的一個高性能 Redis 服務(wù)器
---特別推薦---
特別推薦:一個新的優(yōu)質(zhì)的專注分享各種瀏覽器插件、黑科技教程、各種你想不到的高效率軟件及工具的公眾號,「黑科技指北」,非常值得大家關(guān)注。
