色婷婷在线小视频,伊人大香蕉电影院,黄色的一级的操逼的,九九福利视频,国产性爱一区二区,免费看黄网页,91日爽免费在线观看,日本一区二区在线视频

【公眾號回復(fù) “1024”，免費領(lǐng)取程序員賺錢實操經(jīng)驗】

大家好，我是章魚貓。

今天推薦的這個項目是「ChineseDiachronicCorpus」，中文歷時語料庫，橫跨六十余年，包括騰訊歷時新聞 2009 - 2016，人民日報歷時語料 1946 - 2003，參考消息歷時語料 1957 - 2002。

基于歷時流通語料庫，可用于歷時語言變化計算、語言監(jiān)測、社會文化變遷研究提供基礎(chǔ)性的語料支持。

項目的由來

語言是人類重要的交際工具，同時也是社會的鏡子，語言記錄并反映了社會，對語言記錄進(jìn)行挖掘、計算，可以從各個層面對社會進(jìn)行解讀。

例如，基于語料庫進(jìn)行詞語考察，以反映單個詞語在不同時間周期中的使用及變動情況。以語料為載體，挖掘出屬于某個特定時間周期的社會特點，例如年度關(guān)鍵詞、年度人物、年度流行語；對詞語進(jìn)行文化計算，如顏色計算、性別計算、觀點計算等，以考察整個社會對某一事物、看法的演變。

當(dāng)前，開源可用的中文歷時語料庫較少。代表性的有北京語言大學(xué)國家語言資源監(jiān)測與研究平面媒體中心 DCC 動態(tài)流通語料庫，其對國內(nèi)數(shù)十家報紙媒體進(jìn)行監(jiān)測，也有中國傳媒大學(xué)網(wǎng)絡(luò)媒體中心的歷時語料庫可以使用。

隨著網(wǎng)絡(luò)技術(shù)的發(fā)展以及采集技術(shù)的相對成熟，構(gòu)建起歷時語料庫變得越來越容易，這就使得向外界共享歷時語料庫變得更為便利且必要。

本項目，旨在通過公開收集的方式，從網(wǎng)絡(luò)媒體和平面媒體兩個角度出發(fā)，形成騰訊新聞、人民日報、參考消息三大歷時語料庫，以供社會開放使用。

項目的用途

基于這個語料庫，能夠做什么呢？總結(jié)了下，至少可以從詞語考察、語義計算、熱度計算、文化計算、媒體對比、語法研究等六個方面開展工作。

項目的獲取

對于如何獲取數(shù)據(jù)，下表是對數(shù)據(jù)集的介紹，需要使用的可以開放下載使用，因涉及版權(quán)問題，暫只放數(shù)據(jù)來源。

開源項目地址：https://github.com/liuhuanyong/ChineseDiachronicCorpus

開源項目作者：劉煥勇

開源推薦：如何實現(xiàn)的一個高性能 Redis 服務(wù)器

不會制作爆款視頻字幕，用它就對了！

---特別推薦---

特別推薦：一個新的優(yōu)質(zhì)的專注分享各種瀏覽器插件、黑科技教程、各種你想不到的高效率軟件及工具的公眾號，「黑科技指北」，非常值得大家關(guān)注。

這個項目厲害了，橫跨六十余年的中文歷時語料庫

項目的由來

項目的用途

項目的獲取

這個項目厲害了，橫跨六十余年的中文歷時語料庫