CC-CEDICT中文詞典開源項目
CC-CEDICT 是一個中文詞典開源項目,提供一份以漢語拼音為中文輔助的漢英辭典,截至2009年2月8日,已收錄82712個單詞。其詞典可以用于中文分詞使用,而且不存在版權(quán)問題。Chrome中文版就是使用的這個詞典進行中文分詞的。
CEDICT本身提供純文字檔,并由其他程式對其進行搜尋與顯示單詞。該計劃成果為其他漢英計劃作為一份參考來源而使用:Unihan數(shù)據(jù)庫的中文復(fù)合字資訊大部分來自CEDICT,但僅作為參考之用,且特別聲明其并非Unicode主數(shù)據(jù)庫的一部分。Unihan的單字定義和發(fā)音不使用CEDICT。
CEDICT的基本格式如下:
Traditional Simplified [pin1 yin1] /American English equivalent 1/equivalent 2/ 中國 中國 [Zhong1 guo2] /China/Middle Kingdom/
CEDICT目前主要以UTF-8編碼,亦提供GB2312與Big5的相容版,兩版各省略了繁體字與簡體字。 特色:
繁體與簡體中文并蓄
提供漢語拼音
美式英語釋義
評論
圖片
表情
