<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          PHPCWS中文分詞庫

          聯(lián)合創(chuàng)作 · 2023-09-29 05:36

          PHPCWS 是一款開源的PHP中文分詞擴展,目前僅支持Linux/Unix系統(tǒng),該項目現(xiàn)在已改名為 HTTPCWS,此項目不再繼續(xù)維護

          PHPCWS 先使用“ICTCLAS 3.0 共享版中文分詞算法”的API進行初次分詞處理,再使用自行編寫的“逆向最大匹配算法”對分詞和進行詞語合并處理,并增加標點符號過濾功能,得出分詞結果。

          ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)是中國科學院計算技術研究所在多年研究工作積累的基礎上,基于多層隱馬模型研制出的漢語詞法分析系統(tǒng),主要功能包括中文分詞;詞性標注;命 名實體識別;新詞識別;同時支持用戶詞典。ICTCLAS經過五年精心打造,內核升級6次,目前已經升級到了ICTCLAS3.0,分詞精度 98.45%,各種詞典數(shù)據(jù)壓縮后不到3M。ICTCLAS在國內973專家組組織的評測中活動獲得了第一名,在第一屆國際中文處理研究機構SigHan 組織的評測中都獲得了多項第一名,是當前世界上最好的漢語詞法分析器。

          ICTCLAS 3.0 商業(yè)版是收費的,而免費提供的 ICTCLAS 3.0 共享版不開源,詞庫是根據(jù)人民日報一個月的語料得出的,很多詞語不存在。所以本人對ICTCLAS分詞后的結果,再采用逆向最大匹配算法,根據(jù)自己補充的 一個9萬條詞語的自定義詞庫(與ICTCLAS詞庫中的詞語不重復),對ICTCLAS分詞結果進行合并處理,輸出最終分詞結果。

          由于 ICTCLAS 3.0 共享版只支持GBK編碼,因此,如果是UTF-8編碼的字符串,可以先用PHP的iconv函數(shù)轉換成GBK編碼,再用phpcws_split函數(shù)進行分詞處理,最后轉換回UTF-8編碼。

          瀏覽 13
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          編輯 分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          編輯 分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美激情中文字幕 | 色婷婷久久综合 | 青娱视频亚洲免费 | 激情视频小说 | 亚洲中文无码字幕 |