<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          cx-extractor通用網(wǎng)頁(yè)正文抽取

          聯(lián)合創(chuàng)作 · 2023-09-21 23:46

          基于行塊分布函數(shù)的通用網(wǎng)頁(yè)正文抽?。壕€性時(shí)間、不建DOM樹(shù)、與HTML標(biāo)簽無(wú)關(guān)

          對(duì)于Web信息檢索來(lái)說(shuō),網(wǎng)頁(yè)正文抽取是后續(xù)處理的關(guān)鍵。

          雖然使用正則表達(dá)式可以準(zhǔn)確的抽取某一固定格式的頁(yè)面,但面對(duì)形形色色的HTML,使用規(guī)則處理難免捉襟見(jiàn)肘。能不能高效、準(zhǔn)確的將一個(gè)頁(yè)面的正文抽取出來(lái),并做到在大規(guī)模網(wǎng)頁(yè)范圍內(nèi)通用,這是一個(gè)直接關(guān)系上層應(yīng)用的難題。

          作者提出了《基于行塊分布函數(shù)的通用網(wǎng)頁(yè)正文抽取算法》,首次將網(wǎng)頁(yè)正文抽取問(wèn)題轉(zhuǎn)化為求頁(yè)面的行塊分布函數(shù),這種方法不用建立Dom樹(shù),不被病態(tài)HTML所累(事實(shí)上與HTML標(biāo)簽完全無(wú)關(guān))。通過(guò)在線性時(shí)間內(nèi)建立的行塊分布函數(shù)圖,直接準(zhǔn)確定位網(wǎng)頁(yè)正文。同時(shí)采用了統(tǒng)計(jì)與規(guī)則相結(jié)合的方法來(lái)處理通用性問(wèn)題。作者相信簡(jiǎn)單的事情總應(yīng)該用最簡(jiǎn)單的辦法來(lái)解決這一亙古不變的道理。整個(gè)算法實(shí)現(xiàn)代碼不足百行。但量不在多,在法。

          建議使用svn checkout http://cx-extractor.googlecode.com/svn/trunk/,svn的好處是更新及時(shí),zip包作者不能保證每次修改完后都及時(shí)上傳 :)


          There are undoubtedly serious bugs lurking somewhere in code this funky. So feel free to contact us if you meet any problem.
          Bug reports and other feedback are most welcome :-)

          Version Author Email Institute
          Perl 陳鑫 [email protected] 哈工大信息檢索研究中心
          Java 王利鋒、羅磊 {lfwang,lluo}@ir.hit.edu.cn 哈工大信息檢索研究中心
          C++ 朱亮 [email protected] 中科院計(jì)算所高級(jí)網(wǎng)絡(luò)重點(diǎn)實(shí)驗(yàn)室
          PHP 軒文烽 [email protected] 哈工大智能技術(shù)與自然語(yǔ)言處理研究室
          C# 張帆 [email protected] 中科院信息科學(xué)與工程學(xué)院

           


          如果您正在關(guān)注或使用cx-extractor,同時(shí)希望在第一時(shí)間得到該項(xiàng)目的更新信息,
          您可以加入該項(xiàng)目的郵件列表 http://list.qq.com/cgi-bin/qf_invite?id=2a19dc7f75fcba75ee9962adfcf5013e3154e3b92ef767a3

          本軟件的使用許可協(xié)議:署名-非商業(yè)性使用-相同方式共享 (by-nc-sa),新浪微博http://weibo.com/cx3180

          瀏覽 11
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          編輯 分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          編輯 分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  精品久久久久久18禁免费网站 | 欧美日本在线观看 | 天天干天天日麻豆 | 91成人三级 | 日本爱爱激情网 |