GNE-JS新聞網頁正文通用抽取器
GNE-JS 是基于論文《基于文本及符號密度的網頁正文提取方法》實現(xiàn)的新聞網頁正文通用抽取器。
在論文中描述的正文提取基礎上,還增加了標題、發(fā)布時間和文章作者的自動化探測與提取功能。
該項目啟發(fā)自 GNE,由 Python 遷移到 Node.js,并做了一些改動,提高提取準確度。
demo:
評論
圖片
表情
下載APPGNE-JS 是基于論文《基于文本及符號密度的網頁正文提取方法》實現(xiàn)的新聞網頁正文通用抽取器。
在論文中描述的正文提取基礎上,還增加了標題、發(fā)布時間和文章作者的自動化探測與提取功能。
該項目啟發(fā)自 GNE,由 Python 遷移到 Node.js,并做了一些改動,提高提取準確度。
demo: