<kbd id="afajh"><form id="afajh"></form></kbd><strong id="afajh"><dl id="afajh"></dl></strong>

<del id="afajh"><form id="afajh"></form></del>

<th id="afajh"><progress id="afajh"></progress></th>

<b id="afajh"><abbr id="afajh"></abbr></b>

<th id="afajh"><progress id="afajh"></progress></th>

tagparserPython的HTML文檔解析

聯(lián)合創(chuàng)作 · 2023-09-22 00:01

很多人需要提取網(wǎng)頁的一些內(nèi)容, 可以利用正則表達(dá)式提取,也可以用beautifulsoap等工具. 正則表達(dá)式方法速度快,缺點(diǎn)是不好找到匹配的正則. 其他類似beautiful的工具因?yàn)橐娣治鰄tml,而html不像xml那么嚴(yán)格,語法比較復(fù)雜所以效率很糟糕.這個(gè)工具就是為了處里這種問題的.

這個(gè)工程只有一個(gè)文件 .tagparser.py 它可以方便分析像xml html 等這種標(biāo)記語言. 只要他是'<'和'>'括起來的標(biāo)記語言.

分析的方式是'抽'式的.也就是說掃描一個(gè)個(gè)字符當(dāng)遇到一個(gè)tag時(shí) 也就是遇到一個(gè)<>的時(shí)候,回調(diào)一個(gè)函數(shù)onGetTag() ,可以重載這個(gè)函數(shù)做自己的處理.

如遇到
回調(diào) onGetTag(tagstr, tagstro). tagstr = p tagstro = P tagstr 是小寫的tag tagstro是源文件的大小寫狀態(tài)

遇到內(nèi)容回調(diào) onGetTxt(txtstr) , txtstr是如:<tag>xxxxxxxxx</tag> xxxxx即內(nèi)容

使用例子,提取網(wǎng)易新聞頁的主要內(nèi)容,新聞標(biāo)題,內(nèi)容主體: 例如:

p = TagParser()
p.fetchUrl('http://news.163.com/09/0117/04/4VR79MP60001124J.html')
p.printResult()

輸出一個(gè)網(wǎng)頁的新聞.

瀏覽 17

點(diǎn)贊

收藏

分享

舉報(bào)

評論

圖片

表情

tagparserPython的HTML文檔解析

很多人需要提取網(wǎng)頁的一些內(nèi)容,可以利用正則表達(dá)式提取,也可以用beautifulsoap等工具.正則表達(dá)式方法速度快,缺點(diǎn)是不好找到匹配的正則.其他類似beautiful的工具因?yàn)橐娣治鰄tml,

wiseparserPHP的HTML解析

wiseparser 是一個(gè) PHP 語言用來解析 HTML 文檔的開發(fā)包。示例代碼：require

htmlspriteFlash的HTML解析

htmlsprite是一個(gè)Flash用來解析HTML文檔的開發(fā)包。示例代碼：importcom.redurban.HTMLSpritevarhtmlsprite:HTMLSprite=newHTMLS

htmlspriteFlash的HTML解析

htmlsprite 是一個(gè) Flash 用來解析 HTML 文檔的開發(fā)包。示例代碼：import

afterworkC#的HTML解析

afterwork是一個(gè)C#語言用來解析HTML文檔的開發(fā)包。

wiseparserPHP的HTML解析

wiseparser是一個(gè)PHP語言用來解析HTML文檔的開發(fā)包。示例代碼：require_once('treebuilder.php');$mytree=newTree();<br>$m

mechanizePython的HTML解析

當(dāng)您希望與 Web 頁面中找到的內(nèi)容進(jìn)行某種比較復(fù)雜的交互時(shí)，您需要使用 mechanize 庫示例

mechanizePython的HTML解析

當(dāng)您希望與Web頁面中找到的內(nèi)容進(jìn)行某種比較復(fù)雜的交互時(shí)，您需要使用mechanize庫示例代碼：importrefrommechanizeimportBrowserbr=Browser()br.op

jScraperJava的HTML解析包

jScraper提供了簡單的接口用來解析HTML文本，它將HTML文本轉(zhuǎn)成Java的對象。查看jScraper的JavaDoc文檔：http://sharkysoft.com/software/jav

jScraperJava的HTML解析包

jScraper 提供了簡單的接口用來解析HTML文本，它將HTML文本轉(zhuǎn)成Java的對象。查看 j

點(diǎn)贊

收藏

分享

舉報(bào)

<kbd id="afajh"><form id="afajh"></form></kbd><strong id="afajh"><dl id="afajh"></dl></strong>

<del id="afajh"><form id="afajh"></form></del>

<th id="afajh"><progress id="afajh"></progress></th>

<b id="afajh"><abbr id="afajh"></abbr></b>

<th id="afajh"><progress id="afajh"></progress></th>

青娱乐精品视频分类免费 | 肏网| 一级片亚洲 | 人成在线视频 | 国产高清无码内射 |