PyQueryPython 的 HTML/XML 解析庫(kù)
PyQuery 讓你使用 jQuery 的風(fēng)格來(lái)遍歷 XML 文檔,它使用了 lxml 來(lái)處理 XML 乃至 HTML 文檔。
你可以直接從字符串、URL或者文件中加載文檔:
>>> from pyquery import PyQuery as pq
>>> from lxml import etree
>>> import urllib
>>> d = pq("<html></html>")
>>> d = pq(etree.fromstring("<html></html>"))
>>> d = pq(url='http://google.com/')
>>> # d = pq(url='http://google.com/', opener=lambda url: urllib.urlopen(url).read())
>>> d = pq(filename=path_to_html_file)
然后使用 $ 進(jìn)行遍歷:
>>> d("#hello")
[<p#hello.hello>]
>>> p = d("#hello")
>>> print(p.html())
Hello world !
>>> p.html("you know <a )
[<p#hello.hello>]
>>> print(p.html())
you know <a >Python</a> rocks
>>> print(p.text())
you know Python rocks評(píng)論
圖片
表情
