NokogiriRuby 的 HTML/XML 解析庫(kù)
Aaron Patterson和Mike Dalessio開發(fā)了一個(gè)新的Ruby解析HTML/XML的ruby庫(kù) - Nokogiri。他的速度比目前應(yīng)用的最廣泛的Hpricot還要快許多。經(jīng)過Benchmark測(cè)試表明,Nokogiri在加載XML文檔的速度是Hpricot的7倍,在XPATH搜索的速度是Hpricot的5倍,而在CSS選擇器的搜索上面是Hpricot的1.62倍。
因此Nokogiri被認(rèn)為有可能取代Hpricot的新一代Ruby的解析庫(kù),他能夠解析HTML/XML文件,能夠提供XPATH支持,CSS選擇器支持。安裝Nokogiri的辦法很簡(jiǎn)單: gem install nokogiri
示例代碼:
require 'nokogiri'
html = '...'
doc = Nokogiri::HTML(html)
# 獲取頁(yè)面上所有的鏈接
doc.css('a').each do |link|
puts "#{link.content}, #{link['href']}"
end
# 打出 meta-keywords
puts doc.css('meta[name="keywords"'])[0].content評(píng)論
圖片
表情
