<kbd id="afajh"><form id="afajh"></form></kbd><strong id="afajh"><dl id="afajh"></dl></strong>

<b id="afajh"><abbr id="afajh"></abbr></b>

jparser網(wǎng)頁(yè)轉(zhuǎn)碼 python 庫(kù)

聯(lián)合創(chuàng)作 · 2023-09-21 23:20

jparser是一個(gè)python庫(kù)，用于網(wǎng)頁(yè)轉(zhuǎn)碼，也就是從html源碼中抽取正文的結(jié)構(gòu)化數(shù)據(jù)：文本段落和圖片。目前主要針對(duì)新聞資訊類頁(yè)面進(jìn)行了優(yōu)化。

用法：

import urllib2
from jparser import PageModel
html = urllib2.urlopen("http://news.sohu.com/20170512/n492734045.shtml").read().decode('gb18030')
pm = PageModel(html)
result = pm.extract()

print "==title=="
print result['title']
print "==content=="
for x in result['content']:
    if x['type'] == 'text':
        print x['data']
    if x['type'] == 'image':
        print "[IMAGE]", x['data']['src']

示例：

http://jparser.duapp.com/

依賴：lxml

點(diǎn)贊

評(píng)論

編輯分享

舉報(bào)

評(píng)論

圖片

表情

jparser網(wǎng)頁(yè)轉(zhuǎn)碼 python 庫(kù)

jparser是一個(gè)python庫(kù)，用于網(wǎng)頁(yè)轉(zhuǎn)碼，也就是從html源碼中抽取正文的結(jié)構(gòu)化數(shù)據(jù)：文本段落和圖片。目前主要針對(duì)新聞資訊類頁(yè)面進(jìn)行了優(yōu)化。用法：import?urllib2from?jpar

EasyAACEncoderAAC 轉(zhuǎn)碼工具庫(kù)

EasyAACEncoder 是一個(gè)簡(jiǎn)單、高效、穩(wěn)定的開源音頻編碼庫(kù)，支持將各種音頻數(shù)據(jù)(G.711

EasyAACEncoderAAC 轉(zhuǎn)碼工具庫(kù)

EasyAACEncoder是一個(gè)簡(jiǎn)單、高效、穩(wěn)定的開源音頻編碼庫(kù)，支持將各種音頻數(shù)據(jù)(G.711A/PCMA、G.711U/PCMU、G726、PCM)轉(zhuǎn)碼成AAC(withadts)格式，其中aa

IMGKit將網(wǎng)頁(yè)轉(zhuǎn)換成圖片的 Python 庫(kù)

IMGKit 是一個(gè) Python 2/3 的庫(kù)，使用它我們可以將網(wǎng)頁(yè)轉(zhuǎn)換成圖片，輸入可以是網(wǎng)址，H

IMGKit將網(wǎng)頁(yè)轉(zhuǎn)換成圖片的 Python 庫(kù)

IMGKit是一個(gè)Python2/3的庫(kù)，使用它我們可以將網(wǎng)頁(yè)轉(zhuǎn)換成圖片，輸入可以是網(wǎng)址，HTML文件或者字符串。安裝安裝python-pdfkit：$?pip?install?pdfkit安裝wkh

MochaUI網(wǎng)頁(yè)UI庫(kù)

MochaUI是一個(gè)用來(lái)開發(fā)網(wǎng)頁(yè)上的界面庫(kù)，基于Mootools框架。演示地址：http://mochaui.com/demo/

ChaosCodebox網(wǎng)頁(yè)高亮庫(kù)

什么是ChaosCodebox?ChaosCodebox是一個(gè)網(wǎng)頁(yè)的代碼高亮庫(kù)。它是使用google-code-prettify作為高亮引擎的。ChaosCodebox是一個(gè)ChaosBlog的一個(gè)子

MochaUI網(wǎng)頁(yè)UI庫(kù)

MochaUI 是一個(gè)用來(lái)開發(fā)網(wǎng)頁(yè)上的界面庫(kù)，基于 Mootools 框架。演示地址：http://

ChaosCodebox網(wǎng)頁(yè)高亮庫(kù)

什么是ChaosCodebox?ChaosCodebox是一個(gè)網(wǎng)頁(yè)的代碼高亮庫(kù)。它是使用google

Satori網(wǎng)頁(yè)轉(zhuǎn) SVG 庫(kù)

Satori是由Vercel團(tuán)隊(duì)開源的使用HTML和CSS代碼生成SVG圖像的庫(kù)，能夠?qū)TML和CSS轉(zhuǎn)換為SVG、PNG、PDF的在線工具，可以用來(lái)生成OpenGraph圖片。Satori支持JS

點(diǎn)贊

評(píng)論

編輯分享

舉報(bào)

<kbd id="afajh"><form id="afajh"></form></kbd><strong id="afajh"><dl id="afajh"></dl></strong>

<b id="afajh"><abbr id="afajh"></abbr></b>