<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          jparser網(wǎng)頁(yè)轉(zhuǎn)碼 python 庫(kù)

          聯(lián)合創(chuàng)作 · 2023-09-21 23:20

          jparser是一個(gè)python庫(kù),用于網(wǎng)頁(yè)轉(zhuǎn)碼,也就是從html源碼中抽取正文的結(jié)構(gòu)化數(shù)據(jù):文本段落和圖片。目前主要針對(duì)新聞資訊類頁(yè)面進(jìn)行了優(yōu)化。

          用法:

          import urllib2
          from jparser import PageModel
          html = urllib2.urlopen("http://news.sohu.com/20170512/n492734045.shtml").read().decode('gb18030')
          pm = PageModel(html)
          result = pm.extract()
          
          print "==title=="
          print result['title']
          print "==content=="
          for x in result['content']:
              if x['type'] == 'text':
                  print x['data']
              if x['type'] == 'image':
                  print "[IMAGE]", x['data']['src']

          示例:

          http://jparser.duapp.com/

          依賴:lxml 

          瀏覽 45
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          編輯 分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          編輯 分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  乱仓片一级片 | 在线播放视频一区 | 天天爽夜夜爽人人爽 | 日韩高清A V | 男女操逼视频在线观看 |