<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          如此“爬蟲”?代碼全省了

          共 1737字,需瀏覽 4分鐘

           ·

          2024-04-27 10:40

          大家好,我是章北海

          Jina AI 開源了 RAG 數(shù)據(jù)處理中的關(guān)鍵組件:“網(wǎng)頁數(shù)據(jù)爬取” ——Reader,目前 3300+ Star??

          項目地址:https://github.com/jina-ai/reader

          Jina AI Reader 特征:

          1. 免費(fèi)使用
          2. 開源
          3. 延遲大概 2S 內(nèi),復(fù)雜的內(nèi)容可能需要更多時間
          4. 提供 stream 模式,方便緩解復(fù)雜內(nèi)容等待
          5. 不支持多語
          6. 能夠處理 PDF 如 arXiv,但是不是一個通用的 PDF 抽取器
          7. 未來會支持處理圖片或視頻總結(jié)
          8. 支持在線網(wǎng)頁
          9. 5 分鐘之內(nèi)上傳的內(nèi)容會緩存

          說它是爬取其實有點“過”了,因為這個工具主要服務(wù)于將任何 url 轉(zhuǎn)化為 LLM 友好的格式(比如 markdown),然后可以再針對這些內(nèi)容集成不同的模型。

          用法很簡單:在 https://r.jina.ai 中填入任何 Url 即可獲取到 LLM 友好的 Parsed Content( Markdown) 比如我公眾號這篇文章

          網(wǎng)址復(fù)制進(jìn)去:https://r.jina.ai/https://mp.weixin.qq.com/s/z0H_5eEF3hGSIayYLEMO1A

          它可以免費(fèi)使用,提供 Stream 模式可流式讀內(nèi)容(簡單內(nèi)容2s內(nèi)可獲?。?/p>

          curl -H "Accept: text/event-stream" https://r.jina.ai/https://en.m.wikipedia.org/wiki/Main_Page

          也可以訪問 https://jina.ai/reader/,嘗試在線 Demo。

          填入鏈接,點擊 FETCH CONTENT 即可獲取到內(nèi)容,甚至提供了基于獲取的內(nèi)容直接提問,結(jié)合 Jina AI 的 Embedding 召回 + LLM 組合輸出。

          如你所見,arxiv的論文也能獲取到

          Jina AI Reader 原理是通過 puppeteer 抓取網(wǎng)頁內(nèi)容,然后解析再保存成 markdown,這樣的方法對于抓取靜態(tài)的網(wǎng)頁內(nèi)容還可以,如果抓取更復(fù)雜的頁面就無能為力,還是需要更專業(yè)的爬蟲解析工具。

          其實抓取url,將正文轉(zhuǎn)換為良好的markdown格式的工具還有很多,比如:

          • https://markdowndown.vercel.app

          • web-scraper(open source): https://github.com/zzzgydi/webscraper

          • code-html-to-markdown: https://github.com/siviltaram/code-html-to-markdown (偏向于更好地處理代碼塊)

          可能是全網(wǎng)最全的速查表:Python Numpy Pandas Matplotlib 機(jī)器學(xué)習(xí) ChatGPT等

          ChatGPT 系列研究報告(50個PDF),建了一個資料分享微信群
          搭建完美的技術(shù)寫作環(huán)境,第1-8章
          數(shù)據(jù)分析入門:統(tǒng)計學(xué)基礎(chǔ)知識總結(jié)
          ChatGPT、大模型、AI資料分享群

          瀏覽 121
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  狠狠狠狠狠狠狠狠操 | 欧美黄视频在线观看 | 成人伊人AV | 免费观看日本一级A片 | 天天射天天爽天天爱 |