<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          終于有人把搜索引擎講明白了

          共 7326字,需瀏覽 15分鐘

           ·

          2021-03-21 21:22

          導(dǎo)讀:我們現(xiàn)在正處在一個(gè)信息過載的時(shí)代。


          全世界每年產(chǎn)生1EB到2EB (1EB≈1018B)信息,相當(dāng)于地球上每個(gè)人每年大概產(chǎn)生250MB信息。其中,紙質(zhì)信息僅占所有信息的0.03%。靜態(tài)網(wǎng)頁有上百億,動(dòng)態(tài)及隱藏網(wǎng)頁至少是靜態(tài)網(wǎng)頁的500倍。Tom Landauer認(rèn)為人的大腦只能存儲(chǔ)約200MB信息,一生只能接觸約6GB信息。


          近些年,大數(shù)據(jù)技術(shù)的出現(xiàn)及發(fā)展、深度學(xué)習(xí)以及神經(jīng)網(wǎng)絡(luò)計(jì)算能力的提高,加速提高了我們對(duì)信息的處理能力,但是并沒有緩解信息過載給我們?cè)斐傻挠绊憽?/span>搜索引擎成為我們獲取信息的主要手段之一。


          作者:劉宇 趙宏宇 劉書斌 孫明珠
          來源:大數(shù)據(jù)DT(ID:hzdashuju)




          01 什么是搜索引擎及搜索系統(tǒng)

          信息檢索(Information Retrieval,IR)是從文檔集合中返回滿足用戶需求的相關(guān)信息的過程。它是一門研究信息獲?。ˋcquisition)、表示(Representation)、存儲(chǔ)(Storage)、組織(Organization)和訪問(Access)的學(xué)科。

          檢索來自Retrieval,有些人把它翻譯成獲取,本義是獲得與輸入要求相匹配的輸出。而搜索來自Search,指帶有目的性地尋找。信息檢索不僅僅是指搜索,信息檢索系統(tǒng)(IR System)也不僅僅是搜索引擎。

          從狹義上講,信息檢索就是指信息搜索(Information Search);從廣義上講,信息檢索包含搜索引擎(Search Engine)、問答系統(tǒng)(Question Answering)、信息抽取(Information Extraction)、信息過濾(Information Filtering)、信息推薦(Information Recommending)等。

          搜索引擎是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對(duì)信息進(jìn)行組織和處理后,將用戶檢索到的相關(guān)信息展示給用戶,為用戶提供檢索服務(wù)。

          搜索引擎包括4個(gè)接口,分別是搜索器、索引器、檢索器和用戶接口。

          • 搜索器的功能是在互聯(lián)網(wǎng)中漫游,負(fù)責(zé)發(fā)現(xiàn)和搜集信息。
          • 索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項(xiàng),輸出用于表示文檔以及生成文檔庫的索引表。
          • 檢索器的功能是根據(jù)用戶的查詢?cè)谒饕龓熘锌焖贆z出文檔,并進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。
          • 用戶接口的功能是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制。

          具體的搜索引擎架構(gòu)示意圖如圖2-1所示。

          ▲圖2-1 搜索引擎架構(gòu)示意圖

          搜索系統(tǒng)的概念可以從如下兩方面解釋。

          1. 系統(tǒng)角度。從系統(tǒng)角度來看,搜索系統(tǒng)是一個(gè)更廣泛的概念,包括搜索引擎。具有相關(guān)性計(jì)算和分析的系統(tǒng)都可以歸為搜索系統(tǒng)。除了我們常說的搜索引擎外,搜索系統(tǒng)還應(yīng)該包括外部支持的業(yè)務(wù)場(chǎng)景和應(yīng)用領(lǐng)域等特征。
          2. 用戶角度。從用戶角度來看,搜索系統(tǒng)的輸出是對(duì)用戶需求的投射,因此我們?cè)谠O(shè)計(jì)搜索系統(tǒng)時(shí)需要觀察用戶對(duì)檢索結(jié)果的反應(yīng),除此之外,還得考慮相應(yīng)的應(yīng)用場(chǎng)景以及搜索工程。


          02 搜索引擎的發(fā)展史

          20世紀(jì)90年代,Tim Berners-Lee開啟了互聯(lián)網(wǎng)時(shí)代,并使其獲得大規(guī)模發(fā)展。1990年,Tim Berners-Lee開發(fā)出世界上第一個(gè)Web服務(wù)器和第一個(gè)Web客戶端,被命名為萬維網(wǎng)(World Wide Web,WWW)。

          次年,世界上第一個(gè)WWW網(wǎng)站info.cern.ch成立,伴隨該網(wǎng)站成立的還有HTTP傳輸協(xié)議及相應(yīng)的HTML等Web服務(wù)技術(shù)的誕生。1993年,NCSA發(fā)明了第一個(gè)顯示圖片的瀏覽器Mosaic,隨后客戶端瀏覽器逐漸趨于成熟。這些技術(shù)為互聯(lián)網(wǎng)的快速發(fā)展奠定了基礎(chǔ)。

          互聯(lián)網(wǎng)的快速發(fā)展使得搜索引擎的出現(xiàn)成為必然。1990年,第一個(gè)互聯(lián)網(wǎng)搜索引擎Archie出現(xiàn),主要用于搜索FTP服務(wù)器上的文件。在用戶準(zhǔn)確輸入文件名的前提下,Archie可以準(zhǔn)確地告訴用戶該文件的位置。雖然Archie搜索的內(nèi)容不是網(wǎng)頁,但工作原理與網(wǎng)頁搜索相似:自動(dòng)搜索信息資源、建立索引、提供檢索服務(wù)。

          1995年,Excite搜索引擎正式上線,它是早期流行的搜索引擎之一。Excite的出現(xiàn)可以追溯到1993年2月,起由是6名斯坦福大學(xué)生想通過分析字詞關(guān)系對(duì)互聯(lián)網(wǎng)的大量信息進(jìn)行有效檢索。Excite以概念檢索聞名,是搜索引擎技術(shù)—文本檢索的代表。文本檢索一般包括布爾模型、向量空間模型等,主要用于計(jì)算用戶查詢關(guān)鍵詞和網(wǎng)頁文本內(nèi)容的相似度。

          1995年4月,Yahoo正式成立。其由斯坦福大學(xué)博士楊致遠(yuǎn)和大衛(wèi)·費(fèi)羅創(chuàng)建。隨著訪問量和收錄鏈接數(shù)的增長(zhǎng),Yahoo對(duì)互聯(lián)網(wǎng)上重要站點(diǎn)的目錄進(jìn)行分類整理,迎合了用戶需求,從而得到快速成長(zhǎng)。Yahoo也成為“目錄導(dǎo)航”搜索引擎技術(shù)的代表。該技術(shù)提高了被收錄網(wǎng)站的質(zhì)量,但不便于擴(kuò)展且收錄網(wǎng)站數(shù)量較少。 

          1998年9月,拉里·佩奇和謝爾蓋·布林共同創(chuàng)建Google公司,其以PageRank鏈接分析等新技術(shù)大幅度提高搜索質(zhì)量,成為占有搜索引擎市場(chǎng)份額最大的公司。Google是PageRank鏈接分析技術(shù)的代表,其充分利用網(wǎng)頁之間的鏈接關(guān)系,考慮網(wǎng)頁鏈入的數(shù)量和質(zhì)量,從而計(jì)算網(wǎng)頁的排名,提升搜索質(zhì)量。

          2000年1月,中國最大的搜索引擎公司百度成立,并一舉成為國內(nèi)最大的搜索引擎。目前,百度不再只是某一搜索引擎技術(shù)的使用,其試圖通過用戶查詢、地理位置以及歷史行為(搜索、點(diǎn)擊、瀏覽)去理解用戶此刻真正的需求。

          STATCOUNTER統(tǒng)計(jì)的2019年1月~12月全球搜索引擎市場(chǎng)份額中,Google占比高達(dá)92.63%,微軟的Bing和雅虎分別位居第二和第三,百度排在第四位。

          STATCOUNTER統(tǒng)計(jì)的2019年1月~12月中國國內(nèi)搜索引擎市場(chǎng)份額占比中,百度依靠本地化優(yōu)勢(shì),以67.51%的占比排在第一位,搜狗和神馬排在第二和第三。

          在互聯(lián)網(wǎng)快速發(fā)展的今天,信息正呈爆炸式增長(zhǎng),如何在信息過載的環(huán)境下快速有效地定位到目標(biāo)信息成為關(guān)鍵問題。搜索是解決信息過載較為有效的方式。搜索引擎通過對(duì)互聯(lián)網(wǎng)資源整理和分類,并將其存儲(chǔ)在數(shù)據(jù)庫中為用戶提供查詢服務(wù),包括信息搜集、信息分類、用戶查詢等。

          因此,作為互聯(lián)網(wǎng)網(wǎng)站和應(yīng)用的入口,搜索引擎的地位越來越重要。



          03 搜索引擎的分類

          搜索引擎可以分為以下4類:全文搜索引擎、元搜索引擎、垂直搜索引擎和目錄搜索引擎。下面對(duì)這4類搜索引擎進(jìn)行具體介紹。

          1. 全文搜索引擎

          計(jì)算機(jī)通過掃描文章中的每個(gè)詞,對(duì)每個(gè)詞建立索引,記錄詞匯在文章中出現(xiàn)的次數(shù)和位置信息。當(dāng)用戶進(jìn)行查詢時(shí),計(jì)算機(jī)按照事先建立好的索引進(jìn)行查找,并將結(jié)果反饋給用戶。按照數(shù)據(jù)結(jié)構(gòu)的不同,全文搜索可以分為結(jié)構(gòu)化數(shù)據(jù)搜索和非結(jié)構(gòu)化數(shù)據(jù)搜索。

          對(duì)于結(jié)構(gòu)化數(shù)據(jù),全文搜索一般是通過關(guān)系型數(shù)據(jù)庫的方式進(jìn)行存儲(chǔ)和搜索,也可以建立索引。

          對(duì)于非結(jié)構(gòu)化數(shù)據(jù),全文搜索主要有兩種方法:順序掃描全文檢索

          • 順序掃描,顧名思義,按照順序查詢特定的關(guān)鍵字,這種方式耗時(shí)且低效;
          • 全文檢索需要提取關(guān)鍵字并建立索引,因此,搜索到的信息過于龐雜,用戶需要逐一瀏覽并甄別所需信息。在用戶沒有明確檢索意圖情況下,全文檢索方式效率稍顯不足。Google和百度都是典型的全文搜索引擎。

          2. 元搜索引擎

          按照功能劃分,搜索引擎可以分為元搜索引擎(Meta Search Engine)和獨(dú)立搜索引擎(Independent Search Engine)。

          元搜索引擎是一種調(diào)用其他獨(dú)立搜索引擎的搜索引擎,其能對(duì)多個(gè)獨(dú)立搜索引擎進(jìn)行整合、調(diào)用并優(yōu)化結(jié)果。獨(dú)立搜索引擎主要由網(wǎng)絡(luò)爬蟲、索引、鏈接分析和排序等部分組成;元搜索引擎由請(qǐng)求提交代理、檢索接口代理、結(jié)果顯示代理三部分組成,不需要維護(hù)龐大的索引數(shù)據(jù)庫,也不需要爬取網(wǎng)頁。

          元搜索引擎具體實(shí)現(xiàn)邏輯如圖2-2所示。

          ▲圖2-2 元搜索引擎實(shí)現(xiàn)邏輯

          請(qǐng)求提交代理就是將請(qǐng)求分發(fā)給獨(dú)立搜索引擎。元搜索引擎可以按照用戶需求和偏好請(qǐng)求實(shí)際需要調(diào)用的獨(dú)立搜索引擎,該方式能夠有效提升用戶查詢的準(zhǔn)確率和響應(yīng)效率。

          檢索接口代理是將查詢內(nèi)容轉(zhuǎn)化成獨(dú)立搜索引擎能夠接受的模式,并且保證不會(huì)丟失必需的語義信息。結(jié)果顯示代理是元搜索引擎按照用戶的需求采用不同的排序方式對(duì)結(jié)果進(jìn)行去重、排序。元搜索引擎常用的排序方式有:相關(guān)度排序、時(shí)間排序、搜索引擎排序等。

          元搜索引擎的整體工作流程如下:

          • 用戶通過網(wǎng)絡(luò)訪問元搜索引擎并向服務(wù)器發(fā)出查詢,服務(wù)器接收到查詢內(nèi)容后,先訪問結(jié)果數(shù)據(jù)庫,查詢近期記錄中是否存在相同的查詢,如果存在,返回結(jié)果;
          • 如果沒有,將查詢進(jìn)行處理后分發(fā)到多個(gè)獨(dú)立搜索引擎,并集中各搜索引擎的查詢結(jié)果,結(jié)合排序方式對(duì)結(jié)果進(jìn)行排序,生成最終結(jié)果并返給用戶,同時(shí)保存現(xiàn)有結(jié)果到數(shù)據(jù)庫中,以備下次查詢使用。
          • 保存的查詢結(jié)果有一定的生存期,超過一定時(shí)間的記錄就會(huì)被刪除,以保證查詢結(jié)果的時(shí)效性。

          3. 垂直搜索引擎

          垂直搜索引擎是針對(duì)某個(gè)行業(yè)的專業(yè)搜索引擎,是搜索引擎的細(xì)分和延伸,對(duì)特定人群、特定領(lǐng)域、特殊需求提供服務(wù)。它的特點(diǎn)是專業(yè)、精確和深入。垂直搜索引擎將搜索范圍縮小到極具針對(duì)性的具體信息。

          垂直搜索引擎的結(jié)構(gòu)與通用搜索系統(tǒng)類似,主要由三部分構(gòu)成:爬蟲、索引和搜索。但垂直搜索的表現(xiàn)方式與Google、百度等搜索引擎在定位、內(nèi)容、用戶等方面存在一定的差異,所以它不是簡(jiǎn)單的行業(yè)搜索引擎。

          用戶使用通用搜索引擎時(shí),通常是通過關(guān)鍵字進(jìn)行搜索,該搜索方式一般是語義上的搜索,返回的結(jié)果傾向于文章、新聞等,即相關(guān)知識(shí)。垂直搜索的關(guān)鍵字搜索是放到一個(gè)行業(yè)知識(shí)的上下文中,返回的結(jié)果是消息、條目。對(duì)于有購房需求的人來說,他們希望得到的信息是供求信息而不是關(guān)于房子的文章和新聞。

          4. 目錄搜索引擎

          目錄搜索引擎是網(wǎng)站常用的搜索方式,類似于書本章節(jié)目錄。該搜索方式是對(duì)網(wǎng)站信息整合處理并分目錄呈現(xiàn)給用戶,整合處理的過程一般需要人工維護(hù),更新速度較慢,而且用戶需要事先了解網(wǎng)站的基本內(nèi)容,熟悉主要模塊,所以應(yīng)用場(chǎng)景越來越少。

          關(guān)于作者:劉宇,清華大學(xué)碩士,現(xiàn)就職于一家跨境電商公司,任技術(shù)總監(jiān),主要負(fù)責(zé)該公司搜索推薦業(yè)務(wù)以及廣告的相關(guān)技術(shù)開發(fā)。目前工作的重點(diǎn)是落地算法在搜索系統(tǒng)、推薦系統(tǒng)、對(duì)話系統(tǒng)等具體業(yè)務(wù)場(chǎng)景下的應(yīng)用。對(duì)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、大數(shù)據(jù)應(yīng)用與開發(fā)等頗有研究。合著有《聊天機(jī)器人:入門、進(jìn)階與實(shí)戰(zhàn)》一書。
          趙宏宇,本科畢業(yè)于東北大學(xué);研究生畢業(yè)于RIT,主修AI方向?,F(xiàn)就職于獵聘網(wǎng),主要負(fù)責(zé)獵聘網(wǎng)推薦排序相關(guān)的工作。
          劉書斌,本科畢業(yè)于東北大學(xué),現(xiàn)就職于美團(tuán),資深系統(tǒng)開發(fā)工程師。曾在唯品會(huì)任職,主要負(fù)責(zé)搜索工程的架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)等相關(guān)工作,在Elasticsearch方面有豐富的工程實(shí)踐經(jīng)驗(yàn)。
          孫明珠,碩士畢業(yè)于南京航空航天大學(xué),現(xiàn)就職于獵聘網(wǎng),擔(dān)任高級(jí)算法工程師,負(fù)責(zé)查詢理解、解析、擴(kuò)展等NLP相關(guān)的工作。

          本文摘編自智能搜索和推薦系統(tǒng):原理、算法與應(yīng)用》,經(jīng)出版方授權(quán)發(fā)布。

          延伸閱讀智能搜索和推薦系統(tǒng)
          點(diǎn)擊上圖了解及購買
          轉(zhuǎn)載請(qǐng)聯(lián)系微信:DoctorData

          推薦語:零基礎(chǔ)掌握搜索和推薦系統(tǒng)的原理、架構(gòu)、算法。


          劃重點(diǎn)??



          干貨直達(dá)??


          更多精彩??

          在公眾號(hào)對(duì)話框輸入以下關(guān)鍵詞
          查看更多優(yōu)質(zhì)內(nèi)容!

          PPT | 讀書 | 書單 | 硬核 | 干貨 | 講明白 | 神操作
          大數(shù)據(jù) | 云計(jì)算 | 數(shù)據(jù)庫 | Python | 可視化
          AI | 人工智能 | 機(jī)器學(xué)習(xí) | 深度學(xué)習(xí) | NLP
          5G | 中臺(tái) | 用戶畫像 1024 | 數(shù)學(xué) | 算法 數(shù)字孿生

          據(jù)統(tǒng)計(jì),99%的大咖都關(guān)注了這個(gè)公眾號(hào)
          ??
          瀏覽 27
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲视频免费在线观看 | 亚洲av观看 | 亚洲www啪成人一区二区麻豆 | 四虎影视成人精品一区 | 在线高清无吗一本道 |