終于有人把搜索引擎講明白了
導(dǎo)讀:我們現(xiàn)在正處在一個(gè)信息過載的時(shí)代。
全世界每年產(chǎn)生1EB到2EB (1EB≈1018B)信息,相當(dāng)于地球上每個(gè)人每年大概產(chǎn)生250MB信息。其中,紙質(zhì)信息僅占所有信息的0.03%。靜態(tài)網(wǎng)頁有上百億,動(dòng)態(tài)及隱藏網(wǎng)頁至少是靜態(tài)網(wǎng)頁的500倍。Tom Landauer認(rèn)為人的大腦只能存儲(chǔ)約200MB信息,一生只能接觸約6GB信息。
近些年,大數(shù)據(jù)技術(shù)的出現(xiàn)及發(fā)展、深度學(xué)習(xí)以及神經(jīng)網(wǎng)絡(luò)計(jì)算能力的提高,加速提高了我們對(duì)信息的處理能力,但是并沒有緩解信息過載給我們?cè)斐傻挠绊憽?/span>搜索引擎成為我們獲取信息的主要手段之一。

-
搜索器的功能是在互聯(lián)網(wǎng)中漫游,負(fù)責(zé)發(fā)現(xiàn)和搜集信息。 -
索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項(xiàng),輸出用于表示文檔以及生成文檔庫的索引表。 -
檢索器的功能是根據(jù)用戶的查詢?cè)谒饕龓熘锌焖贆z出文檔,并進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。 -
用戶接口的功能是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制。
-
系統(tǒng)角度。從系統(tǒng)角度來看,搜索系統(tǒng)是一個(gè)更廣泛的概念,包括搜索引擎。具有相關(guān)性計(jì)算和分析的系統(tǒng)都可以歸為搜索系統(tǒng)。除了我們常說的搜索引擎外,搜索系統(tǒng)還應(yīng)該包括外部支持的業(yè)務(wù)場(chǎng)景和應(yīng)用領(lǐng)域等特征。 -
用戶角度。從用戶角度來看,搜索系統(tǒng)的輸出是對(duì)用戶需求的投射,因此我們?cè)谠O(shè)計(jì)搜索系統(tǒng)時(shí)需要觀察用戶對(duì)檢索結(jié)果的反應(yīng),除此之外,還得考慮相應(yīng)的應(yīng)用場(chǎng)景以及搜索工程。

-
順序掃描,顧名思義,按照順序查詢特定的關(guān)鍵字,這種方式耗時(shí)且低效; -
全文檢索需要提取關(guān)鍵字并建立索引,因此,搜索到的信息過于龐雜,用戶需要逐一瀏覽并甄別所需信息。在用戶沒有明確檢索意圖情況下,全文檢索方式效率稍顯不足。Google和百度都是典型的全文搜索引擎。
-
用戶通過網(wǎng)絡(luò)訪問元搜索引擎并向服務(wù)器發(fā)出查詢,服務(wù)器接收到查詢內(nèi)容后,先訪問結(jié)果數(shù)據(jù)庫,查詢近期記錄中是否存在相同的查詢,如果存在,返回結(jié)果; -
如果沒有,將查詢進(jìn)行處理后分發(fā)到多個(gè)獨(dú)立搜索引擎,并集中各搜索引擎的查詢結(jié)果,結(jié)合排序方式對(duì)結(jié)果進(jìn)行排序,生成最終結(jié)果并返給用戶,同時(shí)保存現(xiàn)有結(jié)果到數(shù)據(jù)庫中,以備下次查詢使用。 -
保存的查詢結(jié)果有一定的生存期,超過一定時(shí)間的記錄就會(huì)被刪除,以保證查詢結(jié)果的時(shí)效性。
評(píng)論
圖片
表情
