青娱乐成人论坛,91麻豆成人电影,污网站亚洲第一,a网站在线观看,四虎影院在线无码,一区二区欧美精品,2019年天天夜夜,精品久久人人爽天天玩人人妻

1、概述

不管程序性能有多高，機器處理能力有多強，都會有其極限。能夠快速方便的橫向與縱向擴展是Nut設計最重要的原則，以此原則形成以分布式并行計算為核心的架構(gòu)設計。以分布式并行計算為核心的架構(gòu)設計是Nut區(qū)別于Solr、Katta的地方。

Nut是一個Lucene+Hadoop分布式并行計算搜索框架，能對千G以上索引提供7*24小時搜索服務。在服務器資源足夠的情況下能達到每秒處理100萬次的搜索請求。 Nut開發(fā)環(huán) 境：jdk1.6.0.23+lucene3.0.3+eclipse3.6.1+hadoop0.20.2+zookeeper3.3.2+hbase0.20.6+memcached+mongodb+linux

2、特新

a、熱插拔 b、可擴展 c、高負載 d、易使用,與現(xiàn)有項目無縫集成

e、支持排序 f、7*24服務 g、失敗轉(zhuǎn)移

3、搜索流程 Nut由Index、Search、Client、Cache和DB五部分構(gòu)成。(Cache實現(xiàn)了對memcached的支持,DB實現(xiàn)了對 hbase,mongodb的支持) Client處理用戶請求和對搜索結(jié)果排序。Search對請求進行搜索，Search上只放索引，數(shù)據(jù)存儲在DB中，Nut將索引和存儲分離。 Cache緩存的是搜索條件和結(jié)果文檔id。DB存儲著數(shù)據(jù)，Client根據(jù)搜索排序結(jié)果,取出當前頁中的文檔id從DB上讀取數(shù)據(jù)。

用戶發(fā)起搜索請求給由Nut Client構(gòu)成的集群，由某個Nut Client根據(jù)搜索條件查詢Cache服務器是否有該緩存，如果有緩存根據(jù)緩存的文檔id直接從DB讀取數(shù)據(jù)，如果沒有緩存將隨機選擇一組搜索服務器組 (Search Group i),將查詢條件同時發(fā)給該組搜索服務器組里的n臺搜索服務器，搜索服務器將搜索結(jié)果返回給Nut Client由其排序，取出當前頁文檔id，將搜索條件和當前文檔id緩存，同時從DB讀取數(shù)據(jù)。

4、索引流程 Hadoop Mapper/Reducer 建立索引。再將索引從HDFS分發(fā)到各個索引服務器。對索引的更新分為兩種：刪除和添加（更新分解為刪除和添加）。 a、刪除在HDFS上刪除索引，將生成的.del文件分發(fā)到所有的索引服務器上去或者對HDFS索引目錄刪除索引再分發(fā)到對應的索引服務器上去。 b、添加新添加的數(shù)據(jù)用另一臺服務器來生成。刪除和添加步驟可按不同定時策略來實現(xiàn)。

5、 Nut分布式并行計算特點 Nut分布式并行計算雖然也是基于M/R模型，但是與Hadoop M/R模型是不同的。在Hadoop M/R模型中 Mapper和Reducer是一個完整的流程，Reducer依賴于Mapper。數(shù)據(jù)源通過Mapper分發(fā)本身就會消耗大量的I/O，并且是消耗I /O最大的部分。所以Hadoop M/R 并發(fā)是有限的。 Nut M/R模型是將Mapper和Reducer分離，各自獨立存在。在Nut中索引以及索引管理構(gòu)成M,搜索以及搜索服務器組構(gòu)成 R。以一個分類統(tǒng)計來說明Nut分布式并行計算的流程。假設有10個分類，對任意關鍵詞搜索要求統(tǒng)計出該關鍵詞在這10個分類中的總數(shù)。同時假設有10組搜索服務器。索引以及索引管理進行索引數(shù)據(jù)的Mapper，這塊是后臺獨自運行管理的。Nut Client將這10個分類統(tǒng)計分發(fā)到10組搜索服務器上，每組搜索服務器對其中一個分類進行Reducer，并且每組搜索服務器可進行多級 Reducer。最后將最終結(jié)果返回給Nut Client。

6、設計圖

7、Zookeeper服務器狀態(tài)管理策略

在架構(gòu)設計上通過使用多組搜索服務器可以支持每秒處理100萬個搜索請求。每組搜索服務器能處理的搜索請求數(shù)在1萬—1萬5千之間。如果使用100組搜索服務器，理論上每秒可處理100萬個搜索請求。

假如每組搜索服務器有100份索引放在100臺正在運行中搜索服務器(run)上，那么將索引按照如下的方式放在備用中搜索服務器(bak)上：index 1,index 2,index 3,index 4,index 5,index 6,index 7,index 8,index 9,index 10放在B 1 上，index 6,index 7,index 8,index 9,index 10,index 11,index 12,index 13,index 14,index 15放在B 2上。。。。。。index 96,index 97,index 98,index 99,index 100,index 5,index 4,index 3,index 2,index 1放在最后一臺備用搜索服務器上。那么每份索引會存在3臺機器中（1份正在運行中，2份備份中）。盡管這樣設計每份索引會存在3臺機器中，仍然不是絕對安全的。假如運行中的index 1,index 2,index 3同時宕機的話，那么就會有一份索引搜索服務無法正確啟用。這樣設計，作者認為是在安全性和機器資源兩者之間一個比較適合的方案。

備用中的搜索服務器會定時檢查運行中搜索服務器的狀態(tài)。一旦發(fā)現(xiàn)與自己索引對應的服務器宕機就會向lock申請分布式鎖，得到分布式鎖的服務器就將自己加入到運行中搜索服務器組，同時從備用搜索服務器組中刪除自己，并停止運行中搜索服務器檢查服務。

為能夠更快速的得到搜索結(jié)果，設計上將搜索服務器分優(yōu)先等級。通常是將最新的數(shù)據(jù)放在一臺或幾臺內(nèi)存搜索服務器上。通常情況下前幾頁數(shù)據(jù)能在這幾臺搜索服務器里搜索到。如果在這幾臺搜索服務器上沒有數(shù)據(jù)時再向其他舊數(shù)據(jù)搜索服務器上搜索。優(yōu)先搜索等級的邏輯是這樣的：9最大為搜索全部服務器并且9不能作為level標識。當搜索等級level為1，搜索優(yōu)先級為1的服務器，當level為 2時搜索優(yōu)先級為1和2的服務器，依此類推。

nutla分布式并行計算搜索框架