精品国产黄色电影,99在线播放,免费看一级高潮毛片,做爱视频网站免费看,俺也去网址,国産精品久久久久久久,青草视频在线观看无码,亚洲无码视频一区

Java技術(shù)棧

www.javastack.cn

關(guān)注閱讀更多優(yōu)質(zhì)文章

作者：Richaaaard

來源：https://www.cnblogs.com/richaaaard/

Elasticsearch 是一款功能強(qiáng)大的開源分布式搜索與數(shù)據(jù)分析引擎，目前國內(nèi)諸多互聯(lián)網(wǎng)大廠都在使用，包括攜程、滴滴、今日頭條、餓了么、360 安全、小米、vivo 等。

除了搜索之外，結(jié)合 Kibana、Logstash、Beats，Elastic Stack 還被廣泛運(yùn)用在大數(shù)據(jù)近實(shí)時分析領(lǐng)域，包括日志分析、指標(biāo)監(jiān)控、信息安全等多個領(lǐng)域。

它可以幫助你探索海量結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)，按需創(chuàng)建可視化報表，對監(jiān)控數(shù)據(jù)設(shè)置報警閾值，甚至通過使用機(jī)器學(xué)習(xí)技術(shù)，自動識別異常狀況。

今天，我們先自上而下，后自底向上的介紹ElasticSearch的底層工作原理，并試圖回答以下問題：

為什么我的搜索?*foo-bar*?無法匹配 foo-bar ？
為什么增加更多的文件會壓縮索引（Index）？
為什么 ElasticSearch 占用很多內(nèi)存？

圖解 ElasticSearch

elasticsearch 版本:?elasticsearch-2.2.0。

①云上的集群

如下圖：

②集群里的盒子

云里面的每個白色正方形的盒子代表一個節(jié)點(diǎn)——Node。

③節(jié)點(diǎn)之間

在一個或者多個節(jié)點(diǎn)直接，多個綠色小方塊組合在一起形成一個 ElasticSearch 的索引。

④索引里的小方塊

在一個索引下，分布在多個節(jié)點(diǎn)里的綠色小方塊稱為分片——Shard。

⑤Shard＝Lucene Index

一個 ElasticSearch 的 Shard 本質(zhì)上是一個 Lucene Index。

Lucene 是一個 Full Text 搜索庫（也有很多其他形式的搜索庫），ElasticSearch 是建立在 Lucene 之上的。

接下來的故事要說的大部分內(nèi)容實(shí)際上是 ElasticSearch 如何基于 Lucene 工作的。

圖解 Lucene

Mini 索引：Segment

在 Lucene 里面有很多小的 Segment，我們可以把它們看成 Lucene 內(nèi)部的 mini-index。

Segment 內(nèi)部

Segment 內(nèi)部有著許多數(shù)據(jù)結(jié)構(gòu)，如上圖：

Inverted Index
Stored Fields
Document Values
Cache

最最重要的 Inverted Index

如下圖：

Inverted Index 主要包括兩部分：

一個有序的數(shù)據(jù)字典 Dictionary（包括單詞 Term 和它出現(xiàn)的頻率）。
與單詞 Term 對應(yīng)的 Postings（即存在這個單詞的文件）。

當(dāng)我們搜索的時候，首先將搜索的內(nèi)容分解，然后在字典里找到對應(yīng) Term，從而查找到與搜索相關(guān)的文件內(nèi)容。

①查詢“the fury”

如下圖：

②自動補(bǔ)全（AutoCompletion-Prefix）

如果想要查找以字母“c”開頭的字母，可以簡單的通過二分查找（Binary Search）在 Inverted Index 表中找到例如“choice”、“coming”這樣的詞（Term）。

③昂貴的查找

如果想要查找所有包含“our”字母的單詞，那么系統(tǒng)會掃描整個 Inverted Index，這是非常昂貴的。

在此種情況下，如果想要做優(yōu)化，那么我們面對的問題是如何生成合適的 Term。

④問題的轉(zhuǎn)化

如下圖：

對于以上諸如此類的問題，我們可能會有幾種可行的解決方案：

* suffix→xiffus *，如果我們想以后綴作為搜索條件，可以為 Term 做反向處理。
(60.6384, 6.5017)→ u4u8gyykk，對于 GEO 位置信息，可以將它轉(zhuǎn)換為 GEO Hash。
123→{1-hundreds, 12-tens, 123}，對于簡單的數(shù)字，可以為它生成多重形式的 Term。

⑤解決拼寫錯誤

一個 Python 庫為單詞生成了一個包含錯誤拼寫信息的樹形狀態(tài)機(jī)，解決拼寫錯誤的問題。

⑥Stored Field 字段查找

當(dāng)我們想要查找包含某個特定標(biāo)題內(nèi)容的文件時，Inverted Index 就不能很好的解決這個問題，所以 Lucene 提供了另外一種數(shù)據(jù)結(jié)構(gòu) Stored Fields 來解決這個問題。

本質(zhì)上，Stored Fields 是一個簡單的鍵值對 key-value。默認(rèn)情況下，ElasticSearch 會存儲整個文件的 JSON source。

⑦Document Values 為了排序，聚合

即使這樣，我們發(fā)現(xiàn)以上結(jié)構(gòu)仍然無法解決諸如：排序、聚合、facet，因?yàn)槲覀兛赡軙x取大量不需要的信息。

所以，另一種數(shù)據(jù)結(jié)構(gòu)解決了此種問題：Document Values。這種結(jié)構(gòu)本質(zhì)上就是一個列式的存儲，它高度優(yōu)化了具有相同類型的數(shù)據(jù)的存儲結(jié)構(gòu)。

為了提高效率，ElasticSearch 可以將索引下某一個 Document Value 全部讀取到內(nèi)存中進(jìn)行操作，這大大提升訪問速度，但是也同時會消耗掉大量的內(nèi)存空間。

總之，這些數(shù)據(jù)結(jié)構(gòu) Inverted Index、Stored Fields、Document Values 及其緩存，都在 segment 內(nèi)部。

搜索發(fā)生時

搜索時，Lucene 會搜索所有的 Segment 然后將每個 Segment 的搜索結(jié)果返回，最后合并呈現(xiàn)給客戶。

Lucene 的一些特性使得這個過程非常重要：

Segments 是不可變的（immutable）：Delete？當(dāng)刪除發(fā)生時，Lucene 做的只是將其標(biāo)志位置為刪除，但是文件還是會在它原來的地方，不會發(fā)生改變。
Update？所以對于更新來說，本質(zhì)上它做的工作是：先刪除，然后重新索引（Re-index）。
隨處可見的壓縮：Lucene 非常擅長壓縮數(shù)據(jù)，基本上所有教科書上的壓縮方式，都能在 Lucene 中找到。
緩存所有的所有：Lucene 也會將所有的信息做緩存，這大大提高了它的查詢效率。

緩存的故事