動手體驗 Elasticsearch 8.4.x 機器學(xué)習(xí)預(yù)測打車價格
1、序言
傳統(tǒng)關(guān)系型數(shù)據(jù)庫有著很強的ACID特性,也決定了核心應(yīng)用的首選地位,作為NOSQL數(shù)據(jù)庫產(chǎn)品,要想與傳統(tǒng)關(guān)系型數(shù)據(jù)庫直接競爭,本質(zhì)是不太可能,所以必然選擇了另外一條協(xié)作輔助的路線,如Elasticsearch側(cè)重多維度檢索。

圖示:數(shù)據(jù)庫熱度權(quán)威排名,前4位全部是關(guān)系型數(shù)據(jù)庫,Elasticsearch僅僅是第7位。
Elasticsearch 產(chǎn)品版本一直保持著非??斓陌l(fā)布節(jié)奏,平均每月會發(fā)布一次,當(dāng)前即將發(fā)布8.5.x;最早從全文檢索特性開始切入,到現(xiàn)在已經(jīng)成為一個功能特性非常多的數(shù)據(jù)平臺,基于此,我們可以快速的構(gòu)建多種應(yīng)用形態(tài),如Elasticsearch機器學(xué)習(xí)的特性。

圖示:7.0.x~7.17.x 持續(xù)了近3年 ,發(fā)布的密集度非常高;
機器學(xué)習(xí)一直是一個很熱門的話題領(lǐng)域,早先各種人工智能、深度學(xué)習(xí)的熱詞滿天飛,從業(yè)人員也非常多,技術(shù)框架產(chǎn)品也非常多,但是快速落地一個機器學(xué)習(xí)類的應(yīng)用并不容易,常規(guī)下來,需要算法工程師、應(yīng)用工程師、數(shù)據(jù)工程師、前端工程師等配合才能完成, 這對于企業(yè)的時間與成本是一個非常大的考驗,對于小型企業(yè)更像是一道高高的墻,阻擋了新技術(shù)新形態(tài)的引入。
Elasticsearch 自5.x版本開始融入機器學(xué)習(xí)特性,到目前為止已經(jīng)融合了分類、回歸、聚類、NLP等機器學(xué)習(xí)能力,基于自身的數(shù)據(jù)平臺整合能力,應(yīng)用者可以很快的完成一個機器學(xué)習(xí)應(yīng)用案例,并提供對外的Restful api;對于應(yīng)用工程師,機器學(xué)習(xí)不再神秘,對于算法工程師,機器學(xué)習(xí)不再擔(dān)憂工程落地問題。
2、ES機器學(xué)習(xí)幾步走
基于Elasticsearch 機器學(xué)習(xí)的Restful Api,加上Kibana的可視化操作性,僅僅需要幾步就可以完成一個機器學(xué)習(xí)案例應(yīng)用。
2.1 準(zhǔn)備案例索引數(shù)據(jù)
可以基于Logstash,快速的導(dǎo)入案例數(shù)據(jù),從數(shù)據(jù)庫或者離線文件皆可。
導(dǎo)入數(shù)據(jù)

圖示:導(dǎo)入nyc-tripdata 出租車數(shù)據(jù)
樣本數(shù)據(jù)
{
"VendorID": 2,
"lpep_pickup_datetime": 1230774807000,
"lpep_dropoff_datetime": 1230776097000,
"store_and_fwd_flag": "N",
"RatecodeID": 1,
"PULocationID": 130,
"DOLocationID": 203,
"passenger_count": 1,
"trip_distance": 7.25,
"fare_amount": 23,
"extra": 1,
"mta_tax": 0.5,
"tip_amount": 0,
"tolls_amount": 0,
"improvement_surcharge": 0.3,
"total_amount": 24.8,
"payment_type": 2,
"trip_type": 1,
"congestion_surcharge": 0,
"pickup_year": 2008
}
2.2 創(chuàng)建機器學(xué)習(xí)模型
基于kibana可視化能力操作 選擇需要的案例索引數(shù)據(jù)。 選擇機器學(xué)習(xí)模型,選擇相關(guān)的數(shù)據(jù)向量。 訓(xùn)練模型
選擇機器學(xué)習(xí)模型

圖示:選擇機器學(xué)習(xí)模型
選擇數(shù)據(jù)列

圖示:選擇機器學(xué)習(xí)模型
2.3 應(yīng)用機器學(xué)習(xí)模型
基于Elasticsearch Ingest管道處理能力,創(chuàng)建對應(yīng)的Restful api,供外部應(yīng)用系統(tǒng)集成。
創(chuàng)建應(yīng)用Api
創(chuàng)建ingest 管道數(shù)據(jù)處理接口

使用應(yīng)用Api
外部應(yīng)用基于restful 實時調(diào)用模型

3、課程直播
以上內(nèi)容簡單的介紹了Elasticsearch機器學(xué)習(xí)的特性與快速應(yīng)用的步驟,實際Elasticsearch數(shù)據(jù)平臺的帶來的便利性遠(yuǎn)不止于此;為此,我們準(zhǔn)備了一次免費的實戰(zhàn)直播課,您將獲得對于ES更多的認(rèn)知:
Elasticsearch 機器學(xué)習(xí)平臺與傳統(tǒng)機器學(xué)習(xí)有哪些不一樣,為什么選擇ES? Elastic stack 技術(shù)棧有哪些?如何掌握與組合應(yīng)用? Elastic Stack 有哪些應(yīng)用場景?除了機器學(xué)習(xí),還可以做些什么? Elastic Stack最佳的實戰(zhàn)組合應(yīng)該是怎么樣的?對于ES的認(rèn)識還是停留在全文檢索階段是否正確?
參考文獻(xiàn)
[1] ES機器學(xué)習(xí)回歸函數(shù)參考
https://www.elastic.co/guide/en/machine-learning/current/ml-dfa-regression.html
[2] Spark 機器學(xué)習(xí)參考
https://spark.apache.org/docs/latest/ml-guide.html
[3] scikit-learn 機器學(xué)習(xí)庫參考 https://scikit-learn.org/stable/
關(guān)于我們
講師
李猛 Elastic King 數(shù)據(jù)領(lǐng)域?qū)<?/span>
Elastic Stack 國內(nèi)頂尖實戰(zhàn)專家 ELastic Stack 技術(shù)社區(qū)分享嘉賓 國內(nèi)首批Elastic 官方認(rèn)證工程師21人之一 阿里云MVP(大數(shù)據(jù)領(lǐng)域) DBAPlus MVP(原創(chuàng)內(nèi)容貢獻(xiàn)者) GitHub:https://github.com/ynuosoft 咕泡教育 《Elastic Stack 架構(gòu)師P6成長路徑》主講老師。 2012年接觸Elasticsearch,對Elastic Stack 技術(shù)棧開發(fā)、架構(gòu)、運維、源碼、算法等方面都有深入實戰(zhàn)。 負(fù)責(zé)過多種 Elastic Stack 實戰(zhàn)應(yīng)用項目,大數(shù)據(jù)分析領(lǐng)域、機器學(xué)習(xí)預(yù)測領(lǐng)域、業(yè)務(wù)查詢加速領(lǐng)域、日志平臺分析領(lǐng)域、基礎(chǔ)指標(biāo)監(jiān)控領(lǐng)域、全文分詞檢索領(lǐng)域等。 服務(wù)過多家企業(yè)、提供Elastic Stack 咨詢培訓(xùn)以及調(diào)優(yōu)實施。 多次在 Elastic Stack 技術(shù)社區(qū)分享,發(fā)表過多篇實戰(zhàn)干貨案例文章。 十五年IT技術(shù)實戰(zhàn)從業(yè)經(jīng)驗,涉獵行業(yè)眾多、電商、物流、傳統(tǒng)企業(yè)等,擅長大數(shù)據(jù)、系統(tǒng)架構(gòu)等領(lǐng)域。
