Apache Pig大規(guī)模數(shù)據(jù)分析平臺
Apache Pig是一個分析大型數(shù)據(jù)集的平臺,它由表達數(shù)據(jù)分析程序的高級語言和評估這些程序的基礎設施組成。Pig程序的突出特性是其結構可以進行大量的并行化,進而使其能夠處理非常大的數(shù)據(jù)集。
目前,Pig的基礎設施層由一個編譯器組成,它可以產(chǎn)生Map-Reduce程序序列,對于這些程序,已經(jīng)存在大規(guī)模的并行實現(xiàn)(例如Hadoop子項目)。Pig的語言層目前由一種名為Pig Latin的文本語言組成,它具有以下主要屬性:
- 易于編程。實現(xiàn)簡單的、"令人尷尬的并行 "數(shù)據(jù)分析任務的并行執(zhí)行是微不足道的。由多個相互關聯(lián)的數(shù)據(jù)轉換組成的復雜任務被明確編碼為數(shù)據(jù)流序列,使其易于編寫、理解和維護。
- 優(yōu)化機會。任務的編碼方式允許系統(tǒng)自動優(yōu)化其執(zhí)行,從而使用戶可以專注于語義而不是效率。
- 可擴展性。用戶可以創(chuàng)建自己的功能來進行特殊處理。
評論
圖片
表情
