PyCascadingPython 打包器
Cascading是一個新式的針對Hadoop clusters的數(shù)據(jù)處理API,它使用富于表現(xiàn)力的API來構建復雜的處理工作流,而不是直接實現(xiàn)Hadoop MapReduce的算法。
PyCascading 是Cascading 的 Python 打包器(wrapper)??墒褂盟刂苼碜?Python 上完整的數(shù)據(jù)處理流程。
-
管道是由 Python Operators 模塊建造的
-
用戶定義的功能都寫在 Python 上
-
能夠傳遞任意上下文到用戶定義的功能上
-
臨時結果的緩存會導致管道更快的重播(faster replay)
-
使用 Jython 2.5.2 將有利于 Java 和 Python庫的集成
PyCascading 能夠用于兩種模式中:在本地的 Hadoop 或 遠程 Hadoop 部署。
使用 PyCascading 所需要的環(huán)境是:
-
Cascading 1.2.* or 2.0.0
-
Jython 2.5.2+
-
Hadoop 0.20.2+, the version preferably matching the Hadoop runtime
-
Java 編譯器
運行條件:
-
Hadoop 在目標服務器上安裝和設置
-
SSH 訪問遠程服務器
-
如果在本地測試,則需要合理的調用 JVM
評論
圖片
表情
