PiFlow是一款非常強(qiáng)大的大數(shù)據(jù)流水線系統(tǒng),混合型科學(xué)大數(shù)據(jù)流水線系統(tǒng),這款系統(tǒng)將數(shù)據(jù)采集、儲存的等環(huán)節(jié)封裝成組件,軟件簡單使用容易,提供100+的數(shù)據(jù)處理組件,如果有需要朋友的可以來本站下載試試。
軟件特色
簡單易用。
可視化配置流水線。
監(jiān)控流水線。
查看流水線日志。
檢查點功能。
擴(kuò)展性強(qiáng):
支持自定義開發(fā)數(shù)據(jù)處理組件。
性能優(yōu)越:
基于分布式計算引擎Spark開發(fā)。
功能強(qiáng)大:
提供100+的數(shù)據(jù)處理組件。
包括Hadoop 、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等。
集成了微生物領(lǐng)域的相關(guān)算法。
使用方法
解壓piflow-server-v0.9.tar.gz。
tar -zxvf piflow-server-v0.9.tar.gz。
編輯配置文件config.properties。
運行、停止、重啟PiFlow Server。
start.sh、stop.sh、 restart.sh、 status.sh。
測試 PiFlow Server。
設(shè)置環(huán)境變量 PIFLOW_HOME。
vim /etc/profile。
export PIFLOW_HOME=/yourPiflowPath/bin。
export PATH=PATH:PIFLOW_HOME/bin。
運行如下命令。
piflow flow start example/mockDataFlow.json。
piflow flow stop appID。
piflow flow info appID。
piflow flow log appID。
piflow flowGroup start example/mockDataGroup.json。
piflow flowGroup stop groupId。
piflow flowGroup info groupId。
如何配置config.properties。
#spark and yarn config。
spark.master=yarn。
spark.deploy.mode=cluster。
#hdfs default file system。
fs.defaultFS=hdfs://10.0.86.191:9000。
#yarn resourcemanager.hostname。
yarn.resourcemanager.hostname=10.0.86.191。
#if you want to use hive, set hive metastore uris。
#hive.metastore.uris=thrift://10.0.88.71:9083。
#show data in log, set 0 if you do not want to show data in logs。
data.show=10。
#server port
server.port=8002
#h2db port
h2.port=50002