分层
分布式基础
-
一致性 Zookeeper
-
资源调度 YARN: hadoop资源管理工具
-
负载均衡 Nginx: web服务器http和反向代理服务器,负载均衡
probe 数据采集 / ingestion
-
数据同步 DataX: 异构数据源之间的离线同步 Sqoop: hadoop <-> rdb (SQL-to-Hadoop) Flume: 日志收集工具
-
定时任务 Quartz
数据管道 data channel
- Message Queue Kafka RabbitMQ ActiveMQ
storage 数据集存储/data lake
Hadoop 的 HDFS (分布式文件系统 Hadoop Distributed File System)
HBase:分布式列式存储
Hive:基于Hadoop和SQL,大规模数据查询 (大数据的数仓)
ElasticSearch:全文检索,快速搜索
Neo4j 图数据库
calculation 计算 / analysis
Hadoop 的 MapReduce
Spark 基于内存的计算引擎
Impala:对HDFS,HBase数据进行交互式SQL查询
Storm 分布式流式处理框架
Flink 分布式批流处理框架,有状态计算
Kylin 开源分布式分析引擎,OLAP
Druid 冷数据集存储、分析、查询
Pig 分析和评估
service 服务 / consumption
-
可视化 BI系统: FineBI Tableau Power BI Kibana: 分析和可视化(结合ElasticSearch使用)
-
数据服务 Spring SpringBoot 消息队列:Kafka,RabbitMQ
-
数据挖掘
-
机器学习 TensorFlow
-
推荐系统