大数据组件

分层

分布式基础

  • 一致性 Zookeeper

  • 资源调度 YARN: hadoop资源管理工具

  • 负载均衡 Nginx: web服务器http和反向代理服务器,负载均衡

probe 数据采集 / ingestion

  • 数据同步 DataX: 异构数据源之间的离线同步 Sqoop: hadoop <-> rdb (SQL-to-Hadoop) Flume: 日志收集工具

  • 定时任务 Quartz

数据管道 data channel

  • Message Queue Kafka RabbitMQ ActiveMQ

storage 数据集存储/data lake

Hadoop  HDFS (分布式文件系统 Hadoop Distributed File System
HBase:分布式列式存储
Hive:基于Hadoop和SQL,大规模数据查询 (大数据的数仓)
ElasticSearch:全文检索,快速搜索
Neo4j 图数据库

calculation 计算 / analysis

Hadoop  MapReduce
Spark 基于内存的计算引擎

Impala:对HDFSHBase数据进行交互式SQL查询
Storm 分布式流式处理框架
Flink 分布式批流处理框架,有状态计算
Kylin 开源分布式分析引擎,OLAP
Druid 冷数据集存储、分析、查询

Pig 分析和评估

service 服务 / consumption

  • 可视化 BI系统: FineBI Tableau Power BI Kibana: 分析和可视化(结合ElasticSearch使用)

  • 数据服务 Spring SpringBoot 消息队列:Kafka,RabbitMQ

  • 数据挖掘

  • 机器学习 TensorFlow

  • 推荐系统