Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比
产品 | 能力特点 | 应用场景 |
---|---|---|
Hadoop | - 基于MapReduce的批处理框架 - HDFS分布式存储 - 容错性强、适合离线分析 - 作业调度使用YARN | - 日志离线分析 - 数据仓库存储 - T+1报表分析 - 海量数据处理 |
Spark | - 基于内存计算,速度快 - 支持批处理、流处理(Structured Streaming) - 支持SQL、ML、图计算等 - 支持多语言(Scala、Java、Python) | - 近实时处理(秒级延迟) - 用户行为分析 - 推荐系统 - 电商数据分析 |
Flink | - 原生支持流处理(毫秒级延迟) - 支持有状态计算 - 精准一次语义(Exactly-once) - 高吞吐低延迟 | - 实时风控系统 - 日志实时清洗 - IoT数据采集分析 - 实时指标监控报警 |
二、日志处理流程描述
一、日志采集与传输(Flume / Logstash / Kafka)
1.1 日志产生
-
日志来源包括 Web 服务器、应用服务器、容器、移动端、嵌入式设备等;
-
日志格式多为 JSON