当前位置：首页 > news >正文

SpringBoot整合Kafka、Flink实现流式处理

news 2025/7/3 22:35:57

引言

在当今大数据处理领域，实时数据流处理变得越来越重要。Apache Kafka作为一个高吞吐量的分布式流处理平台，结合Apache Flink这一强大的流处理框架，可以构建出高效的实时数据处理系统。本文将指导您如何在SpringBoot应用中整合Kafka和Flink，从而实现一个完整的实时数据处理流水线。

1. 技术栈介绍

在开始具体实现之前，让我们先了解一下这三种技术的基本概念：

SpringBoot：简化Spring应用开发的框架，提供了自动配置、快速启动等特性。
Apache Kafka：高性能的分布式事件流平台，可用于构建实时数据管道和流处理应用。
Apache Flink：分布式大数据流处理引擎，支持对无界和有界数据流进行有状态的计算。
这三者结合使用的典型场景是：SpringBoot作为应用框架，Kafka负责消息队列和数据传输，Flink处理数据流并执行计算逻辑。

2. 环境准备

首先，我们需要准备开发环境和相关依赖。

创建SpringBoot项目
使用Spring Initializr创建一个新的SpringBoot项目，添加以下依赖：

<dependencies><!-- Spring Boot 基础依赖 --><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><!-- Kafka 依赖 --><dependency><groupId>org.springframework.kafka</groupId><artifactId>spring-kafka</artifactId></dependency><!-- Flink 核心依赖 --><dependency><groupId>org.apache.flink</groupId><artifactId>flink-java</artifactId><version>1.18.0</version></dependency><dependency><groupId>org.apache.flink</groupId><artifactId>flink-streaming-java</artifactId><version>1.18.0</version></dependency><!-- Flink Kafka 连接器 --><dependency><groupId>org.apache.flink</groupId><artifactId>flink-connector-kafka</artifactId><version>3.0.0-1.18</version></dependency><!-- Lombok 简化开发 --><dependency><groupId>org.projectlombok</groupId><artifactId>lombok</artifactId><optional>true</optional></dependency>
</dependencies>

安装并启动Kafka
下载Kafka：https://kafka.apache.org/downloads
解压下载的文件
启动ZooKeeper（Kafka依赖）:

bin/zookeeper-server-start.sh config/zookeeper.properties

启动Kafka服务器:

bin/kafka-server-start.sh config/server.properties

创建一个名为"temperature-data"的topic:

bin/kafka-topics.sh --create --topic temperature-data --bootstrap-server localhost:9092 --partitions 1 --replication-factor

3. SpringBoot整合Kafka

基础配置
在application.yml中添加Kafka的配置：

spring:kafka:bootstrap-servers: localhost:9092producer:key-serializer: org.apache.kafka.common.serialization.StringSerializervalue-serializer: org.springframework.kafka.support.serializer.JsonSerializerconsumer:group-id: temperature-groupauto-offset-reset: earliestkey-deserializer: org.apache.kafka.common.serialization.StringDeserializervalue-deserializer: org.springframework.kafka.support.serializer.JsonDeserializerproperties:spring.json.trusted.packages: com.example.model

创建数据模型
创建一个表示温度数据的模型类：

package com.example.model;import lombok.AllArgsConstructor;
import lombok.Data;
import lombok.NoArgsConstructor;import java.time.LocalDateTime;@Data
@NoArgsConstructor
@AllArgsConstructor
public class TemperatureReading {private String sensorId;        // 传感器IDprivate double temperature;     // 温度值private LocalDateTime timestamp; // 时间戳// Lombok 会自动生成 getter、setter、equals、hashCode 和 toString 方法
}

实现Kafka生产者
创建一个服务类来发送温度数据：

package com.example.service;import com.example.model.TemperatureReading;
import lombok.RequiredArgsConstructor;
import org.springframework.kafka.core.KafkaTemplate;
import org.springframework.stereotype.Service;@Service
@RequiredArgsConstructor
public class TemperatureProducerService {private final KafkaTemplate<String, TemperatureReading> kafkaTemplate;private static final String TOPIC = "temperature-data";/*** 发送温度数据到Kafka* * @param reading 温度读数对象*/public void sendTemperatureReading(TemperatureReading reading) {// 使用传感器ID作为消息键，可以保证相同传感器的数据进入同一分区kafkaTemplate.send(TOPIC, reading.getSensorId(), reading);System.out.println("已发送温度数据: " + reading);}
}

实现Kafka消费者(可选)
创建一个服务类来消费温度数据（用于测试，实际处理将由Flink完成）：

package com.example.service;import com.example.model.TemperatureReading;
import org.springframework.kafka.annotation.KafkaListener;
import org.springframework.stereotype.Service;@Service
public class TemperatureConsumerService {/*** 监听Kafka主题中的温度数据* * @param reading 接收到的温度读数对象*/@KafkaListener(topics = "temperature-data", groupId = "temperature-group")public void consume(TemperatureReading reading) {System.out.println("已接收温度数据: " + reading);// 在这里可以进行简单处理或保存到数据库}
}

创建REST API
创建一个控制器来接收温度数据：

package com.example.controller;import com.example.model.TemperatureReading;
import com.example.service.TemperatureProducerService;
import lombok.RequiredArgsConstructor;
import org.springframework.http.ResponseEntity;
import org.springframework.web.bind.annotation.PostMapping;
import org.springframework.web.bind.annotation.RequestBody;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RestController;import java.time.LocalDateTime;@RestController
@RequestMapping("/api/temperature")
@RequiredArgsConstructor
public class TemperatureController {private final TemperatureProducerService producerService;/*** 接收温度数据并发送到Kafka* * @param reading 温度读数对象* @return HTTP响应*/@PostMappingpublic ResponseEntity<String> reportTemperature(@RequestBody TemperatureReading reading) {// 如果客户端没有提供时间戳，则设置当前时间if (reading.getTimestamp() == null) {reading.setTimestamp(LocalDateTime.now());}producerService.sendTemperatureReading(reading);return ResponseEntity.ok("温度数据已接收并发送到Kafka");}
}

4. SpringBoot整合Flink

创建Flink配置类

package com.example.config;import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;@Configuration
public class FlinkConfig {/*** 创建并配置Flink流执行环境* * @return 配置好的StreamExecutionEnvironment实例*/@Beanpublic StreamExecutionEnvironment streamExecutionEnvironment() {StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();// 设置执行模式为流处理env.setRuntimeMode(RuntimeExecutionMode.STREAMING);// 设置并行度env.setParallelism(1);// 启用检查点以实现容错env.enableCheckpointing(60000); // 每60秒创建一次检查点return env;}
}

创建Flink流处理服务

package com.example.service;import com.example.model.TemperatureReading;
import com.example.model.TemperatureAlert;
import jakarta.annotation.PostConstruct;
import lombok.RequiredArgsConstructor;
import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.api.common.functions.FilterFunction;
import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.connector.kafka.source.KafkaSource;
import org.apache.flink.connector.kafka.source.enumerator.initializer.OffsetsInitializer;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.springframework.stereotype.Service;import java.util.Properties;@Service
@RequiredArgsConstructor
public class TemperatureProcessingService {private final StreamExecutionEnvironment env;// 定义温度阈值private static final double HIGH_TEMP_THRESHOLD = 30.0;/*** 初始化并启动Flink流处理作业*/@PostConstructpublic void initializeFlinkJob() {try {// 配置Kafka数据源KafkaSource<String> source = KafkaSource.<String>builder().setBootstrapServers("localhost:9092").setTopics("temperature-data").setGroupId("flink-temperature-processor").setStartingOffsets(OffsetsInitializer.earliest()).setValueOnlyDeserializer(new SimpleStringSchema()).build();// 创建数据流DataStream<String> inputStream = env.fromSource(source, WatermarkStrategy.noWatermarks(), "Kafka Source");// 将JSON字符串转换为TemperatureReading对象DataStream<TemperatureReading> temperatureStream = inputStream.map(new JsonToTemperatureReadingMapper());// 过滤出高温数据DataStream<TemperatureReading> highTempStream = temperatureStream.filter(new HighTemperatureFilter(HIGH_TEMP_THRESHOLD));// 处理高温警报DataStream<TemperatureAlert> alertStream = highTempStream.map(new TemperatureAlertMapper());// 每5分钟计算一次平均温度DataStream<Double> averageTempStream = temperatureStream.map(TemperatureReading::getTemperature).windowAll(TumblingProcessingTimeWindows.of(Time.minutes(5))).aggregate(new AverageAggregateFunction());// 打印结果（在实际应用中，可能会将结果发送到数据库或另一个Kafka主题）alertStream.print("Temperature Alert");averageTempStream.print("Average Temperature (5min)");// 执行Flink作业env.execute("Temperature Processing Job");} catch (Exception e) {e.printStackTrace();}}/*** 将JSON字符串转换为TemperatureReading对象*/private static class JsonToTemperatureReadingMapper implements MapFunction<String, TemperatureReading> {@Overridepublic TemperatureReading map(String json) throws Exception {// 在实际应用中需要使用Jackson或Gson进行JSON解析// 这里简化处理，实际项目中应添加完整的错误处理ObjectMapper mapper = new ObjectMapper();mapper.registerModule(new JavaTimeModule());return mapper.readValue(json, TemperatureReading.class);}}/*** 过滤高温数据*/private static class HighTemperatureFilter implements FilterFunction<TemperatureReading> {private final double threshold;public HighTemperatureFilter(double threshold) {this.threshold = threshold;}@Overridepublic boolean filter(TemperatureReading reading) {return reading.getTemperature() > threshold;}}/*** 将高温数据转换为警报*/private static class TemperatureAlertMapper implements MapFunction<TemperatureReading, TemperatureAlert> {@Overridepublic TemperatureAlert map(TemperatureReading reading) {return new TemperatureAlert(reading.getSensorId(),reading.getTemperature(),reading.getTimestamp(),"温度超过阈值！需要立即处理。");}}
}

创建警报模型类

package com.example.model;import lombok.AllArgsConstructor;
import lombok.Data;
import lombok.NoArgsConstructor;import java.time.LocalDateTime;@Data
@NoArgsConstructor
@AllArgsConstructor
public class TemperatureAlert {private String sensorId;        // 传感器IDprivate double temperature;     // 温度值private LocalDateTime timestamp; // 时间戳private String message;         // 警报消息
}

创建平均值计算函数

package com.example.function;import org.apache.flink.api.common.functions.AggregateFunction;/*** Flink聚合函数：计算温度平均值*/
public class AverageAggregateFunction implements AggregateFunction<Double, AverageAccumulator, Double> {/*** 创建累加器*/@Overridepublic AverageAccumulator createAccumulator() {return new AverageAccumulator(0.0, 0);}/*** 将元素添加到累加器*/@Overridepublic AverageAccumulator add(Double value, AverageAccumulator accumulator) {return new AverageAccumulator(accumulator.getSum() + value,accumulator.getCount() + 1);}/*** 获取聚合结果*/@Overridepublic Double getResult(AverageAccumulator accumulator) {if (accumulator.getCount() == 0) {return 0.0;}return accumulator.getSum() / accumulator.getCount();}/*** 合并两个累加器*/@Overridepublic AverageAccumulator merge(AverageAccumulator a, AverageAccumulator b) {return new AverageAccumulator(a.getSum() + b.getSum(),a.getCount() + b.getCount());}
}/*** 平均值计算的累加器*/
@Data
@AllArgsConstructor
class AverageAccumulator {private double sum;    // 总和private int count;     // 计数
}

5. 实战案例：实时温度监控系统

现在，我们已经完成了SpringBoot与Kafka和Flink的整合。接下来，让我们通过一个实际的用例来展示这个系统的工作流程。

系统架构
1、温度传感器（模拟）发送HTTP请求到SpringBoot应用
2、SpringBoot应用将数据发送到Kafka
3、Flink从Kafka读取数据并进行处理
4、生成警报和统计数据

运行应用
启动SpringBoot应用
使用curl或Postman发送测试数据

# 发送正常温度数据
curl -X POST http://localhost:8080/api/temperature \-H "Content-Type: application/json" \-d '{"sensorId": "sensor-001", "temperature": 25.5}'

# 发送高温数据（将触发警报）
curl -X POST http://localhost:8080/api/temperature \-H "Content-Type: application/json" \-d '{"sensorId": "sensor-001", "temperature": 32.7}'

数据流向
1、通过REST API接收温度数据
2、生产者服务将数据发送到Kafka的"temperature-data"主题
3、Flink作业从Kafka读取数据
4、Flink执行以下操作：
过滤高温数据并生成警报
计算5分钟窗口内的平均温度
5、结果输出到控制台（实际应用中可以写入数据库或另一个Kafka主题）