当前位置: 首页 > news >正文

详解flink java基础(一)

文章目录

      • 1.流式处理flink介绍
      • 2.Flink SQL介绍
      • 3. Flink Runtime
      • 4.使用flink集成kafka
      • 5.使用Flink SQL进行有状态流处理
      • 6.Event time & Watermarks
      • 7. flink Checkpoints & recovery

1.流式处理flink介绍

实时服务依赖流式处理:
在这里插入图片描述
flink优点:

  • 高性能
  • 丰富的特性:
    在这里插入图片描述
    构建flink的4个基础:
    在这里插入图片描述
    Streaming:
    在这里插入图片描述
  • 流是有序的事件
  • 业务数据总是一个流:有界流 或无界流
  • 对于flink,批处理仅是一个特殊的场景,在流运行时
    在这里插入图片描述
    The job Graph(Topology):
    • 运行中的flink 应用称作job
    • 运行中的flink应用(job)以及通过数据管道处理称作JobGraph(工作图)
    • Job Graph是一个有向图(DAG),数据流从source流向sink,被operator处理
      在这里插入图片描述

Stream processing:

  • Parallel:是由于分隔事件流成并行sub-stream,各自可以独立处理
    在这里插入图片描述

  • Forward:重定向一个事件流,优化上下游衔接非常有效

  • Repartition(分隔)
    在这里插入图片描述

  • Rebalance: rebalance非常昂贵,就像网络抖动一样,需要序列化每个事件,并且使用网络
    在这里插入图片描述

  • broadcasting :广播数据到分布式系统集群

Stream processing with SQL:
在这里插入图片描述

2.Flink SQL介绍

在这里插入图片描述
在这里插入图片描述
例子:
在这里插入图片描述
在这里插入图片描述
Flink SQL的特点:
在这里插入图片描述
在这里插入图片描述
append-only 、insert-only

Flink SQL 模式:
1. Streaming and Batch
在这里插入图片描述
2. Streaming only模式
在这里插入图片描述
3.Batch only 模式:

在这里插入图片描述

通过docker运行flink SQL CLI

  • 安装dockerdesktop

  • 执行 docker compose version

  • 克隆 flink练习代码仓:https://github.com/confluentinc/learn-apache-flink-101-exercises.git

  • 进入本地clone项目的根目录,执行构建docker compose命令:
    在这里插入图片描述

  • 运行sql-client
    docker compose run sql-client

  • 但sql-client启动成功,可以看到flink SQL CLi提示

    Flink SQL>
    
  • 然后可以进行 Flink SQL的一些操作

3. Flink Runtime

运行时架构(runtime Architecture)
在这里插入图片描述
Flink streaming VS Batch

StreamingBatch
Bounded or unbounded streamsonly bounded streams
Entrie pipeline must always be runningExecution proceeds in stages,running as needed
Input must be processed as it arrivesInput may be pre-sorted by time and key
Results are reported as they become readyResults are repored at the end of the job
Failure recovery resumes from a recent snapshotFailure recovery does a reset and full restart
Flink guarantees effectively exactly-once result ,despite out-of-order data and restarts due to failures.Effectively exactly-once gurantees are more straightforward

flink task有三种状态:

  1. idle
  2. busy
  3. backpressured:the task is unable to send output downstream because the downstream task is busy

总结

streaming 提供了立刻响应的场景,如下:

  • 监控告警
  • 欺诈检测(fraud detection)

Batch processing 更好,因为它效率更高效

4.使用flink集成kafka

kafka主要组件
在这里插入图片描述
kafka架构
在这里插入图片描述
在这里插入图片描述

kafka事件结构:
在这里插入图片描述
flink table 与topic的映射关系
在这里插入图片描述
映射kafka topics成flink table

flink format
在这里插入图片描述
flink需要知道协作的kafka topic的数据格式是什么

在这里插入图片描述

在这里插入图片描述
Flink可以作为kafka,实时应用、流水线的计算层

5.使用Flink SQL进行有状态流处理

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6.Event time & Watermarks

Time
在这里插入图片描述
out-of-order event time
在这里插入图片描述
watermarks
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
kafka source operator 从kafka partition 读取
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
waermarkark就是分区的最小值,如:1:05
在这里插入图片描述
一旦watermark被生成,source会发送它到下游

在这里插入图片描述
在这里插入图片描述
flink job不产生结果的原因分析以及解决方法:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
水印的使用(watermark):
在这里插入图片描述

7. flink Checkpoints & recovery

1.checkpoint

  • checkpoint就是flink自动产生的快照,主要用于失败恢复
  • savepoint是一种手动创建的快照,主要为了运维的目的,如:有状态的升级->升级flink到最新的版本

flink使用Chandy-Lamport 分布式快照算法解决以下问题

  • flink生成不是期望的结果
  • flink生成重复
    在这里插入图片描述
    在这里插入图片描述
    2.故障恢复(recovery)
    在这里插入图片描述
    在这里插入图片描述
    水印衡量着无序流中事件时间的进度

在这里插入图片描述

http://www.xdnf.cn/news/1315639.html

相关文章:

  • Flink作业执行的第一步:DataFlow graph的构建
  • nodejs 错误处理
  • Gradle快速入门学习
  • 数据结构初阶(19)外排序·文件归并排序的实现
  • 机器学习案例——对好评和差评进行预测
  • error #include<cuda_runtime_api.h>解决方案
  • Java基础 8.17
  • 2023年全国研究生数学建模竞赛华为杯F题强对流降水临近预报求解全过程文档及程序
  • RAG 分块中表格填补简明示例:Markdown、HTML、Excel、Doc
  • 机器学习--数据清洗
  • 北京JAVA基础面试30天打卡12
  • STM32CUBEMX配置stm32工程
  • 五、redis入门 之 客户端连接redis
  • Go语言并发编程 ------ 临界区
  • 批次号规则
  • Mac(四)自定义按键工具 Hammerspoon 的安装和使用
  • FX10/20 (CYUSB401X)开发笔记5 固件架构
  • 基于DSP+ARM+FPGA架构的储能协调控制器解决方案,支持全国产化
  • 【完整源码+数据集+部署教程】无人机航拍视角洪水检测与受灾房屋识别图像分割救援指导系统源码和数据集:改进yolo11-DCNV2
  • Tomcat下载、安装及配置详细教程
  • STL 容器
  • Kotlin集合概述
  • 第16节:自定义几何体 - 从顶点构建3D世界
  • 【MySQL学习|黑马笔记|Day7】触发器和锁(全局锁、表级锁、行级锁、)
  • 《Python学习之文件操作:从入门到精通》
  • Linux 服务:iSCSI 存储服务配置全流程指南
  • Java基础面试题(3)—Java(String字符串的存储方式,字面量)
  • 链表OJ题讲解---试金石含金量
  • 6个日常工作中常用的工作法:清单工作法、PDCA循环、SMART原则、6W2H 分析法等方法
  • CSS中linear-gradient 的用法