当前位置: 首页 > news >正文

Spark流水线数据探查组件

1.Deequ简介

Deequ是AWS实验室开发的一款开源数据质量监控工具,它构建在Apache Spark之上,主要用于大规模数据集的质量验证。Deequ允许用户定义"数据质量约束",并自动计算指标来验证这些约束是否得到满足,从而帮助数据工程师和分析师确保其数据的正确性和完整性。

在数据从数据源抽取、转换并加载到数据仓库的ETL过程中,Deequ可以嵌入其中,对每一步的数据进行质量检查。例如,在数据抽取后检查数据的完整性,在转换过程中检查数据的一致性和准确性,确保只有符合质量要求的数据才能进入数据仓库,避免错误数据对后续数据分析和决策的影响。

2.探查字段

Spark流水线数据探查组件采用Deequ实现,可将任意节点输出的DataFrame数据集进行数据探查,字段如下:

字段名含义类型备注
columnName分析的列名StringType所有类型字段
completeness该列的完整性,取值范围在 0 到 1 之间,1 代表无缺失值。DoubleType所有类型字段
approximateNumDistinctValues该列不同值的近似数量LongType所有类型字段
dataType该列的数据类型StringType所有类型字段
typeCounts键为数据类型名称,值为该类型在列中出现的次数。MapType(StringType, LongType)所有类型字段
minimum该列的最大值DoubleType整形类型字段
maximum该列的最小值DoubleType整形类型字段
mean该列的平均值DoubleType整形类型字段
sum该列所有值的总和DoubleType整形类型字段
stdDev该列的标准差DoubleType整形类型字段
approxPercentiles该列的近似分位数StringType整形类型字段
minLength字符串列中最短字符串的长度IntegerType字符类型字段
maxLength字符串列中最长字符串的长度IntegerType字符类型字段

3. 集成演示

3.1 创建任务

  • 入口:通过顶部菜单栏选择 任务开发,或通过快捷入口 快速创建任务

  • 任务类型:选择 SparkPipeline

3.2 配置任务

点击任务名称,进入任务详情页。任务节点如下

使用MockData节点生成100条测试数据

使用DataProfiling探索数据

最后通过TableShow对探索结果可视化展示

3.3 运行任务

  • 点击 运行 按钮启动任务

    在这里插入图片描述

🔗 平台体验地址:DataStudio (http://1.94.182.15:8090)

http://www.xdnf.cn/news/1078579.html

相关文章:

  • 【字节跳动】数据挖掘面试题0002:从转发数据中求原视频用户以及转发的最长深度和二叉排序树指定值
  • 计算机视觉的新浪潮:扩散模型(Diffusion Models)技术剖析与应用前景
  • 六、软件操作手册
  • 【Python】进阶 - 数据结构与算法
  • Python 高光谱分析工具(PyHAT)
  • Python 数据分析:numpy,说人话,说说数组维度。听故事学知识点怎么这么容易?
  • vue中的toRef
  • C#上位机串口接口
  • docker常见命令
  • 模型预测专题:强鲁棒性DPCC
  • Springboot开发常见注解一览
  • C++ 完美转发(泛型模板函数)
  • CSS外边距合并(塌陷)全解析:原理、场景与解决方案
  • apoc-5.24.0-extended.jar 和 apoc-4.4.0.36-all.jar 啥区别
  • 大数据平台与数据中台:从概念到落地的系统化实践指南
  • Point-LIO代码阅读与解析
  • opencv基础的图像操作
  • 回顾JAVA中的锁机制
  • 2-RuoYi-UI管理平台的启动
  • 少样本学习在计算机视觉中的应用:原理、挑战与最新突破
  • 第8章网络协议-NAT
  • ai之RAG本地知识库--基于OCR和文本解析器的新一代RAG引擎:RAGFlow 认识和源码剖析
  • HTTP 协议深入理解
  • 【51单片机单595点阵8按键调节速度方向花样】2022-6-18
  • 运用逆元优化组合计算#数论
  • monorepo + Turborepo --- 构建仓库结构
  • 创客匠人解构知识付费爆单密码:产品力打造与 IP 变现的深度耦合
  • [转载]数据库锁分布式锁实现接口幂等性
  • 如何将文件从 iPhone 传输到 Android(新指南)
  • BUUCTF在线评测-练习场-WebCTF习题[ZJCTF 2019]NiZhuanSiWei1-flag获取、解析