当前位置: 首页 > ds >正文

Microsoft Fabric - 尝试一下Data Factory一些新的特性(2025年5月)

1.简单介绍

Microsoft Fabric是微软提供的一个数据管理和分析的统一平台,感觉最近的新特性也挺多的。

        

Data Factory是Microsoft Fabric的一个功能模块,也是一个cloud service。Data Factory可以和多种数据源进行连接,同时提供了data movement, data orchestration, data transformation的功能。有点类似以前的数据ETL工具的功能。       

这边主要尝试一下Data Factory的一些比较新的特性

2.具体说明

2.1 SharePoint作为存储目标

当前Microsoft Fabric中的Dataflow Gen2允许将数据存储到SharePoint library中,

1) 创建一个类型为Dataflow Gen2的dataflow,上传一个excel文件作为数据源,点击Next按钮,

        

 2) 选择一张table作为数据源,点击Create按钮创建dataflow,

        

3) 在dataflow编辑界面中,点击Add data destination下拉框,选择SharePoint选项,

        

4) 输入SharePoint站点的URL同时设定一些相关的配置,然后点击Next按钮,

         

5)  在Choose destination target窗口的左侧目录视图中,选择保存的文档库,还可以设定一下file name,最后点击Next按钮,

         

6) 保存并运行dataflow,最后在SharePoint站点的特定文档库中会发现有个csv文件生成了,

        

2.2 Dataflow转换

 假定已经创建了一个Dataflow Gen1

        

当前Microsoft Fabric增加了一个新特性,可以将Dataflow Gen1升级成Dataflow Gen2,

1) 点击DataflowGen1右侧的...,在下拉选项中选择Save as Dataflow Gen2即可,

        

 2) 在弹出的Save as Dataflow Gen(Preview)窗口中,输入Dataflow的名字,点击Create按钮,

        

3) 最后就多了一个Dataflow Gen2的dataflow了,

        

2.3 Variable library

Microsoft Fabric中多了Variable Library配置项

2.3.1 创建variable library 

1) 点击workspace中的New Item按钮,

        

2) 在New item面板中,点击Variable library的选项(当前处于preview阶段)

        

3) 可以创建一个如下图所示的variable library,

如下图datapath是变量名,当前的值为new_sales, 

        

还可以为变量datapath设定两个候选值,一个是new_sales_test,另外一个是new_sales_prod

        

创建的variable library最后是下面这个样子的,

        

2.3.2 应用variable library

假定已经创建了一个Data pipeline,主要功能是从一个网站下载sales数据到Microsoft Fabric的lakehouse中,

        

下载到lakehouse的sales.csv如下图所示,

        

下面Microsoft Fabric workspace中创建的Data pipeline, Lakehouse和Variable library, 

        

1) 在创建的data pipeline中,发现新增了一个Library variables(preview)的tab,可以添加一个变量和之前创建的variable library进行关联,配置如下图所示,

        

2) 可以配置Copy data action的File Path值来自variable library,如下图所示,

        

         

2.3.3 运行pipeline

假定当前变量datapath值为new_sales,

        

1) 现在点击下图中的Set as active选项将值new_sales_test变成active状态,

        

        

2) 点击pipeline界面上边的Run按钮,

        

3) 等待一些时间,pipeline运行成功了,

        

        

4) 最后查看目标lakehouse,发现有目录new_sales_test创建同时数据也下载完成了,

        

5) 如果是将值new_sales_prod设定为active状态,运行pipeline,最后发现lakehouse中也有new_sales_prod目录生成,如下面图所示,

        

         

感觉variable library用来设定不同产品环境的配置值,比如Developement, Test, Production环境的配置项相同但是值不同。可能比较适合CICD(continuous integration and continuous deployment)中的配置

3.总结

本文简单介绍了Microsoft Fabric Data Factory的一些新特性,其中variable library还处于preview阶段。当前随着大语言模型的普及,Data Factory也可以使用Copilot进行制作了。Microsoft Fabric的功能更新确实挺快的,还需继续跟着微软老师们学习一下。

本文如果哪里有错误,麻烦告之,谢谢谢谢!

http://www.xdnf.cn/news/10541.html

相关文章:

  • 爱其实很简单
  • leetcode179_最大数
  • 每日八股文6.1
  • python 将音乐和人声分离
  • 支持向量机(SVM):解锁数据分类与回归的强大工具
  • vscode实用配置
  • 设计模式——桥接设计模式(结构型)
  • 如何设计一个支持线上线下的通用订单模块 —— 面向本地生活服务行业的架构思路
  • [蓝桥杯]剪格子
  • C++命名空间深度解析
  • NodeJS全栈开发面试题讲解——P1Node.js 基础与核心机制
  • Go语言常见接口设计技巧-《Go语言实战指南》
  • AGI大模型(35):Advanced RAG之Pre-Retrieval(预检索)优化——查询优化
  • 【Tauri2】049——upload
  • 【CF】Day72——Codeforces Round 890 (Div. 2) CDE1 (二分答案 | 交互 + 分治 | ⭐树上背包)
  • 归一化相关
  • 数据库安全性
  • 函数栈帧深度解析:从寄存器操作看函数调用机制
  • OneForAll 使用手册
  • 【Oracle】数据备份与恢复
  • DeepSeek 赋能智慧消防:以 AI 之力筑牢城市安全 “防火墙”
  • WEBSTORM前端 —— 第3章:移动 Web —— 第2节:空间转换、转化
  • 8088 单板机 汇编 NMI 中断程序示例 (脱离 DOS 环境)
  • NX811NX816美光颗粒固态NX840NX845
  • Linux进程间通信----简易进程池实现
  • 搜索引擎2.0(based elasticsearch6.8)设计与实现细节(完整版)
  • 项目练习:element ui 的icon放在button的右侧
  • React 路由管理与动态路由配置实战
  • 【Java学习笔记】注解
  • 深入浅出MQTT协议:从物联网基础到实战应用全解析