当前位置: 首页 > news >正文

SPL 轻量级多源混算实践 2 - 查询 csv/xls 等文件

用 SPL 查文件也很简单,而且能处理各种文件格式。

计算用例

查询目标

基于 orders1.csv(有标题),统计 2024 年各类订单状态的订单金额

SPL 语法

编写脚本

A
1=T("orders1.csv")
2=A1.select(year(order_date)==2024)
3=A2.groups(order_status;sum(total_amount))

A1:读入 CSV,T() 函数会根据文件扩展名读出文件内容,返回成序表全部加载到内存

A2:过滤 2024 年数据

A3:按订单状态分组汇总

有时 csv 可能没有标题行,这时该怎么处理呢?

比如要基于没标题的 orders2.csv 完成前面的计算。

A
1=T@b("orders2.csv")
2=A1.select(year(_3)==2024)
3=A2.groups(_10:status;sum(_8):amt)

A1:加了 @b 选项代表处理无标题文件,读出后字段名会用 _1 _2 _3…来表示

A2:就用 _3(第三列)来过滤 2024 年数据。

后面的计算是类似的。

除了这种方式,SPL 还允许使用列号来读取该列数据:

A
1=T@b("orders2.csv")
2=A1.select(year(#3)==2024)
3=A2.groups(#10:status;sum(#8):amt)

这里不再用列名而是通过 #列号 的方式来计算。

SQL 语法

SPL 的原生语法可以完成各类计算,但有时对于熟悉 SQL 的人如果能用 SQL 查文件就好了。SPL 考虑到了这点,也提供了 SQL 语法。

比如前面的计算,也能直接用 SQL 搞定。

有标题时:

$select order_status,sum(total_amount) tamt from orders1.csv where year(order_date)=2024 group by order_status

直接基于 CSV 执行 SQL,不仅仅是 CSV,XLS\MongoDB\Restful\Json 各类数据源都可以。

处理无标题 CSV 时要复杂一些,需要借助 SPL 语法读入数据再用 SQL 查询:

$select _10 order_status,sum(_8) tamt from  {T@b("orders2.csv")} where year(_3)=2024 group by _10

这里{T@b(“orders2.csv”)} 用大括号包上的内容就是 SPL 语法,因为返回的字段名都是 _1 _2 形式,SQL 使用的字段名也都是这种。

目前 SPL 提供的 SQL 语法支持到 SQL92 程度,连 WITH 也可以使用,但是并不支持窗口函数,因为使用 SPL 原生语法可以处理各种复杂计算,所以支持到这种程度就够了。

下面是一些 SQL 查询示例。

日期计算:

$select * from d:/Orders.csv where (OrderDate<date('2020-01-01') and Amount<=100) or (OrderDate>=date('2020-12-31') and Amount>100)

Case when:

$select case year(OrderDate) when 2010 then 'this year' when 2010 then 'last year' else 'previous years' end from d:/Orders.csv

Group by …having:

$select Client,year(OrderDate) y,sum(Amount) amt from d:/Orders.csv 
group by Client,year(OrderDate) having sum(Amount)>1000

JOIN:

$select o.OrderId,o.Client,e.Name e.Dept,e.EId from d:/Orders.csv o 
left join d:/Emp.csv e on o.SellerId=e.Eid

Excel 处理

处理 Excel 也类似,比如根据 orders.xls,分别读取第二个 sheet(有标题)和第三个 sheet(无标题),查询订单金额超过 500 的大客户。

我们把代码写在一起:

A
1// 有标题 Excel,SPL 语法
2=T("orders.xls";"orders1")
3=A2.groups(customer_id;sum(total_amount):amount)
4=A3.select(amount>500)
5//SQL 语法
6$select customer_id,sum(total_amount) amount from {T("orders.xls";"orders1")} group by customer_id having sum(total_amount)>500
7
8// 无标题 Excel,SPL 语法
9=T@b("orders.xls";"orders2")
10=A9.groups(_2:customer_id;sum(_8):amount)
11=A10.select(amount>500)
12//SQL 语法
13$select _2 customer_id,sum(_8) amount from {T@b("orders.xls";"orders2")} group by _2 having sum(_8)>500

对于熟悉 SQL 的选手,相对简单的情况用 SQL 查,复杂情况用 SPL 原生语法来处理,而且二者可以混合使用,基本就无敌了。

SPL是开源免费的,下载试用~

http://www.xdnf.cn/news/682363.html

相关文章:

  • 将图层为shapefile类型的文件转成PostGis类型的详细实现步骤
  • 【Linux】cat命令 – 在终端设备上显示文件内容
  • 通用机环境下安全版单机数据库使用非root用户管理的解决方案
  • gbase8s统计更新(UPDATE STATISTICS)介绍
  • redis分布式锁在高并发场景下的方案设计与性能提升
  • 晓辉教育五维乾坤:五个成语解码教育范式革命
  • mysql explain使用
  • 图片压缩工具 | Electron+Vue3+Rsbuild开发桌面应用
  • SecureCRT 和 MobaXterm 用于串口收发时数据异常(无法成功发送)——更改换行符解决
  • OpenResty 入门指南:从基础到动态路由实战
  • 第1章 Redis 概述
  • Java基础 Day22
  • python变量如何理解?
  • 图像分割全路线学习(结合论文)
  • go build -gcflags 参数学习
  • Spring Boot事务失效场景及解决方案
  • 自动驾驶决策规划框架详解:从理论到实践
  • 【C语言干货】回调函数
  • endnote2025安装教程以及激活文件
  • ELectron 中 BrowserView 如何进行实时定位和尺寸调整
  • Asp.Net Core 如何配置在Swagger中带JWT报文头
  • leetcode hot100刷题日记——21.不同路径
  • 六、西方哲学
  • 【连载19】基础智能体的进展与挑战综述-对智能体大脑的威胁
  • halcon高斯滤波
  • 网络编程--上篇
  • 【详细记录】我的第一次裸片硬件尝试:stm32f103c8t6最小核心板一板成
  • unet 视频截图 实现简单的unet kaggle运行
  • Kruskal-Wallis检验 vs. 多次Wilcoxon检验:多重比较-spss
  • LCR 094. 分割回文串 II