当前位置：首页 > news >正文

一文说清楚Hive中常用的聚合函数[collect_list]

news 2025/7/26 9:54:08

collect_list(col)是Hive中常用的聚合函数，用于将分组内的某列值（col）收集到一个数组中。它的核心作用是将多行数据合并为单行的数组结构，常用于数据重组或复杂分析场景。以下是详细说明和示例：

一、函数特点

分组聚合：需配合GROUP BY使用，将每个分组内的col值收集为数组。
保留重复值：与collect_set(col)不同，collect_list不会去重，保留所有原始值（包括重复值）。
顺序不确定：默认不保证数组内元素的顺序（除非配合窗口函数ORDER BY）。

二、典型应用场景

用户行为序列分析：将用户的多次操作按时间串联为行为路径。
数据结构转换：将行式存储的数据转为列式（如将多行商品标签转为单个商品的标签数组）。
复杂统计：计算每个分组内的所有值的列表（如收集每个班级的所有学生成绩）。

三、示例演示

场景1：用户订单列表收集

需求：收集每个用户的所有订单ID，生成用户ID → [订单ID列表]的映射。
数据：

user_id | order_id
------------------
1       | 1001
1       | 1002
2       | 1003
2       | 1003  -- 重复订单
3       | 1004

HQL：

SELECT user_id,collect_list(order_id) AS order_list  -- 收集订单ID到数组
FROM orders
GROUP BY user_id;

结果：

user_id | order_list
---------------------
1       | [1001, 1002]
2       | [1003, 1003]  -- 保留重复值
3       | [1004]

场景2：按时间排序的用户行为路径

需求：将用户的点击行为按时间顺序串联为路径（如首页→商品页→购物车）。
数据（user_behavior表）：

user_id | action_time         | page
-----------------------------------
1       | 2025-07-24 10:00:00 | 首页
1       | 2025-07-24 10:05:00 | 商品页
1       | 2025-07-24 10:10:00 | 购物车
2       | 2025-07-24 09:30:00 | 搜索页
2       | 2025-07-24 09:40:00 | 商品页

HQL：

SELECT user_id,concat_ws('→', collect_list(page ORDER BY action_time)) AS behavior_path
FROM user_behavior
GROUP BY user_id;

结果：

user_id | behavior_path
------------------------
1       | 首页→商品页→购物车
2       | 搜索页→商品页

关键点：

ORDER BY action_time确保数组元素按时间排序。
concat_ws('→', ...)将数组元素用→连接为字符串。

场景3：JSON数组生成（结合`explode`反向操作）

需求：将每个商品的多个标签从多行转为JSON数组格式。
数据（product_tags表）：

product_id | tag
-----------------
101        | 电子产品
101        | 手机
102        | 服装
102        | 男装
102        | 休闲装

HQL：

SELECT product_id,collect_list(tag) AS tags_array  -- 生成标签数组
FROM product_tags
GROUP BY product_id;

结果：

product_id | tags_array
-------------------------
101        | ["电子产品", "手机"]
102        | ["服装", "男装", "休闲装"]

延伸：若需转为JSON字符串，可结合to_json()函数：

to_json(collect_list(tag)) AS tags_json  -- 输出："["电子产品","手机"]"

四、注意事项

内存风险：若单个分组的数据量过大（如某个用户有百万级订单），可能导致OOM（内存溢出），需控制分组数据规模或增加内存。
与collect_set对比：
- collect_list保留重复值，且不保证顺序（除非显式ORDER BY）。
- collect_set自动去重，但同样不保证顺序。
数组长度限制：默认无限制，但过长的数组会影响性能，建议结合业务逻辑提前过滤无效数据。

五、性能优化建议

过滤先行：在GROUP BY前通过WHERE减少数据量，避免不必要的计算。
示例：

SELECT user_id,collect_list(order_id)
FROM orders
WHERE order_date >= '2025-01-01'  -- 先过滤近一年订单
GROUP BY user_id;

配合窗口函数排序：若需严格按时间排序，可先通过窗口函数生成排序字段，再collect_list。

WITH sorted_orders AS (SELECT user_id,order_id,ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY order_time) AS rnFROM orders
)
SELECT user_id,collect_list(order_id ORDER BY rn) AS ordered_orders
FROM sorted_orders
GROUP BY user_id;