当前位置：首页 > news >正文

Elasticsearch 深分页问题

news 2025/8/16 5:25:53

Elasticsearch 深分页问题

1️⃣ 什么是深分页 (Deep Pagination)

在 Elasticsearch 中，我们可以通过 from + size 进行分页查询：

GET my_index/_search
{"from": 100000,"size": 10
}

这表示 跳过前 100000 条，取 10 条记录。
这种情况就属于 “深分页”，因为需要跨过几十万甚至上百万条数据后再取结果。

📌 官方定义：深分页是指 from + size 很大，尤其是 from 很大（如几十万、百万级）。

2️⃣ 为什么深分页有性能问题？

原因 1：ES 基于 Lucene，查询需要拉取全部数据再丢弃

Lucene 不支持直接 O(1) 跳过前 N 条。
即使 from=100000 只需要 10 条，ES 仍需：
1. 从不同的 Shard 拉取 前 100010 条候选文档
2. 按 score（相关性）排序
3. 丢掉前 100000 条，只保留最后 10 条

带来的影响：

内存消耗巨大
CPU 排序开销大
Shard 越多，代价越大（每个分片都要返回 from+size 条数据）

原因 2：分布式聚合 & 排序代价高

假设 5 个分片：

每个分片返回 from + size 条数据到协调节点（Coordinating Node）
协调节点合并排序
丢掉前 from 条

深分页时，网络传输 & 合并瓶颈显著。

💡 结论：from 很大 → 查询性能急剧下降（甚至 OOM）

3️⃣ 官方建议和优化方案

✅ 方案 1：`search_after`（推荐）

原理：基于上一页最后一条数据的排序值获取下一页
不用 from，避免重复扫描
缺点：不能直接跳到第 N 页，只能顺序翻页
要求：有唯一且稳定的排序字段（如：时间戳 + _id）

第一次请求：

GET my_index/_search
{"size": 10,"sort": [{ "timestamp": "asc" },{ "_id": "asc" }]
}

记住最后一条的 (timestamp, _id)。

下一页请求：

GET my_index/_search
{"size": 10,"sort": [{ "timestamp": "asc" },{ "_id": "asc" }],"search_after": [ "2024-06-26T10:00:00Z", "abc123" ]
}

优点：

避免全量扫描
性能可控稳定

缺点：

只能顺序翻页，不能跳转任意页

✅ 方案 2：`scroll API`（大批量导出）

用于批量数据导出（不是普通分页展示）
固定查询“快照”，不会随数据变更
持有游标的代价较高

首次查询：

POST my_index/_search?scroll=1m
{"size": 1000,"query": { "match_all": {} }
}

拉取下一批：

POST _search/scroll
{"scroll": "1m","scroll_id": "DxF...abc"
}

✅ 方案 3：Point In Time（PIT）

ES 7.10+ 新增
类似 scroll，但轻量，不固定数据快照
一般结合 search_after 使用

创建 PIT：

POST my_index/_pit?keep_alive=1m

✅ 方案 4：业务层优化

限制分页深度（例如最多翻到第 100 页）
改用时间范围 + 条件分页（search_after 按时间+ID 排序更稳定）
建立预聚合/索引表，提前规整数据

4️⃣ 方案对比

方法	跳任意页	性能	场景
from+size	✅	差	小数据量分页
search_after	❌	好	顺序分页大数据
scroll	❌	好	批量导出/全量遍历
PIT+search_after	❌	好	实时数据流式分页

🎯 最佳实践

数据量小（<1w）：直接 from+size
大数据 + 顺序翻页：search_after
大批量导出：scroll
实时数据深翻：PIT + search_after

查看全文

http://www.xdnf.cn/news/1300591.html

计算图的力量：从 PyTorch 动态图到 TensorFlow 静态图的全景与实战

Nginx蜘蛛请求智能分流：精准识别爬虫并转发SEO渲染服务

【Java EE进阶 --- SpringBoot】初识Spring（创建SpringBoot项目）

iceberg 底层存储HDFS与juiceFS的区别

nflsoi 8.14 题解

集成电路学习：什么是Video Processing视频处理

《量子雷达》第4章量子雷达的检测与估计预习2025.8.14

ATAM：基于场景的软件架构权衡分析法

解剖HashMap的put ＜三＞ JDK1.8

Linux入门指南：基础开发工具---yum/apt

MacOS 系统计算机专业好用工具安装

P5967 [POI 2016] Korale 题解

Java 8 新特性介绍

【Docker】安装kafka案例

【深度学习】深度学习的四个核心步骤：从房价预测看机器学习本质

《Leetcode》-面试题-hot100-动态规划

【无标题】卷轴屏手机前瞻：三星/京东方柔性屏耐久性测试进展

待办事项小程序开发

【C#】PNG 和 JPG、JPEG的应用以及三种格式的区别？

2025天府杯数学建模C题

RxJava Android 创建操作符实战：从数据源到Observable

Java应用架构实战指南：主流模式解析与Spring落地实践

Java面试宝典：JVM性能优化

多任务并发：进程管理的核心奥秘

Java中Record的应用

Java使用Apache POI读取Excel文件

Swift 实战：用链表和哈希表写出高性能的贪吃蛇引擎（LeetCode 353）

C#WPF实战出真汁01--项目介绍

SpringBoot+Vue线上部署MySQL问题解决

代码随想录Day50：图论（图论理论、深度搜索理论、所有可达路径、广度搜索理论）

Elasticsearch 深分页问题

1️⃣ 什么是深分页 (Deep Pagination)

2️⃣ 为什么深分页有性能问题？

原因 1：ES 基于 Lucene，查询需要拉取全部数据再丢弃

原因 2：分布式聚合 & 排序代价高

3️⃣ 官方建议和优化方案

✅ 方案 1：search_after（推荐）

✅ 方案 2：scroll API（大批量导出）

✅ 方案 3：Point In Time（PIT）

✅ 方案 4：业务层优化

4️⃣ 方案对比

🎯 最佳实践

相关文章：

✅ 方案 1：`search_after`（推荐）

✅ 方案 2：`scroll API`（大批量导出）