当前位置: 首页 > news >正文

Elasticsearch 深分页限制与解决方案

最近在准备面试,正把平时积累的笔记、项目中遇到的问题与解决方案、对核心原理的理解,以及高频业务场景的应对策略系统梳理一遍,既能加深记忆,也能让知识体系更扎实,供大家参考,欢迎讨论。

在项目中遇到一个问题:之前同事在导出所有 IM 消息时,直接用 分页查询(from + size) 拉全量数据,当数据加起来超过1万条后,Elasticsearch 报错:

Result window is too large, from + size must be less than or equal to: [10000] but was [11000].
See the scroll api for a more efficient way to request large data sets.

这就是 ES 默认的 深分页限制 导致的。

一、问题原因

Elasticsearch 默认的 index.max_result_window 设置为 10000。

查询时,如果 from + size > 10000,就会报错。注意是 from + size 一起不能超过10000条。

默认分页只适合小数据量查询,不适合一次性拉取所有数据。

二、解决方案

1. 临时调整 index.max_result_window

通过修改索引配置提高限制,例如:

PUT 索引名称/_settings?preserve_existing=true
{
“index.max_result_window”: “50000”
}

⚠️ 这种方式会增加 ES 的内存和 CPU 消耗,不建议无限放大。

2. 调整java代码使用 Scroll API

适合批量拉取大量数据,特点:

返回的是快照数据,不随实时更新。

用完要清理 scroll 上下文。

更适合离线导出、批处理。

三、经验总结

分页查询(from+size)只适合小数据量场景,不适合全量查询。

大数据导出 → Scroll API

实时分页展示 → Search After

特殊情况 → 调整 index.max_result_window(需谨慎)。

✅ 这次踩坑,就是因为用分页直接查全量数据,超过了 ES 的默认限制。后续我们改用 Scroll API,顺利解决。

http://www.xdnf.cn/news/1430515.html

相关文章:

  • 计算机Python毕业设计推荐:基于Django+Vue用户评论挖掘旅游系统
  • 深度学习——基于卷积神经网络实现食物图像分类之(保存最优模型)
  • 前缀和之距离和
  • 架构设计:AIGC 新规下 UGC 平台内容审核防火墙的构建
  • 【XR技术概念科普】什么是注视点渲染(Foveated Rendering)?为什么Vision Pro离不开它?
  • A股大盘数据-20250902分析
  • 深入浅出 RabbitMQ-消息可靠性投递
  • 学习日记-SpringMVC-day48-9.2
  • WPF应用程序资源和样式的使用示例
  • 洗衣店小程序的设计与实现
  • 深度学习篇---DenseNet网络结构
  • gitlab中回退代码,CI / CD 联系运维同事处理
  • VR森林经营模拟体验带动旅游经济发展
  • Time-MOE 音频序列分类任务
  • 【C++框架#2】gflags 和 gtest 安装使用
  • Redis 的跳跃表:像商场多层导航系统一样的有序结构
  • 疯狂星期四文案网第58天运营日记
  • 大模型微调数据准备全指南:清洗、标注与高质量训练集构造实战
  • 科研界“外挂”诞生了:科学多模态模型Intern-S1-mini开源
  • 我的项目我做主:Focalboard+cpolar让团队协作摆脱平台依赖
  • 大数据毕业设计选题推荐-基于大数据的电脑硬件数据分析系统-Hadoop-Spark-数据可视化-BigData
  • 临时邮箱地址获取服务器邮件工作流程与实现
  • playwright+python 实现图片对比
  • 【代码里的英雄传】Dubbo 的一生:一位分布式勇士的传奇旅程
  • 依托深兰科技AI技术生态,深兰教育携手沪上高校企业启动就业科创营
  • 高性能接口实现方案
  • 【微服务】-Gson反序列化泛型类型踩坑指南:如何正确处理Result<T>类型
  • MTK Linux DRM分析(三十)- MTK mtk_dsi.c(Part.2)
  • AI零售创业公司:零眸智能
  • PHP操作LibreOffice将替换变量后的word文件转换为PDF文件