当前位置: 首页 > ops >正文

【Elasticsearch】检索排序 分页

检索排序 & 分页

  • 1.测试数据准备
  • 2.排序功能
    • 2.1 简单字段排序
    • 2.2 多字段排序
    • 2.3 日期排序
  • 3.分页功能
    • 3.1 基础分页
    • 3.2 深度分页(不推荐大数据量使用)
    • 3.3 使用 search_after 进行高效分页
  • 4.综合示例:高亮+排序+分页
  • 5.实践建议

1.测试数据准备

首先,我们创建一个名为 blog_posts 的索引,并插入一些测试数据:

PUT /blog_posts
{"mappings": {"properties": {"title": { "type": "text" },"content": { "type": "text" },"author": { "type": "keyword" },"views": { "type": "integer" },"publish_date": { "type": "date" },"tags": { "type": "keyword" }}}
}
POST /blog_posts/_bulk
{"index":{}}
{"title":"Elasticsearch Basics","content":"Learn the basics of Elasticsearch and how to perform simple queries.","author":"John Doe","views":1500,"publish_date":"2023-01-15","tags":["search","database"]}
{"index":{}}
{"title":"Advanced Search Techniques","content":"Explore advanced search techniques in Elasticsearch including aggregations and filters.","author":"Jane Smith","views":3200,"publish_date":"2023-02-20","tags":["search","advanced"]}
{"index":{}}
{"title":"Data Analytics with ELK","content":"How to use the ELK stack for data analytics and visualization.","author":"John Doe","views":2800,"publish_date":"2023-03-10","tags":["analytics","elk"]}
{"index":{}}
{"title":"Elasticsearch Performance Tuning","content":"Tips and tricks for optimizing Elasticsearch performance in production environments.","author":"Mike Johnson","views":4200,"publish_date":"2023-04-05","tags":["performance","optimization"]}
{"index":{}}
{"title":"Kibana Dashboard Guide","content":"Creating effective dashboards in Kibana for monitoring and analysis.","author":"Jane Smith","views":1900,"publish_date":"2023-05-12","tags":["kibana","visualization"]}

在这里插入图片描述

2.排序功能

能排序的字段都具备正排索引,单 text 类型字段是不可以排序的。如果要使 text 字段支持排序、聚合,则需要开启 fielddata

sort 是和 query 平级的,并不会被 query 包含。

2.1 简单字段排序

GET /blog_posts/_search
{"query": {"match_all": {}},"sort": [{"views": {"order": "desc"}}]
}

在这里插入图片描述

2.2 多字段排序

GET /blog_posts/_search
{"query": {"match_all": {}},"sort": [{"author": {"order": "asc"}},{"views": {"order": "desc"}}]
}

在这里插入图片描述

2.3 日期排序

GET /blog_posts/_search
{"query": {"match_all": {}},"sort": [{"publish_date": {"order": "desc"}}]
}

在这里插入图片描述

3.分页功能

Elasticsearch 支持对查询结果进行分页处理,允许用户逐步获取和浏览大量数据。

在编写查询语句时,可通过再请求体中添加 fromsize 字段实现分页。from 表示结果集的起始位置,而 size 表示每页返回的文档数量。

如果将 from 设置为 11 11 11size 设置为 5 5 5,则返回的是第 10 10 10 ~ 14 14 14 条数据(默认从第 0 0 0 条开始)。

3.1 基础分页

GET /blog_posts/_search
{"query": {"match_all": {}},"from": 0,"size": 2,"sort": [{"publish_date": {"order": "desc"}}]
}

在这里插入图片描述

3.2 深度分页(不推荐大数据量使用)

深度分页 指的是在 Elasticsearch 中查询结果集 非常靠后的页码(例如第 1000 1000 1000 页,每页 10 10 10 条数据,即 from=10000)。它通常表现为使用 from + size 参数组合来获取远端的分页数据。

❌ 不推荐的详细原因可参考我的另一篇博客:《【Elasticsearch】深度分页及其替代方案》。

当然,我们这里测试的数据没有那么多。

GET /blog_posts/_search
{"query": {"match_all": {}},"from": 3,"size": 2
}

在这里插入图片描述

3.3 使用 search_after 进行高效分页

首先获取第一页:

GET /blog_posts/_search
{"query": {"match_all": {}},"size": 2,"sort": [{"views": {"order": "desc"}},{"_id": {"order": "asc"}}]
}

在这里插入图片描述

然后使用最后一个结果的排序值获取下一页:

GET /blog_posts/_search
{"query": {"match_all": {}},"size": 2,"search_after": [3200, "上一页最后一个文档的ID"],"sort": [{"views": {"order": "desc"}},{"_id": {"order": "asc"}}]
}

在这里插入图片描述
在这里插入图片描述

4.综合示例:高亮+排序+分页

GET /blog_posts/_search
{"query": {"multi_match": {"query": "search","fields": ["title", "content"]}},"highlight": {"fields": {"title": {},"content": {"fragment_size": 100,"number_of_fragments": 2}}},"sort": [{"views": {"order": "desc"}}],"from": 0,"size": 3
}

在这里插入图片描述

5.实践建议

功能
实践建议
高亮
  • 对于大文本字段,限制 fragment_sizenumber_of_fragments 以提高性能。
  • 考虑使用 require_field_match: true 来只高亮查询中指定的字段。
排序
  • 对于文本字段排序,使用 .keyword 子字段或设置 fielddata: true
  • 避免对未索引或分析的字段进行排序。
  • 对于分页场景,使用包含唯一值的排序条件(如 _id)。
分页
  • 避免深度分页(超过 1000 1000 1000 条记录)),使用 search_after 代替。
  • 对于无限滚动等场景,优先考虑 search_after 而不是 from/size
  • 考虑使用滚动 API(Scroll API)对于大数据量导出场景。
http://www.xdnf.cn/news/14858.html

相关文章:

  • vue router 里push方法重写为什么要重绑定this
  • FLUX.1-Kontext 高效训练 LoRA:释放大语言模型定制化潜能的完整指南
  • 相机位姿估计
  • 一文讲清楚React中Refs的应用
  • 成为git砖家(12): 看懂git合并分支时冲突提示符
  • Python 机器学习核心入门与实战进阶 Day 3 - 决策树 随机森林模型实战
  • vue 条件渲染(v-if v-else-if v-else v-show)
  • 时域与频域信号特性分析——DFT归一化与双边谱合并分析
  • Kali Linux Wifi 伪造热点
  • SpringBoot:整合quartz实现定时任务-集群化配置
  • 温湿度变送器与电脑进行485通讯连接并显示在触摸屏中(mcgs)
  • Visual Studio 2022 MFC Dialog 添加Toolbar及Tips提示
  • 【算法刷题记录(简单题)002】字符串字符匹配(java代码实现)
  • 补充:问题:CORS ,前后端访问跨域问题
  • Java Go SDK 管理工具与最佳实践
  • 《Java修仙传:从凡胎到码帝》第四章:设计模式破万法
  • PageRank:互联网的马尔可夫链平衡态
  • CSS 文字浮雕效果:巧用 text-shadow 实现 3D 立体文字
  • 【内存】Linux 内核优化实战 - net.ipv4.tcp_tw_reuse
  • springBoot接口层时间参数JSON序列化问题,兼容处理
  • STM32F103RCTx的PWM输出控制电机
  • Matplotlib 安装部署与版本兼容问题解决方案(pyCharm)
  • 共射级放大电路的频率响应Multisim电路仿真——硬件工程师笔记
  • C++11 forward_list 从基础到精通:原理、实践与性能优化
  • 利用 AI 打造的开发者工具集合
  • 高档宠物食品对宠物的健康益处有哪些?
  • Python-GUI-wxPython-布局
  • python打卡day59@浙大疏锦行
  • 应急响应靶场——web3 ——知攻善防实验室
  • docker运行的一些常用命令