当前位置: 首页 > news >正文

数据的聚合

  1. 聚合可以实现对文档数据的统计,分析,运算,聚合常见有三类(聚合的值一定不能是text类型的):

    桶(Bucket)聚合:用来对文档做分组。

    度量(Metric)聚合:用以计算一些值,比方说最大值,最小值,平均值等。

    管道(pipeline)聚合:其它聚合的结果为基础进行聚合。

    参与聚合的字段类型:keyword,数值,日期,布尔。

  1. DSL实现Bucket聚合

    lasticsearch 的 Bucket 聚合(桶聚合)是将文档分组到 "桶" 中的强大工具,类似于 SQL 中的GROUP BY。每个桶关联一个条件,符合条件的文档会被分到对应的桶中。

    Terms聚合

    • 场景:统计博客文章中每个标签的文档数量。

    • GET /blog/_search
      {"size": 0,  // 不返回原始文档,只返回聚合结果"aggs": {"tags": {"terms": {"field": "tags.keyword",  // 使用keyword类型避免分词"size": 10,  // 返回前10个最常见的标签"order": {"_count": "desc"  // 按文档数量降序排序}}}}
      }
      结果示例
      {"aggregations": {"tags": {"doc_count_error_upper_bound": 0,"sum_other_doc_count": 15,"buckets": [{"key": "elasticsearch","doc_count": 25},{"key": "java","doc_count": 18}]}}
      }
      //大多数 Bucket 聚合默认按文档数量(_count)降序排序。
      //按文档数量排序DSL演示
      GET /products/_search
      {"size": 0,"aggs": {"by_category": {"terms": {"field": "category.keyword","order": {"_count": "desc"  // 按文档数量降序(默认)}}}}
      }
      //结果演示
      {"aggregations": {"by_category": {"buckets": [{ "key": "electronics", "doc_count": 120 },{ "key": "clothing", "doc_count": 80 },{ "key": "books", "doc_count": 50 }]}}
      }
      //场景:只对价格大于 100 的商品进行类别聚合
      //DSL示例
      GET /products/_search
      {"query": {"range": {"price": {"gt": 100}}},"size": 0,"aggs": {"by_category": {"terms": {"field": "category.keyword"}}}
      }
      //结果显示
      {"aggregations": {"by_category": {"buckets": [{"key": "electronics","doc_count": 100,"expensive_products": {"doc_count": 75,  // 价格>100的电子产品数量"count": {"value": 75}}}]}}
      }
       
    • aggs代表聚合,与query同级,此时query的作用是限定聚合的的文档范围

    • 聚合必须的三要素

      • 聚合名称

      • 聚合类型

      • 聚合字段

    • 聚合可配置的属性有:size:指定聚合结果数量,order指定聚合结果排序方式,field指定聚合字段。

  2. DSL实现Metric聚合

    计算所有产品的平均价格

    GET /products/_search
    {"size": 0,  // 不返回原始文档"aggs": {"avg_price": {"avg": {"field": "price"}}}
    }
    //结果显示
    {"aggregations": {"avg_price": {"value": 125.5  // 平均价格}}
    }

    嵌套聚合metric聚合的组合使用

    //按类别分组,计算每个类别的平均价格、最高价格和最低价格。
    GET /products/_search
    {"size": 0,"aggs": {"by_category": {"terms": {"field": "category.keyword"},"aggs": {"avg_price": { "avg": { "field": "price" } },"max_price": { "max": { "field": "price" } },"min_price": { "min": { "field": "price" } },"price_stats": { "stats": { "field": "price" } }}}}
    }

    在java中进行聚合

    import org.elasticsearch.action.search.SearchRequest;
    import org.elasticsearch.action.search.SearchResponse;
    import org.elasticsearch.client.RequestOptions;
    import org.elasticsearch.client.RestHighLevelClient;
    import org.elasticsearch.index.query.QueryBuilders;
    import org.elasticsearch.search.aggregations.AggregationBuilders;
    import org.elasticsearch.search.aggregations.bucket.filter.Filter;
    import org.elasticsearch.search.aggregations.bucket.terms.Terms;
    import org.elasticsearch.search.builder.SearchSourceBuilder;
    ​
    import java.io.IOException;
    ​
    public class FilterAggregationExample {private final RestHighLevelClient client;public FilterAggregationExample(RestHighLevelClient client) {this.client = client;}public void filterAggregation() throws IOException {SearchRequest searchRequest = new SearchRequest("products");SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();// 构建按类别分组的聚合,在每个类别中过滤价格>100的商品searchSourceBuilder.aggregation(AggregationBuilders.terms("by_category").field("category.keyword").subAggregation(AggregationBuilders.filter("expensive_products",QueryBuilders.rangeQuery("price").gt(100)).subAggregation(AggregationBuilders.valueCount("count").field("id"))));searchRequest.source(searchSourceBuilder);SearchResponse response = client.search(searchRequest, RequestOptions.DEFAULT);// 处理聚合结果Terms byCategory = response.getAggregations().get("by_category");for (Terms.Bucket bucket : byCategory.getBuckets()) {String category = bucket.getKeyAsString();long totalCount = bucket.getDocCount();Filter expensiveProducts = bucket.getAggregations().get("expensive_products");long expensiveCount = expensiveProducts.getDocCount();System.out.println("Category: " + category + ", Total: " + totalCount + ", Expensive: " + expensiveCount);}}
    }

http://www.xdnf.cn/news/975439.html

相关文章:

  • 审计效率升级!Word一键批量给数字添加千位分隔符
  • 传统机器学习与大模型 + Prompt 的对比示例
  • eureka如何绕过 LVS 的虚拟 IP(VIP),直接注册服务实例的本机真实 IP
  • SpringMVC异步处理Servlet
  • Wyn 商业智能与 3D 大屏的深度融合应用
  • 在ARM 架构的 Mac 上 更新Navicat到17后连接Oracle时报错:未加载 Oracle 库。
  • 高频面试之6Hive
  • 机器学习算法——集成学习
  • 电路图识图基础知识-变频器控制电动机系统解析(二十四)
  • 渗透测试PortSwigger Labs:遭遇html编码和转义符的反射型XSS
  • uniapp 云打包 iOS 应用上传到 app store 商店的过程
  • ZZU-ARM汇编语言实验 34
  • 【Rust UDP编程】rust udp编程方法解析与应用实战
  • uni-app bitmap.load() 返回 code=-100
  • XSP30是一款2~3节串联锂电池/锂离子电池升降压充电管理IC
  • Snipaste:轻量级截图,高效编辑
  • Spring中@Value注解:原理、加载顺序与实战指南
  • Springboot项目的目录结构
  • 西门子 SINAMICS S200伺服,重塑汽车焊接工艺新标准
  • 技术革新,EtherCAT转CAN网关,新能源汽车电池产线再升级
  • 汽车租赁小程序开发指南
  • Spark提交流程
  • SQL 注入:iBatis与修复
  • Charles里怎么进行断点调试
  • TripGenie:畅游济南旅行规划助手:团队工作纪实(十四)
  • 附加模块--Qt SQL模块功能及架构解析
  • SpringCloud系列 - Nacos 配置中心(二)
  • Hadoop 2.7.7 单机伪分布式安装与配置教程(JDK 8)
  • 如何设计三高架构
  • 小米玄戒O1架构深度解析(二):多核任务调度策略详解