当前位置：首页 > news >正文

ES 面试题系列「二」

news 2025/7/1 15:08:06

1、简述 Elasticsearch 查询的基本流程。

查询分发：客户端发送查询请求到 ES 集群中的某个节点，该节点根据索引的路由信息，将查询请求分发到包含相关数据的分片所在的节点。
分片查询：每个分片在本地执行查询操作，根据查询条件过滤文档，并计算文档的相关性得分。
结果合并：查询请求的发起节点收集各个分片返回的结果，进行合并和排序，最终将结果返回给客户端。

2、在 Elasticsearch 中，查询是如何在集群中的多个节点和分片之间进行协调的？

当接收到查询请求时，协调节点会根据索引的元数据信息，确定需要查询的分片列表。然后，协调节点并行地向这些分片所在的节点发送查询请求。每个分片所在的节点执行本地查询后，将结果返回给协调节点。协调节点负责合并这些结果，并进行必要的排序、聚合等操作，最后将最终结果返回给客户端。

3、倒排索引在 Elasticsearch 查询中起到什么作用？

倒排索引是 Elasticsearch 实现快速查询的关键数据结构。它将文档中的每个词（或词条）映射到包含该词的文档列表，通过这种方式，在查询时可以快速定位到包含查询关键词的文档，大大提高了查询效率。例如，当查询 “苹果” 这个关键词时，倒排索引可以迅速找到所有包含 “苹果” 一词的文档，而无需遍历整个文档集合。

4、Elasticsearch 如何利用倒排索引实现短语查询？

对于短语查询，Elasticsearch 会在倒排索引的基础上，不仅要找到包含短语中各个单词的文档，还要确保这些单词在文档中的位置符合短语的顺序。它通过在倒排索引中记录每个单词的位置信息来实现这一点。例如，对于短语 “红色苹果”，ES 会查找同时包含 “红色” 和 “苹果” 且 “红色” 在 “苹果” 之前的文档，通过对比单词位置来精确匹配短语。

5、分析器在 Elasticsearch 查询中扮演什么角色？

分析器用于在索引和查询阶段对文本进行处理。在索引阶段，分析器将文本拆分成词条，并进行一系列的转换，如小写转换、去除停用词等，然后将处理后的词条建立倒排索引。在查询阶段，分析器对查询语句中的文本进行相同的处理，确保查询的词条与索引中的词条能够正确匹配。例如，对于查询 “Apple”，分析器会将其转换为与索引中 “apple” 相同的形式，从而正确找到包含 “apple” 的文档。

6、如何选择合适的分析器来提高查询的准确性？

要根据数据的特点和查询需求来选择分析器。如果数据是英文文本，可选择适用于英文的分析器，如english分析器，它能处理英文的复数形式、词干提取等。对于中文文本，可使用ik分析器等专门的中文分析器，能更好地对中文进行分词。如果数据包含多种语言，可考虑使用multi - field类型，为不同语言的字段设置不同的分析器。同时，还需要考虑查询的具体场景，如是否需要精确匹配、模糊匹配等，来选择合适的分析器组合。

7、Elasticsearch 是如何计算文档与查询的相关性得分的？

Elasticsearch 使用 TF - IDF（词频 - 逆文档频率）算法等多种因素来计算相关性得分。TF 表示某个词在文档中出现的频率，IDF 表示该词在整个索引中的稀有程度。出现频率高且在其他文档中很少出现的词，对相关性得分的贡献更大。此外，还会考虑字段的权重、查询语句的结构等因素。例如，一个词在文档中多次出现，且在其他文档中很少出现，那么该文档与包含这个词的查询的相关性得分就会较高。

8、如何影响或调整 Elasticsearch 的相关性计算结果？

可以通过调整字段的权重来影响相关性计算。给重要的字段设置较高的权重，这样在查询时，这些字段中的词对相关性得分的影响就会更大。还可以使用boost参数来提高某些查询条件或文档的相关性得分。另外，选择合适的相似性算法也会对相关性计算结果产生影响，不同的相似性算法适用于不同的场景和数据特点。

9、Elasticsearch 中有哪些缓存机制？它们在查询过程中是如何发挥作用的？

节点查询缓存：用于缓存查询结果，当相同的查询再次发起时，可以直接从缓存中获取结果，而无需重新执行查询。
字段数据缓存：主要用于缓存字段的分词结果等数据，避免在每次查询时都重新对字段进行分析。在查询过程中，这些缓存可以减少查询的执行时间，提高查询性能。例如，对于经常查询的字段，其数据被缓存在字段数据缓存中，下次查询时就可以直接从缓存中获取相关信息，而不需要再次从磁盘读取和分析数据。