【Lucene/Elasticsearch】**Query Rewrite** 机制
这段话描述的是 Lucene/Elasticsearch 的 **Query Rewrite** 机制,核心一句话:
> **把“高级”或“逻辑”查询(如 PrefixQuery、WildcardQuery、RangeQuery)在真正执行前,拆成最底层的、可直接倒排索引查的“原子查询”(TermQuery、PointRangeQuery 等)。**
---
### 为什么要重写?
1. **高级查询本身无法直接走索引**
例:`PrefixQuery("titl", "jav")` 并不知道前缀 `jav*` 到底对应哪些词项,需要先把索引里所有以 `jav` 开头的真实 term 找出来。
2. **拆成原子查询后可走优化路径**
- 倒排列表直接求并集/交集
- 可利用跳表、压缩、缓存
- 可以合并相邻 TermQuery 为更高效的 BooleanQuery
---
### 举个完整流程
```text
用户写的查询 → 重写后的查询
------------------------------------------------
PrefixQuery("title", "jav") → BooleanQuery
├── TermQuery("java")
├── TermQuery("javascript")
└── TermQuery("javaw")
```
- 重写由 `Query.rewrite(IndexReader)` 触发,发生在 **搜索执行早期**(QueryPhase 之前)。
- 对上层透明:用户看到的仍是原查询,内部已变成“可执行的原子查询”。
---
### Elasticsearch 中的体现
- 在 Profile API 里能看到 `rewrite_time` 指标。
- 复杂查询(wildcard、range、geo、script)都会经历这一步;重写结果会影响后续缓存键、性能分析。