当前位置：首页 > java >正文

【lucene】实现knn

java 2025/7/25 11:41:51

在 Lucene 中，可以通过 `KnnFloatVectorQuery` 和 `KnnFloatVectorField` 来实现 KNN（k-Nearest Neighbors）搜索。以下是具体介绍：

1. 功能原理

`KnnFloatVectorQuery` 是 Lucene 用于执行最近邻搜索的查询类，它可以在一个字段中搜索与目标向量最相似的 k 个向量。其核心是基于 HNSW（Hierarchical Navigable Small World）算法，构建图索引以实现高效的近似最近邻（Approximate Nearest Neighbor，ANN）搜索。

2. 代码示例

2.1 索引向量字段

```java

import org.apache.lucene.document.Document;

import org.apache.lucene.document.KnnFloatVectorField;

import org.apache.lucene.index.IndexWriter;

import org.apache.lucene.index.IndexWriterConfig;

import org.apache.lucene.store.Directory;

import org.apache.lucene.store.ByteBuffersDirectory;

import java.io.IOException;

import java.util.ArrayList;

import java.util.List;

import java.util.Random;

public class LuceneKNNExample {

public static float[] generateFVector(int dim) {

float[] vector = new float[dim];

Random random = new Random();

for (int i = 0; i < dim; i++) {

vector[i] = random.nextFloat();

}

return vector;

}

public static void main(String[] args) throws IOException {

Directory directory = new ByteBuffersDirectory();

IndexWriterConfig config = new IndexWriterConfig(null);

IndexWriter indexWriter = new IndexWriter(directory, config);

int count = 10000;

int dim = 128;

List<Document> docs = new ArrayList<>();

for (int i = 0; i < count; i++) {

Document doc = new Document();

doc.add(new KnnFloatVectorField("fvecs", generateFVector(dim)));

docs.add(doc);

}

indexWriter.addDocuments(docs);

indexWriter.commit();

System.out.println("索引写入成功");

}

```

2.2 执行 KNN 查询

```java

import org.apache.lucene.index.DirectoryReader;

import org.apache.lucene.index.IndexReader;

import org.apache.lucene.search.IndexSearcher;

import org.apache.lucene.search.TopDocs;

import org.apache.lucene.store.Directory;

import org.apache.lucene.util.BytesRef;

import java.io.IOException;

import java.nio.file.Path;

import java.util.Random;

public class KNNQueryExample {

public static float[] generateFVector(int dim) {

float[] vector = new float[dim];

Random random = new Random();

for (int i = 0; i < dim; i++) {

vector[i] = random.nextFloat();

}

return vector;

}

public static void main(String[] args) throws IOException {

Directory readDirectory = new ByteBuffersDirectory();

IndexReader indexReader = DirectoryReader.open(readDirectory);

IndexSearcher indexSearcher = new IndexSearcher(indexReader);

float[] queryVector = generateFVector(128);

int k = 3;

TopDocs topDocs = indexSearcher.search(new KnnFloatVectorQuery("fvecs", queryVector, k), k);

for (ScoreDoc scoreDoc : topDocs.scoreDocs) {

System.out.println("doc: " + scoreDoc.doc + ", score: " + scoreDoc.score);

}

```

3. 查询原理

- `KnnFloatVectorQuery` 的 rewrite 过程：在 rewrite 之后，`KnnFloatVectorQuery` 会变成 `DocAndScoreQuery`，它内部已经存储了符合条件的 `docId` 和 `score`。

- HNSW 算法：HNSW 算法将新节点链接到 M 个最近邻，通过反向链接和修剪来保留多样性。M 值越大，精度越高，成本也越高。Beam-width 控制搜索范围。

查看全文

http://www.xdnf.cn/news/16092.html

Git 完全手册：从入门到团队协作实战（4）

DP系列2【01背包】洛谷 P1049 [NOIP 2001 普及组] 装箱问题题解

构建高性能推荐系统：MixerService架构解析与核心实现

K8s:离线部署Kubernetes1.26.12及采用外部Harbor

.net core接收对方传递的body体里的json并反序列化

P5535 【XR-3】小道消息

【MyBatis-Plus】核心开发指南：高效CRUD与进阶实践

83、设置有人DTU设备USR-M100采集传感器数据，然后上传阿里云服务

【音视频学习】五、深入解析视频技术中的像素格式：颜色空间、位深度、存储布局

CodeBuddy IDE实战：用AI全栈能力快速搭建课程表网页

借助Aspose.HTML控件，使用 Python 编程将网页转换为 PDF

Object Sense (OSE)：一款从编辑器脚本发展起来的编程语言

优化：Toc小程序猜你喜欢功能

Java 堆（优先级队列）

AI 及开发领域动态与资源汇总(2025年7月23日)

编程语言Java——核心技术篇（二）类的高级特性

逆向入门（41）程序逆向篇-crackme

OceanBase数据库

设备虚拟化技术

从零开始学习Dify-Excel数据可视化(四)

Rocky9部署Zabbix7（小白的“升级打怪”成长之路）

【bug】websocket协议不兼容导致的一个奇怪问题

（46）elasticsearch-华为云CCE无状态负载部署

#Linux内存管理# 在一个播放系统中同时打开几十个不同的高清视频文件，发现播放有些卡顿，打开视频文件是用mmap函数，请简单分析原因。

MCU芯片AS32S601在卫星光纤放大器（EDFA）中的应用探索

VPS海外部署Linux分布式计算任务调度-跨国资源整合方案

k8s:docker compose离线部署haborV2.13.1及采用外部的postgresql及redis数据库

uni-app动态获取屏幕边界到安全区域距离的完整教程

在离线 Ubuntu 22.04机器上运行 ddkj_portainer-cn 镜像其他相关操作也可以复刻 docker

Elasticsearch 学习笔记

相关文章：