当前位置: 首页 > java >正文

【lucene】实现knn

在 Lucene 中,可以通过 `KnnFloatVectorQuery` 和 `KnnFloatVectorField` 来实现 KNN(k-Nearest Neighbors)搜索。以下是具体介绍:

 

1. 功能原理

`KnnFloatVectorQuery` 是 Lucene 用于执行最近邻搜索的查询类,它可以在一个字段中搜索与目标向量最相似的 k 个向量。其核心是基于 HNSW(Hierarchical Navigable Small World)算法,构建图索引以实现高效的近似最近邻(Approximate Nearest Neighbor,ANN)搜索。

 

2. 代码示例

 

2.1 索引向量字段

 

```java

import org.apache.lucene.document.Document;

import org.apache.lucene.document.KnnFloatVectorField;

import org.apache.lucene.index.IndexWriter;

import org.apache.lucene.index.IndexWriterConfig;

import org.apache.lucene.store.Directory;

import org.apache.lucene.store.ByteBuffersDirectory;

 

import java.io.IOException;

import java.util.ArrayList;

import java.util.List;

import java.util.Random;

 

public class LuceneKNNExample {

    public static float[] generateFVector(int dim) {

        float[] vector = new float[dim];

        Random random = new Random();

        for (int i = 0; i < dim; i++) {

            vector[i] = random.nextFloat();

        }

        return vector;

    }

 

    public static void main(String[] args) throws IOException {

        Directory directory = new ByteBuffersDirectory();

        IndexWriterConfig config = new IndexWriterConfig(null);

        IndexWriter indexWriter = new IndexWriter(directory, config);

 

        int count = 10000;

        int dim = 128;

        List<Document> docs = new ArrayList<>();

        for (int i = 0; i < count; i++) {

            Document doc = new Document();

            doc.add(new KnnFloatVectorField("fvecs", generateFVector(dim)));

            docs.add(doc);

        }

        indexWriter.addDocuments(docs);

        indexWriter.commit();

        System.out.println("索引写入成功");

    }

}

```

 

2.2 执行 KNN 查询

 

```java

import org.apache.lucene.index.DirectoryReader;

import org.apache.lucene.index.IndexReader;

import org.apache.lucene.search.IndexSearcher;

import org.apache.lucene.search.TopDocs;

import org.apache.lucene.store.Directory;

import org.apache.lucene.util.BytesRef;

 

import java.io.IOException;

import java.nio.file.Path;

import java.util.Random;

 

public class KNNQueryExample {

    public static float[] generateFVector(int dim) {

        float[] vector = new float[dim];

        Random random = new Random();

        for (int i = 0; i < dim; i++) {

            vector[i] = random.nextFloat();

        }

        return vector;

    }

 

    public static void main(String[] args) throws IOException {

        Directory readDirectory = new ByteBuffersDirectory();

        IndexReader indexReader = DirectoryReader.open(readDirectory);

        IndexSearcher indexSearcher = new IndexSearcher(indexReader);

 

        float[] queryVector = generateFVector(128);

        int k = 3;

 

        TopDocs topDocs = indexSearcher.search(new KnnFloatVectorQuery("fvecs", queryVector, k), k);

 

        for (ScoreDoc scoreDoc : topDocs.scoreDocs) {

            System.out.println("doc: " + scoreDoc.doc + ", score: " + scoreDoc.score);

        }

    }

}

```

 

3. 查询原理

 

- `KnnFloatVectorQuery` 的 rewrite 过程:在 rewrite 之后,`KnnFloatVectorQuery` 会变成 `DocAndScoreQuery`,它内部已经存储了符合条件的 `docId` 和 `score`。

- HNSW 算法:HNSW 算法将新节点链接到 M 个最近邻,通过反向链接和修剪来保留多样性。M 值越大,精度越高,成本也越高。Beam-width 控制搜索范围。

http://www.xdnf.cn/news/16092.html

相关文章:

  • Git 完全手册:从入门到团队协作实战(4)
  • DP系列2【01背包】洛谷 P1049 [NOIP 2001 普及组] 装箱问题题解
  • 构建高性能推荐系统:MixerService架构解析与核心实现
  • K8s:离线部署Kubernetes1.26.12及采用外部Harbor
  • .net core接收对方传递的body体里的json并反序列化
  • P5535 【XR-3】小道消息
  • 【MyBatis-Plus】核心开发指南:高效CRUD与进阶实践
  • 83、设置有人DTU设备USR-M100采集传感器数据,然后上传阿里云服务
  • 【音视频学习】五、深入解析视频技术中的像素格式:颜色空间、位深度、存储布局
  • CodeBuddy IDE实战:用AI全栈能力快速搭建课程表网页
  • 借助Aspose.HTML控件,使用 Python 编程将网页转换为 PDF
  • Object Sense (OSE):一款从编辑器脚本发展起来的编程语言
  • 优化:Toc小程序猜你喜欢功能
  • Java 堆(优先级队列)
  • AI 及开发领域动态与资源汇总(2025年7月23日)
  • 编程语言Java——核心技术篇(二)类的高级特性
  • 逆向入门(41)程序逆向篇-crackme
  • OceanBase数据库
  • 设备虚拟化技术
  • 从零开始学习Dify-Excel数据可视化(四)
  • Rocky9部署Zabbix7(小白的“升级打怪”成长之路)
  • 【bug】websocket协议不兼容导致的一个奇怪问题
  • (46)elasticsearch-华为云CCE无状态负载部署
  • #Linux内存管理# 在一个播放系统中同时打开几十个不同的高清视频文件,发现播放有些卡顿,打开视频文件是用mmap函数,请简单分析原因。
  • MCU芯片AS32S601在卫星光纤放大器(EDFA)中的应用探索
  • VPS海外部署Linux分布式计算任务调度-跨国资源整合方案
  • k8s:docker compose离线部署haborV2.13.1及采用外部的postgresql及redis数据库
  • uni-app动态获取屏幕边界到安全区域距离的完整教程
  • 在离线 Ubuntu 22.04机器上运行 ddkj_portainer-cn 镜像 其他相关操作也可以复刻 docker
  • Elasticsearch 学习笔记