当前位置: 首页 > ds >正文

向量数据库该如何选择?Milvus 、ES、OpenSearch 快速对比:向量搜索能力与智能检索引擎的应用前景

1.milvus VS ES

Milvus 的亮点

  • 功能性:Milvus 不仅支持基本的向量相似性搜索,还支持稀疏向量、批量向量、过滤搜索和混合搜索功能等高级功能。

  • 灵活性:Milvus 支持多种部署模式和多个 SDK,所有这些都在一个强大的集成生态系统中实现。

  • 性能:Milvus 采用HNSW和DiskANN 等优化索引算法以及先进的GPU 加速,可确保高吞吐量和低延迟的实时处理。

  • 可扩展性:其定制的分布式架构可轻松扩展,从小型数据集到超过 100 亿向量的 Collections 都能轻松应对。
    在这里插入图片描述

1.1常规对比

  • milvus-vs-elastic:https://zilliz.com.cn/comparison/milvus-vs-elastic
  • milvus网址:https://milvus.io/
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

1.2 性能对比

VectorDBBench —— 向量数据库性能测试工具

在这里插入图片描述

  • miluvs路线图

Milvus几乎坐稳了向量搜索领域的头把交椅,最近两年加强了向量搜索本身的功能(支持多向量字段的混合搜索、优化了GPU加速),恶补了关键字搜索功能(支持BM25算法),还免费提供主流的重排序算法,相比而言,Elasticsearch对于向量搜索领域的探索,还是比较挤牙膏,连基本的RRF算法,也要收费。

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

milvus 客户案例

2.1 唯品会性能提升10倍

案例:https://zilliz.com.cn/customers/%E5%94%AF%E5%93%81%E4%BC%9A

用户痛点:使用 Elasticsearch 导致高延时和高运维成本,ES检索百万商品并召回 TopK 结果的平均延时在 300 ms 左右,milvus30ms,相差10倍

在这里插入图片描述

2.2 点石科技转型 AI 智能服务商

https://zilliz.com.cn/customers/%E7%82%B9%E7%9F%B3%E7%A7%91%E6%8A%80

在这里插入图片描述

2.3 更多案例

https://zilliz.com.cn/customers

https://milvus.io/zh/use-cases

在这里插入图片描述

3.成本问题

Zilliz 定价

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

4. OpenSearch-阿里

基于阿里巴巴自主研发的大规模分布式搜索引擎搭建的一站式智能搜索业务开发平台,目前为包括淘宝、天猫在内的阿里集团核心业务提供搜索服务支持。通过内置各行业的查询语义理解、机器学习排序算法等能力,以及充分开放的文本向量检索引擎能力,助力开发者快速搭建智能搜索服务。

智能开放搜索 OpenSearch
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
更多内容参考官方文档:https://help.aliyun.com/zh/open-search/high-performance-searchedition/product-overview/?spm=a2c4g.11186623.0.i1

5.embedding维度建议

短文本(如100字左右):- 对于短文本,通常推荐使用较低维度的向量,例如512维或768维

中等长度文本(如500字到2000字):- 中等长度的文本可以使用768维或1024维的向量。这些维度能够较好地平衡信息的丰富性和计算效率。

  • jina-1024维度
    [图片]

在这里插入图片描述

长文本(如超过2000字):- 对于较长的文本,建议使用更高维度的向量,例如1024维或更高?。[目前文本长度在8192]

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

http://www.xdnf.cn/news/8540.html

相关文章:

  • 小白学习顺序表 之 通讯录实现
  • JAVA查漏补缺(2)
  • 并发容器(Collections)
  • 文章记单词 | 第109篇(六级)
  • 主成分分析基本概念及python代码使用
  • 【软件测试】第三章·软件测试基本方法(逻辑覆盖、路径覆盖)
  • 从数学融智学视域系统地理解《道德经》:38至56,德化社会
  • 【MySQL】实战时遇到的几个 tips
  • AAAI-2016《Approximate K-Means++ in Sublinear Time》
  • python实战:Python脚本后台运行的方法
  • docker部署并测试翻译模型-CSANMT连续语义增强机器翻译
  • 《Android 应用开发基础教程》——第十五章:Android 动画机制详解(属性动画、帧动画、过渡动画)
  • 深入理解SummaryWriter类与TensorBoard的基本使用
  • SurfaceFlinger及Android应用RenderThread角度观察Jank丢帧卡顿
  • 【漫话机器学习系列】274.基尼指数(Gini Index)
  • 在Vue3 + Vite 项目安装使用 Tailwind CSS 4.0报错
  • 小白刷题之链表中的 “龟兔赛跑“:快慢指针算法详解
  • python打卡day34@浙大疏锦行
  • C++线程池的使用
  • 力扣 128.最长连续序列
  • 缓存和数据库一致性问题
  • 对于geoserver发布数据后的开发应用
  • MYSQL之复合查询
  • 基于51单片机和8X8点阵屏、独立按键的飞行躲闪类小游戏
  • wordpress上传图片时出现服务器无法处理图片
  • Vue3 + Element Plus表格筛选样式设置
  • ES6 哈希数据结构
  • 【maxcompute】阿里maxcompute Python开发个人经验汇总
  • 为何在VMware中清理CentOS虚拟机后,本地磁盘空间未减少的问题解决
  • 工业RTOS生态重构:从PLC到“端 - 边 - 云”协同调度