当前位置: 首页 > java >正文

psycopg2-binary、pgvector、 SQLAlchemy、 PostgreSQL四者的关系

这四者的关系可以理解为 从底层驱动到高层抽象的技术栈协作,共同实现 PostgreSQL 数据库的常规操作和向量检索能力。以下是它们的层级关系和协作流程:


1. 四者角色定位

组件层级核心职责
PostgreSQL数据库层关系型数据库,提供数据存储和 SQL 执行能力,通过 pgvector 扩展支持向量操作。
pgvector数据库扩展层为 PostgreSQL 添加向量存储和相似度搜索功能(如 <-> 运算符)。
psycopg2-binary驱动层Python 与 PostgreSQL 通信的底层接口,执行原始 SQL 和二进制数据传输。
SQLAlchemyORM 框架层提供 Python 对象与数据库表的映射,简化 CRUD 和向量操作。

2. 协作关系图解


3. 具体协作场景

(1) 常规数据库操作(无 pgvector)
  • SQLAlchemy 生成标准 SQL(如 SELECT * FROM users)。

  • psycopg2-binary 将 SQL 发送给 PostgreSQL 并返回结果。

  • PostgreSQL 执行查询并返回关系型数据。

(2) 向量检索(使用 pgvector)
  1. 启用扩展

    # 通过 psycopg2 或 SQLAlchemy 执行
    CREATE EXTENSION IF NOT EXISTS vector;
  2. 存储向量

    # SQLAlchemy 模型定义(需 pgvector 的 Vector 类型)
    class Document(Base):embedding = Column(Vector(1536))  # 存储 OpenAI 嵌入向量
  3. 相似度搜索

    # 使用 pgvector 的余弦距离运算符
    results = session.query(Document).order_by(Document.embedding.cosine_distance(query_vec)).limit(5)
    • SQLAlchemy 生成包含 <-> 运算符的 SQL。

    • psycopg2-binary 将查询发送到 PostgreSQL。

    • PostgreSQL 通过 pgvector 执行向量计算。


4. 依赖关系总结

  • SQLAlchemy 依赖 psycopg2-binary 连接 PostgreSQL。

  • pgvector 是 PostgreSQL 的扩展,需先在数据库中启用。

  • psycopg2-binary 是唯一直接与 PostgreSQL 通信的组件。

  • SQLAlchemy 和 pgvector 通过 psycopg2-binary 间接协作。


5. 典型代码流程示例

# 安装依赖:pip install sqlalchemy psycopg2-binary pgvectorfrom sqlalchemy import create_engine, Column, Integer
from pgvector.sqlalchemy import Vector
from sqlalchemy.orm import sessionmaker
from sqlalchemy.ext.declarative import declarative_base
import numpy as np# 1. 初始化连接(psycopg2 驱动)
engine = create_engine("postgresql+psycopg2://user:password@localhost/db")# 2. 启用 pgvector 扩展
with engine.connect() as conn:conn.execute("CREATE EXTENSION IF NOT EXISTS vector;")# 3. 定义模型(SQLAlchemy + pgvector)
Base = declarative_base()
class Item(Base):__tablename__ = 'items'id = Column(Integer, primary_key=True)embedding = Column(Vector(3))  # 3维向量示例Base.metadata.create_all(engine)# 4. 插入和查询向量
Session = sessionmaker(bind=engine)
session = Session()# 插入数据
item = Item(embedding=np.array([1.0, 2.0, 3.0]))
session.add(item)
session.commit()# 相似度搜索
query_vec = np.array([1.1, 2.1, 3.1])
results = session.query(Item).order_by(Item.embedding.cosine_distance(query_vec)
).limit(5).all()

6. 常见问题

Q: 能否不用 SQLAlchemy,直接通过 psycopg2 操作 pgvector?
A: 可以!但需手动编写 SQL:

import psycopg2
conn = psycopg2.connect("dbname=vector_db")
cursor = conn.cursor()
cursor.execute("SELECT id FROM items ORDER BY embedding <-> %s LIMIT 5", (query_vec,))

Q: pgvector 和 Milvus 如何选择?
A:

  • pgvector:适合中小规模(百万级向量)、已使用 PostgreSQL 的场景。

  • Milvus:适合超大规模(十亿级)、需要分布式和高级向量功能的场景。

http://www.xdnf.cn/news/11959.html

相关文章:

  • 【无人机】无人机UAV、穿越机FPV的概念介绍,机型与工具,证书与规定
  • JavaScript性能优化实战:深入探讨JavaScript性能瓶颈与优化技巧
  • UE5 创建了一个C++类,现在我还有一个蓝图类,我想将编写的C++类中包含的功能加入到这个蓝图类里面,如何做到
  • 2025年渗透测试面试题总结-腾讯[实习]安全研究员(题目+回答)
  • P3156 【深基15.例1】询问学号
  • Windows系统工具:WinToolsPlus 之 SQL Server 日志清理
  • Centos 8系统ext4文件系统类型进行扩容缩容 (LVM)
  • FFMPEG 提取视频中指定起始时间及结束时间的视频,给出ffmpeg 命令
  • C#学习第27天:时间和日期的处理
  • 开发源码搭建一码双端应用分发平台教程:逐步分析注意事项
  • H5移动端性能优化策略(渲染优化+弱网优化+WebView优化)
  • 从传统 RAG 到知识图谱 + Agent
  • 信创认证通关攻略:从环境搭建到测试报告的全流程操作指南
  • Day39 训练
  • 安卓开发:Reason: java.net.SocketTimeoutException: Connect timed out
  • Windows蓝屏查找、查看日志文件处理方法
  • setting up Activiti BPMN Workflow Engine with Spring Boot
  • FAST(Features from Accelerated Segment Test)角检测算法原理详解和C++代码实现
  • CanvasGroup篇
  • python学习打卡day44
  • 测试开发笔试题 Python 字符串中提取数字
  • Linux操作系统shell脚本
  • 并行智算MaaS云平台:打造你的专属AI助手,开启智能生活新纪元
  • vue3表格使用Switch 开关
  • Linux 特殊权限位详解:SetUID, SetGID, Sticky Bit
  • 使用C51和RTX-51微型交通灯控制器
  • 一种基于Service自动生成Controller的实现
  • 1.springmvc基础入门(一)
  • 栈-20.有效的括号-力扣(LeetCode)
  • 《复制粘贴的奇迹:原型模式》