当前位置：首页 > ai >正文

Superduper - 在数据上构建端到端AI工作流和应用

ai 2025/7/27 18:44:31

在这里插入图片描述

文章目录

- 一、关于 Superduper
- - 相关链接资源
- 二、安装
- 三、基本用法
- 四、更多Superduper说明
- - Superduper支持什么？
  - 核心功能
  - 关键优势
  - 一个优雅的更新模式来更新已应用的组件
  - 利用 `Template` 类的智能表单构建器
  - 基于Python原生类型注解的序列化
  - 社区与获取帮助
  - 当前支持的数据存储

一、关于 Superduper

Superduper 是一个基于 Python 的框架，用于在您的数据上构建 端到端 AI-数据工作流和应用，同时与主要数据库集成。

它支持最新的技术和技术，包括 LLMs、向量搜索、RAG、多模态以及经典 AI 和 ML 范式。

开发者可以通过构建 组合和声明式对象 来利用 Superduper，这些对象将部署、编排和版本管理等细节外包给 Superduper 引擎。

这使得开发者可以完全避免实现 MLOps、ETL 管道、模型部署、数据迁移和同步。

使用Superduper简单地说就是 “CAPE”：连接到您的数据，应用任意AI到这些数据，打包并重用应用程序在任意数据上，以及执行基于AI输出的数据查询和预测。

连接 Connect
应用 Apply
包 Package
执行 Execute

二、安装

必需：确保您已安装 Python 3.10+。
安装基本包：

pip install superduper-framework >= 0.6.0

安装您数据后端的插件：

# at least one or more of the following:
pip install superduper-mongodb >= 0.6.0
# or
pip install superduper-sql >= 0.6.0
# or
pip install superduper-snowflake >= 0.6.0

安装适用于您用例的附加插件（可选）：

pip install superduper-<plugin_name>

三、基本用法

Connect

db = superduper('mongodb|postgres|mysql|sqlite|duckdb|snowflake://<your-db-uri>')

Apply

listener = MyLLM('self_hosted_llm', architecture='llama-3.2', postprocess=my_postprocess).to_listener('documents', key='txt')
db.apply(listener)

Package

application = Application('my-analysis-app', components=[listener, vector_index])
template = Template('my-analysis', component=app, substitutions={'documents': 'table'})
template.export('my-analysis')

Execute

query = db['documents'].like({'txt', 'Tell me about Superduper'}, vector_index='my-index').select()
query.execute()

Superduper 可在任何地方运行；您也可以联系我们了解更多关于将 Superduper 工作流程大规模投入生产的企业平台的信息。

四、更多Superduper说明

Superduper支持什么？

Superduper足够灵活，可以支持广泛的AI技术和范式。我们在plugins和templates目录中提供了一系列预构建的功能。特别是，当AI和数据需要以持续和紧密集成的形式交互时，Superduper表现得尤为出色。以下是一些示例，您可以从我们的模板中进行尝试：

语义多模态向量搜索 (图片, 文本, 视频)
检索增强生成具有特殊要求（数据获取涉及语义搜索以及业务规则和预处理）
LLM finetuning on database hosted data
使用多模态数据进行迁移学习
我们正在寻找热情的开发者，以贡献到Superduper开源中提供的精彩预构建模板和工作流程的库。请加入讨论，通过贡献问题和拉取请求！

核心功能

创建一个超级超级数据-AI 连接/数据层，由您自己的
数据后端（数据库/数据湖/数据仓库）
元数据存储（与databackend相同或不同）
工件存储（用于存储大对象）
计算实现
使用声明式编程模型构建复杂的功能单元（组件），这些单元与您的数据后端中的数据紧密集成，通过一组简单的原语和基类实现。
构建更大的功能单元，将多个相互关联的 Component 实例封装到 AI 数据 Application 中
重复使用经过实战考验的 Component、Model 和 Application 实例，通过 Template 为开发者提供一个容易入手的起点，以便进行困难的 AI 实现
一种透明、可读、网络友好且高度可移植的序列化协议，“Superduper-protocol”，用于通信实验结果，使 Application 线程和版本易于跟踪，并从AI世界到数据库/类型化数据世界的优雅过渡。
使用 Model 实例的输出以及主数据后端数据组合执行查询，以启用最新一代的 AI-数据应用，包括所有类型的向量搜索、RAG 以及更多更多。

关键优势

极大的灵活性
结合任何基于Python的AI模型，与最成熟、经过实战考验的数据库和仓库进行集成；Snowflake、MongoDB、Postgres、MySQL、SQL Server、SQLite、BigQuery和Clickhouse都受到支持。
无缝集成避免MLOps
去除实现MLOps的需求，使用声明式和组合式的Superduper组件，这些组件指定了模型和数据应达到的最终状态。
提高代码的可重用性和可移植性
将组件打包为模板，公开所需的键参数，以便在您的社区和组织中重用和通信AI应用程序。
成本节省
实现无需专用向量数据库的向量搜索和嵌入生成。轻松地在自托管模型和API托管模型之间切换，无需进行重大代码更改。
无需额外努力即可迁移到生产环境
Superduper的REST API允许安装的模型无需额外开发工作即可提供服务。为了实现企业级可扩展性、安全措施、安全性和日志记录，使用Superduper创建的应用程序和工作流程可以一键部署到Superduper企业。

一个优雅的更新模式来更新已应用的组件

这意味着更改深层次的 Component 中的提示或参数不会意味着
从头开始启动所有组件。这也为回滚奠定了基础
并且版本固定。

利用 `Template` 类的智能表单构建器

这将允许开发者将他们的应用程序作为无代码界面进行展示。

基于Python原生类型注解的序列化

from superduper import typing as tclass MyPDF:path: t.Filemy_func: t.Blobmy_other_func: t.Pickle

社区与获取帮助

如果您有任何问题、疑问、评论或想法：

加入我们的 Slack 我们的 Slack (我们期待在那里见到你)。
在我们的 GitHub 讨论区进行搜索我们的 GitHub 讨论区，或添加一个新的问题(add a new question)。
评论现有的一个问题（点击此处）或创建一个新的问题。
帮助我们改进Superduper，通过在此处提供您宝贵的反馈 here！
邮箱联系我们：gethelp@superduper.io
访问我们的 YouTube 频道.
关注我们于 Twitter (now X).
与我们联系 LinkedIn.
随时欢迎直接联系维护者或社区志愿者！

当前支持的数据存储

MongoDB
MongoDB Atlas
Snowflake
PostgreSQL
MySQL
SQLite
DuckDB
Google BigQuery
Microsoft SQL Server (MSSQL)
ClickHouse

2025-04-16（三）

查看全文

http://www.xdnf.cn/news/199.html

Java面试中问单例模式如何回答

我的gittee仓库

LLaMA Factory多模态微调实践：微调Qwen2-VL构建文旅大模型

【国家能源集团生态协作平台-注册/登录安全分析报告】

操作系统第四章文件管理

施磊老师基于muduo网络库的集群聊天服务器(二)

十天借助 Trae 实现 “幸运塔塔屋” 小程序时光记忆功能之旅

Xcode16 调整 Provisioning Profiles 目录导致证书查不到

多模态记忆融合：基于LSTM的连续场景生成——突破AI视频生成长度限制

Orgin为柱状图加趋势线

零基础上手Python数据分析 (17)：[案例实战] 电商销售数据分析 - 从数据到洞察的全流程演练

Docker容器虚拟化存储架构

关于EXPLAIN ANALYZE 工具的解析及使用方法(AI)

《深入探秘JavaScript原型链与继承机制：解锁前端编程的核心密码》

【python报错解决训练】

阿里云镜像加速仅支持阿里云产品了

ChatUI vs Ant Design X 技术选型对比

MODBUS TCP 转 CANOpen

Kaggle-Bag of Words Meets Bags of Popcorn-(二分类+NLP+Bert模型)

Mac 选择下载安装工具 x86 还是 arm64 ？

gl-matrix 库简介

【java 13天进阶Day06】Map集合,HashMapTreeMap,斗地主、图书管理系统，排序算法

实验2：turtle 库绘制进阶图形

Linux服务器配置Anaconda环境、Pytorch库（图文并茂的教程）

java基础从入门到上手(九):Java - List、Set、Map

每天学一个 Linux 命令（20）：find

23种设计模式-创建型模式之抽象工厂模式（Java版本）

【含文档+PPT+源码】基于Python的股票数据可视化及推荐系统的设计与实现

Oracle 11g通过dg4odbc配置dblink连接PostgreSQL

从头学 | 目标函数、梯度下降相关知识笔记（一）