当前位置: 首页 > ai >正文

Superduper - 在数据上构建端到端AI工作流和应用

在这里插入图片描述

文章目录

    • 一、关于 Superduper
      • 相关链接资源
    • 二、安装
    • 三、基本用法
    • 四、更多Superduper说明
      • Superduper支持什么?
      • 核心功能
      • 关键优势
      • 一个优雅的更新模式来更新已应用的组件
      • 利用 `Template` 类的智能表单构建器
      • 基于Python原生类型注解的序列化
      • 社区与获取帮助
      • 当前支持的数据存储


一、关于 Superduper

Superduper 是一个基于 Python 的框架,用于在您的数据上构建 端到端 AI-数据工作流和应用,同时与主要数据库集成。

它支持最新的技术和技术,包括 LLMs、向量搜索、RAG、多模态以及经典 AI 和 ML 范式。

开发者可以通过构建 组合和声明式对象 来利用 Superduper,这些对象将部署、编排和版本管理等细节外包给 Superduper 引擎。

这使得开发者可以完全避免实现 MLOps、ETL 管道、模型部署、数据迁移和同步。

使用Superduper简单地说就是 “CAPE”:连接到您的数据,应用任意AI到这些数据,打包并重用应用程序在任意数据上,以及执行基于AI输出的数据查询和预测。

  • 连接 Connect
  • 应用 Apply
  • Package
  • 执行 Execute

相关链接资源

  • Github : https://github.com/superduper-io/superduper
  • 文档 : https://docs.superduper.io
  • 博客: https://blog.superduper.io
  • 网站: https://superduper.io
  • 模板 : https://docs.superduper.io/docs/category/templates
  • Slack: https://join.slack.com/t/superduper-public/shared_invite/zt-1yodhtx8y-KxzECued5QBtT6JFnsSNrQ
  • Youtube : https://www.youtube.com/channel/UC-clq9x8EGtQc6MHW0GF73g
  • 领英 : https://www.linkedin.com/company/superduper-io"
  • 许可证 - Apache 2.0
  • 招聘:https://join.com/companies/superduper

二、安装

必需:确保您已安装 Python 3.10+。
安装基本包:

pip install superduper-framework >= 0.6.0

安装您数据后端的插件:

# at least one or more of the following:
pip install superduper-mongodb >= 0.6.0
# or
pip install superduper-sql >= 0.6.0
# or
pip install superduper-snowflake >= 0.6.0

安装适用于您用例的附加插件(可选):

pip install superduper-<plugin_name>

三、基本用法

Connect

db = superduper('mongodb|postgres|mysql|sqlite|duckdb|snowflake://<your-db-uri>')

Apply

listener = MyLLM('self_hosted_llm', architecture='llama-3.2', postprocess=my_postprocess).to_listener('documents', key='txt')
db.apply(listener)

Package

application = Application('my-analysis-app', components=[listener, vector_index])
template = Template('my-analysis', component=app, substitutions={'documents': 'table'})
template.export('my-analysis')

Execute

query = db['documents'].like({'txt', 'Tell me about Superduper'}, vector_index='my-index').select()
query.execute()

Superduper 可在任何地方运行;您也可以 联系我们 了解更多关于将 Superduper 工作流程大规模投入生产的企业平台的信息。


四、更多Superduper说明

Superduper支持什么?

Superduper足够灵活,可以支持广泛的AI技术和范式。我们在pluginstemplates目录中提供了一系列预构建的功能。特别是,当AI和数据需要以持续和紧密集成的形式交互时,Superduper表现得尤为出色。以下是一些示例,您可以从我们的模板中进行尝试:

  • 语义多模态向量搜索 (图片, 文本, 视频)
  • 检索增强生成 具有特殊要求(数据获取涉及语义搜索以及业务规则和预处理)
  • LLM finetuning on database hosted data
  • 使用多模态数据进行迁移学习
    我们正在寻找热情的开发者,以贡献到Superduper开源中提供的精彩预构建模板和工作流程的库。请加入讨论,通过贡献问题和拉取请求!

核心功能

  • 创建一个超级超级数据-AI 连接/数据层,由您自己的
  • 数据后端(数据库/数据湖/数据仓库)
  • 元数据存储(与databackend相同或不同)
  • 工件存储(用于存储大对象)
  • 计算实现
  • 使用声明式编程模型构建复杂的功能单元(组件),这些单元与您的数据后端中的数据紧密集成,通过一组简单的原语和基类实现。
  • 构建更大的功能单元,将多个相互关联的 Component 实例封装到 AI 数据 Application
  • 重复使用经过实战考验的 ComponentModelApplication 实例,通过 Template 为开发者提供一个容易入手的起点,以便进行困难的 AI 实现
  • 一种透明、可读、网络友好且高度可移植的序列化协议,“Superduper-protocol”,用于通信实验结果,使 Application 线程和版本易于跟踪,并从AI世界到数据库/类型化数据世界的优雅过渡。
  • 使用 Model 实例的输出以及主数据后端数据组合执行查询,以启用最新一代的 AI-数据应用,包括所有类型的向量搜索、RAG 以及更多更多。

关键优势

  • 极大的灵活性
    结合任何基于Python的AI模型,与最成熟、经过实战考验的数据库和仓库进行集成;Snowflake、MongoDB、Postgres、MySQL、SQL Server、SQLite、BigQuery和Clickhouse都受到支持。
  • 无缝集成避免MLOps
    去除实现MLOps的需求,使用声明式和组合式的Superduper组件,这些组件指定了模型和数据应达到的最终状态。
  • 提高代码的可重用性和可移植性
    将组件打包为模板,公开所需的键参数,以便在您的社区和组织中重用和通信AI应用程序。
  • 成本节省
    实现无需专用向量数据库的向量搜索和嵌入生成。轻松地在自托管模型和API托管模型之间切换,无需进行重大代码更改。
  • 无需额外努力即可迁移到生产环境
    Superduper的REST API允许安装的模型无需额外开发工作即可提供服务。为了实现企业级可扩展性、安全措施、安全性和日志记录,使用Superduper创建的应用程序和工作流程可以一键部署到Superduper企业。

一个优雅的更新模式来更新已应用的组件

这意味着更改深层次的 Component 中的提示或参数不会意味着
从头开始启动所有组件。这也为回滚奠定了基础
并且版本固定。


利用 Template 类的智能表单构建器

这将允许开发者将他们的应用程序作为无代码界面进行展示。


基于Python原生类型注解的序列化

from superduper import typing as tclass MyPDF:path: t.Filemy_func: t.Blobmy_other_func: t.Pickle

社区与获取帮助

如果您有任何问题、疑问、评论或想法:


当前支持的数据存储

  • MongoDB
  • MongoDB Atlas
  • Snowflake
  • PostgreSQL
  • MySQL
  • SQLite
  • DuckDB
  • Google BigQuery
  • Microsoft SQL Server (MSSQL)
  • ClickHouse

2025-04-16(三)

http://www.xdnf.cn/news/199.html

相关文章:

  • Java面试中问单例模式如何回答
  • 我的gittee仓库
  • LLaMA Factory多模态微调实践:微调Qwen2-VL构建文旅大模型
  • 【国家能源集团生态协作平台-注册/登录安全分析报告】
  • 操作系统 第四章 文件管理
  • 施磊老师基于muduo网络库的集群聊天服务器(二)
  • 十天借助 Trae 实现 “幸运塔塔屋” 小程序时光记忆功能之旅
  • Xcode16 调整 Provisioning Profiles 目录导致证书查不到
  • 多模态记忆融合:基于LSTM的连续场景生成——突破AI视频生成长度限制
  • Orgin为柱状图加趋势线
  • 零基础上手Python数据分析 (17):[案例实战] 电商销售数据分析 - 从数据到洞察的全流程演练
  • Docker容器虚拟化存储架构
  • 关于EXPLAIN ANALYZE 工具的解析及使用方法(AI)
  • 《深入探秘JavaScript原型链与继承机制:解锁前端编程的核心密码》
  • 【python报错解决训练】
  • 阿里云镜像加速仅支持阿里云产品了
  • ChatUI vs Ant Design X 技术选型对比
  • MODBUS TCP 转 CANOpen
  • Kaggle-Bag of Words Meets Bags of Popcorn-(二分类+NLP+Bert模型)
  • Mac 选择下载安装工具 x86 还是 arm64 ?
  • gl-matrix 库简介
  • 【java 13天进阶Day06】Map集合,HashMapTreeMap,斗地主、图书管理系统,排序算法
  • 实验2:turtle 库绘制进阶图形
  • Linux服务器配置Anaconda环境、Pytorch库(图文并茂的教程)
  • java基础从入门到上手(九):Java - List、Set、Map
  • 每天学一个 Linux 命令(20):find
  • 23种设计模式-创建型模式之抽象工厂模式(Java版本)
  • 【含文档+PPT+源码】基于Python的股票数据可视化及推荐系统的设计与实现
  • Oracle 11g通过dg4odbc配置dblink连接PostgreSQL
  • 从头学 | 目标函数、梯度下降相关知识笔记(一)