当前位置: 首页 > news >正文

Opik: 评估、测试和监控 LLM 应用

GitHub:https://github.com/comet-ml/opik

更多AI开源软件:发现分享好用的AI工具、AI开源软件、AI模型、AI变现 - 小众AI

Opik 是一个用于评估、测试和监控 LLM 应用程序的开源平台。由 Comet 建造。

从 RAG 聊天机器人到代码助手,再到复杂的代理管道等等,通过跟踪、评估和仪表板构建运行得更好、更快、更便宜的 LLM 系统。

主要功能

  • 开发者:

    • 描图:在开发和生产期间跟踪所有 LLM 调用和跟踪(快速入门、集成)
    • 附注:通过使用 Python SDK 或 UI 记录反馈分数来注释您的 LLM 调用。
    • 操场:在 prompt playground 中尝试不同的提示和模型。
  • 评估:自动化 LLM 申请的评估过程:

    • 数据集和实验:存储测试用例并运行实验(数据集、评估您的 LLM 应用程序)
    • LLM 作为判断指标:使用 Opik 的 LLM 作为复杂问题的判断指标,例如幻觉检测、审核和 RAG 评估(答案相关性、上下文精度
    • CI/CD 集成:使用我们的 PyTest 集成将评估作为 CI/CD 管道的一部分运行
  • 生产监控:

    • 记录您的所有生产跟踪:Opik 旨在支持大量跟踪,从而轻松监控您的生产应用程序。即使是小型部署,每天也可以提取超过 4000 万条跟踪!
    • 监控控制面板:在 Opik 控制面板中查看您的反馈分数、跟踪计数和令牌随时间的变化。
    • 在线评估指标:使用 LLM 作为 Judge 指标轻松对所有生产跟踪进行评分,并借助 Opik 的在线评估指标识别生产 LLM 应用程序的任何问题

安装和使用

🛠️ 安装

Opik 可作为完全开源的本地安装使用,也可以使用 Comet.com 作为托管解决方案。 开始使用 Opik 的最简单方法是在 comet.com 创建一个免费的 Comet 帐户。

如果您想自托管 Opik,可以通过克隆存储库并使用 Docker Compose 启动平台来实现:

在 Linux 或 Mac 上执行以下作:

# Clone the Opik repository
git clone https://github.com/comet-ml/opik.git# Navigate to the repository
cd opik# Start the Opik platform
./opik.sh

在 Windows 上执行以下作:

# Clone the Opik repository
git clone https://github.com/comet-ml/opik.git# Navigate to the repository
cd opik# Start the Opik platform
powershell -ExecutionPolicy ByPass -c ".\opik.ps1"

使用 或 选项对问题进行故障诊断。--help--info​

一切准备就绪并运行后,您现在可以在浏览器上访问 localhost:5173!

🏁 开始使用

要开始使用,您需要先安装 Python SDK:

pip install opik

安装 SDK 后,您可以通过运行以下命令对其进行配置:opik configure​

opik configure

这将允许您通过设置正确的本地服务器地址在本地配置 Opik,或者如果您使用的是云平台,则通过设置 API 密钥

提示

您还可以从 Python 代码中调用该方法,以将 SDK 配置为在本地安装上运行。opik.configure(use_local=True)​

现在,您可以开始使用 Python 开发工具包记录跟踪了。

📝 日志记录跟踪

最简单的入门方法是使用我们的集成之一。Opik 支持:

集成描述文档
开放人工智能所有 OpenAI LLM 调用的日志跟踪文档
LiteLLM使用 OpenAI 格式调用任何 LLM 模型文档
LangChain 语言链所有 LangChain LLM 调用的日志跟踪文档
草垛所有 Haystack 调用的日志跟踪文档
所有 Anthropic LLM 调用的日志跟踪文档
基岩所有 Bedrock LLM 调用的日志跟踪文档
船员人工智能所有 CrewAI 调用的日志记录文档
深度seek所有 DeepSeek LLM 调用的日志跟踪文档
DSPy所有 DSPy 运行的日志跟踪文档
双子座所有 Gemini LLM 调用的日志跟踪文档
格罗克所有 Groq LLM 调用的日志跟踪文档
护栏所有 Guardrails 验证的日志跟踪文档
教练使用 Instructor 进行的所有 LLM 调用的日志跟踪文档
语言图所有 LangGraph 执行的日志跟踪文档
骆驼指数所有 LlamaIndex LLM 调用的日志跟踪文档
奥拉马所有 Ollama LLM 调用的日志跟踪文档
Predibase微调和提供开源大型语言模型文档
Pydantic 人工智能微调和提供开源大型语言模型文档
拉格斯PydanticAI 是一个 Python 代理框架,旨在构建生产应用程序文档
屈臣氏所有 watsonx LLM 调用的日志跟踪文档

提示

如果您使用的框架未在上面列出,请随时打开一个 issue 或提交 PR 与集成。

如果您没有使用上述任何框架,您还可以使用函数 decorator 来记录跟踪:track​

import opikopik.configure(use_local=True) # Run locally@opik.track
def my_llm_function(user_question: str) -> str:# Your LLM code herereturn "Hello"

提示

track decorator 可以与我们的任何集成结合使用,也可以用于跟踪嵌套函数调用。

🧑 ⚖️ LLM as a Judge 指标

Python Opik SDK 包含许多 LLM 作为判断指标,以帮助您评估 LLM 应用程序。在指标文档中了解更多信息。

要使用它们,只需导入相关指标并使用函数:score​

from opik.evaluation.metrics import Hallucinationmetric = Hallucination()
score = metric.score(input="What is the capital of France?",output="Paris",context=["France is a country in Europe."]
)
print(score)
http://www.xdnf.cn/news/517411.html

相关文章:

  • 进程相关概念总结
  • Windows系统各版本环境变量
  • # 08_Elastic Stack 从入门到实践(八)---2
  • 关于文件分片的介绍和应用
  • Linux基础第三天
  • 例举3种强制类型转换和2种隐式
  • |从零开始的Pyside2界面编程| 环境搭建以及第一个ui界面
  • 系统思考:IT企业项目困境分析
  • 基于Java+MySQL+Servlet的留言系统开发全解析
  • 电子电路:怎么理解电子在导体中的热运动?
  • C++数组详解:一维和多维数组的定义、初始化、访问与遍历
  • 算法优化——以“LCR 080. 组合”为例
  • React Native打包报错: Task :react-native-picker:verifyReleaseResources FAILE
  • IIS入门指南:原理、部署与实战
  • 电动车仪表上的数字怎么来的,想知道吗?
  • leetcode3546. 等和矩阵分割 I- medium
  • uniapp中的easycom工作机制
  • Flask快速入门和问答项目源码
  • ​在 ASP.NET 中,HTTP 处理程序(HttpHandler)是处理 HTTP 请求的核心组件​
  • 【Bluedroid】蓝牙HID DEVICE 报告发送与电源管理源码解析
  • Python 中 if 和 else 基础知识的详解和使用
  • 中级统计师-统计学基础知识-第四章 假设检验
  • 【老马】离线版金融敏感信息加解密组件开源项目 encryption-local
  • python打卡day29
  • spark数据处理练习题详解【下】
  • 【simulink】IEEE33节点系统潮流分析模型
  • 2025年全国青少年信息素养大赛C++小学全年级初赛试题
  • MyBatis框架(入门)
  • 【java多线程】线程间通信-利用wait和notify轮流按序打印奇数和偶数
  • 一文读懂-嵌入式Ubuntu平台