当前位置: 首页 > news >正文

Ai大模型应用测试点分享

需求案例:

有个引导用户进行每日打卡的功能,需要调用AI大模型(如gpt、deepseek等),结合用户过往选择的目标、状态、历史打卡记录等信息,让AI生成高质量的引导语,更精准的引导用户去完成当日的打卡;

设计逻辑:

产品会提前去相应的大模型平台训练好他预期的prompt(提示词),然后后端将这些prompt作为参数调用AI大模型,其中prompt里面会有一些变量字段,需要后端结合业务数据传入到prompt里面,再去调用AI

测试点:

一、核对服务端的传参(prompt)

1、检查服务端传给AI的prompt是否与产品提供的一致

2、逐一检查prompt里面的变量参数,服务端是否有取对,如:

1)用户的目标/状态等发现变化时,服务端是否有拿最新的

2)用户没有历史记录等情况时,prompt里面的字段为空或者不传是否会异常

3、检查用户请求一次接口,服务端是否会重复请求AI(如果重复请求,会浪费资源)

测试方式:

让开发把传参打印到日志上,请求对应接口后,观察日志打印的内容

二、核对服务端是否有正常处理出参(AI返回的响应结果)

1、当AI返回成功时,

1)检查服务端是否有将AI返回的结果准确无误传给移动端/前端进行展示

2)如果服务端有做一些缓存处理,需检查用户每次请求时,缓存的结果有没有做更 新,防止每次返回给用户的内容都是相同的)

3)检查同个用户每次入参都一致时,返回的结果是否重复

(AI返回的结果一般都不会重复,如果出现重复,就很大可能性是服务端处理有问题)

2、当AI返回失败/超时(需提前定义好多久算超时),

1)是否有进行重试机制(根据业务需要)

2)是否有进行兜底处理(根据业务需要,如:返回兜底内容)

3、当AI返回到一半中断时,是否也会当做失败处理,走兜底方案

测试方式:

1、要求服务端将AI返回的结果(成功/失败/超时)都打印到日志里,可以通过对比日志打印的结果和服务端在业务接口传给移动端的响应结果是否一致来验证

2、针对一些AI返回异常的场景,可以让开发协助,将超时时间设置短一些(如设置当AI返回时间超过1秒时,判断为超时);AI返回失败的场景也可以通过将对应的服务停掉来验证(这种方式比较麻烦,直接找开发协助测试好点)

三、性能测试(根据业务需要)

如果当前功能的日活跃用户量很高,那需要进行性能测试,当同时有大量用户请求接口时,调用AI服务是否正常,会不会出现服务崩溃、返回结果异常等情况;

但是这里需要注意,因为一般调用AI大模型是按次数算钱的,如果线程数很多的话,有可能会产生大量费用,这个需要提前和相关人员沟通确认是否能进行性能测试,说明风险;

这才是b站最牛的AI大模型测试全套教程,涵盖ai大模型测试开发,大模型测试用例,ai模型测试。_哔哩哔哩_bilibili

http://www.xdnf.cn/news/793855.html

相关文章:

  • 远程终端登录和桌面访问(嵌入式开发)
  • Flowise 本地部署文档及 MCP 使用说明
  • 嵌入式学习 D32:系统编程--进程间通信IPC
  • 数字化时代养老机构运营实训室建设方案:养老机构运营沙盘实训模块设计
  • 直接插入排序
  • CppCon 2014 学习:The New Old Thing
  • invalid domain [10.230.90.11:2025] was specified for this cookie异常原因分析
  • 小黑一步步探索大模型应用:langchain中AgentExecutor的call方法初探demo(智能体调用)
  • OD 算法题 B卷【通过软盘拷贝文件】
  • C++结构体初始化方式区别
  • Windows下将Nginx设置注册安装为服务方法!
  • 爱普生有源晶振SG2520CBN在通信基站中的应用
  • UVa12298 Super Joker II
  • AI一周事件(2025年5月27日-6月2日)
  • JavaScript 递归构建树形结构详解
  • linux学习第19、20天(父子进程)
  • 选择正确的电平转换解决方案
  • HertzBeat的告警规则如何配置?
  • Flowith,有一种Agent叫无限
  • MyBatis 深度解析:高效 Java 持久层框架实践指南(基于 3.5.10)
  • 黑马程序员TypeScript课程笔记—class篇
  • windows环境下Ubuntu系统怎么重置root密码
  • 鸿蒙5.0项目开发——横竖屏切换开发
  • 深入解析 Java 中的 synchronized:从使用到底层原理的全面详解
  • C++中锁和原子操作的区别及取舍
  • 楼宇自控系统联动暖通空调:解密建筑环境舒适度提升路径
  • 域自适应 (Domain Adaptation,DA)基础
  • JS对数据类型的检测
  • TitanIDE智算版:一键开启云端算法开发环境
  • Servlet 生命周期