Ai大模型应用测试点分享
需求案例:
有个引导用户进行每日打卡的功能,需要调用AI大模型(如gpt、deepseek等),结合用户过往选择的目标、状态、历史打卡记录等信息,让AI生成高质量的引导语,更精准的引导用户去完成当日的打卡;
设计逻辑:
产品会提前去相应的大模型平台训练好他预期的prompt(提示词),然后后端将这些prompt作为参数调用AI大模型,其中prompt里面会有一些变量字段,需要后端结合业务数据传入到prompt里面,再去调用AI
测试点:
一、核对服务端的传参(prompt)
1、检查服务端传给AI的prompt是否与产品提供的一致
2、逐一检查prompt里面的变量参数,服务端是否有取对,如:
1)用户的目标/状态等发现变化时,服务端是否有拿最新的
2)用户没有历史记录等情况时,prompt里面的字段为空或者不传是否会异常
3、检查用户请求一次接口,服务端是否会重复请求AI(如果重复请求,会浪费资源)
测试方式:
让开发把传参打印到日志上,请求对应接口后,观察日志打印的内容
二、核对服务端是否有正常处理出参(AI返回的响应结果)
1、当AI返回成功时,
1)检查服务端是否有将AI返回的结果准确无误传给移动端/前端进行展示
2)如果服务端有做一些缓存处理,需检查用户每次请求时,缓存的结果有没有做更 新,防止每次返回给用户的内容都是相同的)
3)检查同个用户每次入参都一致时,返回的结果是否重复
(AI返回的结果一般都不会重复,如果出现重复,就很大可能性是服务端处理有问题)
2、当AI返回失败/超时(需提前定义好多久算超时),
1)是否有进行重试机制(根据业务需要)
2)是否有进行兜底处理(根据业务需要,如:返回兜底内容)
3、当AI返回到一半中断时,是否也会当做失败处理,走兜底方案
测试方式:
1、要求服务端将AI返回的结果(成功/失败/超时)都打印到日志里,可以通过对比日志打印的结果和服务端在业务接口传给移动端的响应结果是否一致来验证
2、针对一些AI返回异常的场景,可以让开发协助,将超时时间设置短一些(如设置当AI返回时间超过1秒时,判断为超时);AI返回失败的场景也可以通过将对应的服务停掉来验证(这种方式比较麻烦,直接找开发协助测试好点)
三、性能测试(根据业务需要)
如果当前功能的日活跃用户量很高,那需要进行性能测试,当同时有大量用户请求接口时,调用AI服务是否正常,会不会出现服务崩溃、返回结果异常等情况;
但是这里需要注意,因为一般调用AI大模型是按次数算钱的,如果线程数很多的话,有可能会产生大量费用,这个需要提前和相关人员沟通确认是否能进行性能测试,说明风险;
这才是b站最牛的AI大模型测试全套教程,涵盖ai大模型测试开发,大模型测试用例,ai模型测试。_哔哩哔哩_bilibili