当前位置: 首页 > news >正文

一些模型测试中的BUG和可能解决方法

一些模型测试中的BUG和可能解决方法

模型一直重复反馈相同内容的问题查找思路

如下顺序也是排查优先级

  1. 检查提示词和上下文,保证提示词中没有类似的要求,然后再查看上下文是不是占满了token长度。
  2. 检查一下选择的model是不是本身就有这样的问题
  3. 尝试增加repeat_penalty(1.05、1.1,最大1.15或者1.2),看看是否会出现不自然的反馈。
  4. 利用frequency_penalty(0.1-0.5)减少重复使用的tokens,或者使用presence_penalty(0.1-0.5)减少上线文的重复tokens。
  5. 稍微增长一点min_p(例如增长到0.1),或者增长top_p到0.85,过滤掉一些由于低概率的tokens导致的循环。
  6. 如果temperature设置的比较高,可以尝试降低一点(例如降到0.7、0.8)

模型输出太随机相关性差

如下顺序也是排查优先级

  1. 增加temperature
  2. 降低min_p到0.05,或者更低的0.03
http://www.xdnf.cn/news/351235.html

相关文章:

  • linux系统管理
  • Java+Selenium+快代理实现高效爬虫
  • 通用外设驱动模型(四步法)
  • 探索大型语言模型的 LLM 安全风险和 OWASP 十大漏洞
  • (x ^ 2 + 2y − 1) ^ 3 − x ^ 2 * y ^ 3 = 1
  • React Native 前瞻式重大更新 Skia WebGPU ThreeJS,未来可期
  • AI客服问答自动生成文章(基于deepseek实现)
  • JAVA简单例题+抽象+继承
  • openssl中BIO的使用
  • PostgreSQL创建只读账号
  • 数据中台建设系列(五):SQL2API驱动的数据共享与服务化实践
  • 游戏引擎学习第266天:添加顶部时钟概览视图。
  • TensorFlow深度学习实战(15)——编码器-解码器架构
  • 可视化图解算法36: 序列化二叉树-I(二叉树序列化与反序列化)
  • 用 Java 实现 哲学家就餐问题
  • 数字信号处理|| 离散序列的基本运算
  • IPv6协议
  • 基于Transformer与SHAP可解释性分析的神经网络回归预测模型【MATLAB】
  • 英文单词 do、play、go 的区别
  • 大模型的RAG技术系列(二)
  • ADV7842KBCZ - 5 富利威长期稳定供应
  • MLX-Audio:高效音频合成的新时代利器
  • 【图片识别内容改名】图片指定区域OCR识别并自动重命名,批量提取图片指定内容并重命名,基于WPF和阿里云OCR识别的解决
  • wpf UserControl 更换 自定义基类
  • 三款实用电脑工具
  • 【CTFSHOW_Web入门】命令执行
  • K8S - GitLab CI 自动化构建镜像入门
  • 按位宽提取十六进制值
  • OpenCV的 ccalib 模块用于自定义标定板的检测和处理类cv::ccalib::CustomPattern()----函数calibrate
  • uniapp开发的项目上传到国内主流应用市场(华为、小米、oppo、vivo)