当前位置: 首页 > ds >正文

cider指标

cider summer

总体思路就是candidates和reference的词的TF-IDF计算相似度,再除以各自句子的TF-IDF的模长;
其中TF-IDF中的TF代表该词组在该句子中出现的频率;
IDF代表在文档库中,该词出现的频率的倒数的对数(出现频率越高,weight越低);
所以TF-IDF总体代表了词的重要性;
cider的总体思想就是如果candidates和reference中的词的重要性相似,表示candidates和reference的意思相似;

具体过程:

首先,cider的整体计算公式如下:
在这里插入图片描述
其中g代表了TF-IDF,这里的j是考虑了每张图片有多个references的情况;
首先,针对n-gram,会对词组进行划分;
如下图所示:
在这里插入图片描述
也就是如果n为4,会有四种划分方式,每种划分方式会计算一个相似度然后平均:
在这里插入图片描述

例子

接下来,有一些cider计算的例子:
需要了解一下IDF的计算原理,来了解下为什么只有一个sample的时候cider的值是0,以及所有的sample都一样的时候,cider值也是0;
因为TF-IDF中的IDF是以整个评测中的文档为基准,如何该词在每个文档中都出现了,其重要性就是0;
具体例子如下:
在这里插入图片描述
示例
假设我们有以下 3 个文档:

Document 1: “the cat sat on the mat”
Document 2: “the dog sat on the log”
Document 3: “cats and dogs are great pets”
在这里插入图片描述
在这里插入图片描述

http://www.xdnf.cn/news/8190.html

相关文章:

  • 光谱相机在地质勘测中的应用
  • leetcode2261. 含最多 K 个可整除元素的子数组-medium
  • JAVA动态生成类
  • 在政务中使用仙盟创梦工具维护曲靖市麒麟公安分局————仙盟创梦IDE
  • WordPress AI插件 新增支持一键批量自动生成WooCommerce 产品描述、产品图、产品评论
  • 开源无界 智联欧陆——仓颉计划携手OpenHarmony共绘万物互联新图景
  • Excel 密码忘记了?巧用PassFab for Excel 解密帮您找回数据!
  • AI 多 Agent 图形化开发深度解析:iVX IDE 与主流产品技术架构对比研究
  • Python项目文件组织与PyCharm实践:打造高效开发环境
  • [AI] 提升Dify工作流性能的技巧:合理安排LLM节点的位置
  • FFmpeg 超级详细安装与配置教程(Windows 系统)
  • NIFI的处理器:RouteOnContent 1.28.1
  • Matlab学习合集
  • Kubernetes上的爬虫排队术——任务调度与弹性扩缩容实战
  • Spring 面试要点深度解析
  • ABP VNext + Elasticsearch 实战:微服务中的深度搜索与数据分析
  • 系统研发进阶:如何构建系统化的技术管理知识体系
  • 在 “Linux 9“ 系统快速安装配置RabbitMQ
  • MySQL索引事务
  • 第七部分:第一节 - 数据库基础与 MySQL 入门:仓库的结构与管理语言
  • 服务器并发实现的五种方法
  • 5G 网络全场景注册方式深度解析:从信令交互到报文分析
  • Linux系统管理与编程16番外篇:PXE自动化安装部署OpenEuler24.03LTS
  • Openwrt下使用ffmpeg配合自建RTSP服务器实现推流
  • OpenHarmony外设驱动使用 (十二),User_auth
  • Java的Filter与Spring的Interceptor的比较
  • Android-MVVM框架学习总结
  • “AI+工业制造”智能化转型解决方案
  • 云原生+大数据
  • MySQL中索引最左前缀法则、索引失效情况、前缀索引、索引设计原则