当前位置: 首页 > web >正文

Point-wise、Pair-wise、List-wise区别

在Information Retrieval领域一般按照相关度进行排序。比较典型的是搜索引擎中一条查询query,将返回一个相关的文档document,然后根据(query,document)之间的相关度进行排序,再返回给用户。而随着影响相关度的因素变多,使用传统排序方法变得困难,人们就想到通过机器学习来解决这一问题,这就导致了LRT的诞生。

Ranking模型可以粗略分为基于相关度和机遇重要性进行排序。

  • 基于相关度的模型,通常利用query和doc之间的词共现特性(如布尔模型)、VSM(如TFIDF、LSI等)、概率排序思想(BM25、LMIR)等。
  • 基于重要性的模型,利用的是doc本身的重要性,如pageRank、TructRank等。
    这篇文章总结的很好

Point-wise

<Point wise ranking 类似于回归>
Point wise ranking is analogous to regression. Each point has an associated rank score, and you want to predict that rank score. So your labeled data set will have a feature vector and associated rank score given a query
IE: {d1, r1} {d2, r2} {d3, r3} {d4, r4}
where r1 > r2 > r3 >r4

  • Pointwise方法是通过近似为回归问题解决排序问题,输入的单条样本为得分-文档,将每个查询-文档对的相关性得分作为实数分数或者序数分数,使得单个查询-文档对作为样本点(Pointwise的由来),训练排序模型。预测时候对于指定输入,给出查询-文档对的相关性得分。

Pair-wise

<Pairwise ranking 类似于分类>
Pairwise ranking is analogous to classification. Each data point is associated with another data point, and the goal is to learn a classifier which will predict which of the two is “more” relevant to a given query.
IE: {d1 > d2} {d2 > d3} {d3 > d4}

  • Pairwise方法是通过近似为分类问题解决排序问题,输入的单条样本为标签-文档对。对于一次查询的多个结果文档,组合任意两个文档形成文档对作为输入样本。即学习一个二分类器,对输入的一对文档对AB(Pairwise的由来),根据A相关性是否比B好,二分类器给出分类标签1或0。对所有文档对进行分类,就可以得到一组偏序关系,从而构造文档全集的排序关系。该类方法的原理是对给定的文档全集S,降低排序中的逆序文档对的个数来降低排序错误,从而达到优化排序结果的目的。

List-wise

Listwise排序是将整个item序列看作一个样本,通过直接优化信息检索的评价方法和定义损失函数两种方法实现。

  • Listwise方法是直接优化排序列表,输入为单条样本为一个文档排列。通过构造合适的度量函数衡量当前文档排序和最优排序差值,优化度量函数得到排序模型。由于度量函数很多具有非连续性的性质,优化困难。
http://www.xdnf.cn/news/11392.html

相关文章:

  • 【C++面向对象】C++图书管理系统 (源码)【独一无二】
  • 华为VRP系统简介
  • 基于STM32的NRF24L01 2.4G通讯模块的驱动实验(HAL库)
  • MeeGo的前世今生和诺基亚的何去何从
  • linux中的jobs命令,jobs命令_Linux jobs 命令用法详解:显示Linux中的任务列表及任务状态...
  • sparkling-water的介绍与实践(command line)
  • EPSON RX8010SJ RTC 调试笔记之七, 频率停止检测功能(Frequency Stop Detection Function)和频率输出功能 (FOUT Function)
  • CodeIgniter Composer Installer:简化你的开发流程
  • 数据库相关中间件收录集
  • TCP/IP网络层ip协议实现(lwip)
  • C# 常用的正则表达式
  • 深入了解:Java中BigDecimal比较大小的方法_bigdecimal compareto
  • 红客联盟是什么?红客需要传承!
  • 工作经验总结之C语言关键字的作用、特性和使用方式
  • OCCT基础
  • 高性能内存对象缓存
  • 从零开始学C--4初识操作符
  • 什么是L298N
  • unbuntu 命令汇总
  • FastMCP vs MCP:协议标准与实现框架的协同
  • virtualbox 下载安装
  • 关于 TRTC (实时音视频通话模式)在我司的实践
  • Java——位图
  • AC/DC、DC/DC转换器基础指南(一)
  • html点击按钮出现下拉框
  • 信息学奥赛一本通 1306:最长公共子上升序列 | OpenJudge NOI 2.6 2000:最长公共子上升序列
  • 8-Docker网络命令之disconnect
  • X11流程解读
  • Android ANR 实现机制详解
  • 信息安全基础:Host与HSM通信科普