当前位置: 首页 > ops >正文

什么是文本相似对比算法,原理是什么

什么是文本相似对比算法,原理是什么

目录

    • 什么是文本相似对比算法,原理是什么
      • 编辑距离算法
      • 余弦相似度算法
    • 词频向量确定:两个向量怎么获取的,
      • 向量长度:按长的句子出现词语数量确定
    • 其他常见且有效的文本相似对比算法 :J,accard相似度算法,Smith-Waterman算法
      • Jaccard相似度算法
      • Smith-Waterman算法
      • Word2Vec + 余弦相似度
      • BERT + 余弦相似度

文本相似对比算法有多种,常见的有编辑距离算法、余弦相似度算法等。

编辑距离算法

  • 原理:编辑距离,也叫莱文斯坦距离,是指将一个字符串变换为另一个字符串所需要的最少编辑操作次数。编辑操作包括插入、删除和替换字符。通过计算两个字符串之间的编辑距离,可以衡量它们的相似程度,编辑距离越小,说明两个字符串越相似。
  • 案例:计算“horse”和“ros”的编辑距离。
    • 首先,初始化一个二维数组,用于存储中间结果。数组的行数为“horse”的长度加1,列数为“ros”的长度加1。
    • 然后,填充数组的第一行和第一列,表示空字符串与“horse”或“ros”的编辑距离,即字符的插入或删除次数。
    • 接着,从数组的第二行第二列开始,依次计算每个位置的编辑距离。对于当前位置(i, j),比较“horse”的第i - 1个字符和“ros”的第j - 1个字符是否相等。如果相等,当前位置的编辑距离等于左上角位置(i - 1, j - 1)的编辑距离;如果不相等,当前位置的编辑距离等于左边(i, j - 1)、上边(i - 1, j)和左上角(i - 1, j - 1)三个位置中编辑距
http://www.xdnf.cn/news/4671.html

相关文章:

  • 《100天精通Python——基础篇 2025 第16天:异常处理与调试机制详解》
  • 【言语理解】片段阅读之细节判断(9)
  • C#生成二维码和条形码
  • 在c++中static用在全局和局部有什么区别
  • Qt开发经验 --- 避坑指南(7)
  • 【链表扫盲】FROM GPT
  • P2392 kkksc03考前临时抱佛脚
  • mongodb升级、改单节点模式
  • 为什么虚拟环境下包找错路径?
  • 堡塔云WAF免费WEB防火墙,从搭建到应用
  • k8s监控方案实践(一):部署Prometheus与Node Exporter
  • 排序算法-冒泡排序
  • [数据库之十三] 数据库索引之散列索引
  • 如何在macOS上通过SSHFS挂载远程文件系统
  • 室内无人机自主巡检解决方案-自主方案
  • 批量清洗与修改 YOLO 标签:删除与替换指定类别
  • uniapp index.html怎么改都不生效
  • Redis如何实现分布式锁
  • 论文学习:《RNADiffFold:使用离散扩散模型的生成RNA二级结构预测》
  • 中级网络工程师知识点2
  • 【se-res模块学习】结合CIFAR-10分类任务学习
  • 嵌入式学习--江协51单片机day3
  • 问题 | 当前计算机视觉迫切解决的问题
  • spring中RequestContextHolder
  • Wubuntu安装时创建分区失败解决方案
  • 预渲染 Prerender
  • 图漾相机——Sample_V2示例程序(待补充)
  • 【UltralyticsYolo11图像分类完整项目-03】Onnx版Cpu预测C++实现
  • 解构语言模型推理过程,超越最终答案:通过分析子思考路径提升大语言模型推理准确性的方法研究
  • FastExcel 本地开发和Linux上上传Resource文件的差异性