当前位置: 首页 > web >正文

3.4 缩略词抽取

概述

        缩略词指的是一个词或者短语的缩略形式,其通常由原词中的一些组成部分构成,同时保持原词的含义。缩略词的检测与抽取在方法上与同义词的检测与抽取类似,但是相比同义词,缩略词在文本中出现的规则往往更简单。

        不同语言缩略词的形式不同。以表音文字(如拉丁语系)和表意文字(如中文)为例。拉丁语系的缩略词形式包括contractions(简称)、crasis(元音融合)、acronyms(首字母缩写)和initialisms(首字母缩写)。而表意文字的缩略形式相对复杂,并且在自然语言处理中依赖分词算法来对其词边界进行划分,其缩略形式往往是从每个词中选取一个或者多个字组成,剩下的那些字则直接省略。

例:

Doctor,I am --> Dr,I'm(英语)
De le,de les --> Du,des(法语)
中国中央电视台-->央视

缩略词的检测与抽取

        缩略词的检测及抽取方法以模式匹配为主,但是自动抽取出的结果常常包含大量噪声,为此需要利用统计信息结合各类机器学习方法来对抽取结果进行清洗。

基于文本模式的抽取

        最常用的方法,以同义词抽取中的规则很相似。X表示原词,Y表示缩略词,例:

X(Y)        Support vector machine(SVM)
X.*(Y)        Support vector machine for gression(SVM)
Y is the abbreviation of X        SVM is the abbreviation of Support vector machine

        通过编制复杂且精细的模式能保证基于模式匹配的缩略词抽取方法的准确率,但是召回率往往较低,并且枚举长尾模式也十分困难。此外,抽取仍然可能错误,需要对抽取结果进行清洗和筛选。

抽取结果的清洗和筛选

        主要分两种:利用数据集有关缩写的统计指标进行识别;使用机器学习模型构建二元分类模型来判断。前者使用的统计指标一般包含频率、卡方检验、互信息以及最大熵等,后者需要依赖认为设计的特征,特征除了包含前面的统计指标外,也包括文本特征。缩略词判定的文本特征主要包括字符匹配程度(缩略词中是否包含全称以外的词,缩略词与全称的编辑距离,缩略词与全称的长度差异,缩略词中的字在全称中的位置等)、词性特征两类。

枚举并剪枝

        针对中文缩略词提出的一种有效办法。首先穷举目标实体名称所有的子序列,即所有可能的缩略形式,进一步排除没有在文本中出现过的或者出现次数太少的候选缩略词。书上的一个例子:

缩略词的预测

        受限于语料大小,缩略词抽取的方法能获得大量缩略词对,但是对于新登录词往往效果较差。目前的一些相关研究着眼于分析缩略词的规则,自动习得缩略词形式并进行预测。

基于规则的方法

        大致分为两种:针对特性字符和词语形式的局部规则(基于词性、位置、词之间的相互关联);依赖语言环境的全局规则。

        缩略词问题涉及的很多规则往往是很复杂且难以被明确定义的,并且相关规则需要领域专家进行编写,成本高且泛化性差,一旦遇到规则之外的情况就难以处理,导致召回率很低。此外,可能出现在同一个全称适用多个匹配规则的情况,此时规则的选择或者融合往往十分困难。但总体上说,规则是可控、可解释的。

条件随机场

        绝大部分缩略词都由全称中包含的字符组成,并且字符间的顺序往往会保留。借助这一特性,可以将其转化为序列标注问题。条件随机场(CRF)是较早运用于进行缩略词生成的序列标注模型。

CRF极简引用

深度学习

        在神经网络方法中,词或字符被表示为一个低维稠密空间中的向量,借助于典型网络结构(CNN、RNN等)抽取字词之间的组合特征。深度神经网络往往能够取得更优异的性能,但是与神经网络的通病一样,可解释性差。

http://www.xdnf.cn/news/18634.html

相关文章:

  • 表格识别技术:通过图像处理与深度学习,将非结构化表格转化为可编辑结构化数据,推动智能化发展
  • Vue Teleport 原理解析与React Portal、 Fragment 组件
  • GEO优化专家孟庆涛发布:《GEO内容优化的四大黄金标准》
  • 普中烧录软件 PZISP,打不开,提示“应用程序无法启动,因为应用程序并行配置不正确.....”
  • 学习嵌入式第三十五天
  • Linux应用软件编程---网络编程1(目的、网络协议、网络配置、UDP编程流程)
  • APP Usage『安卓』:比系统自带强10倍!手机应用使用时长精确到秒
  • MySQL - 视图,事务和索引
  • java8 findAny()、findFirst()空指针NullPointerException问题
  • ​维基框架 (Wiki Framework) 1.1.0 版本发布​ 提供多模型AI辅助开发
  • 图像指针:高效处理像素数据的核心工具
  • Linux虚拟机安装FTP
  • AtCoder Beginner Contest 419(ABCDEF)
  • Python Flask快速实现163邮箱发送验证码
  • 防火墙双机热备
  • 数据结构之深入探索快速排序
  • docker 打包
  • syn和quote的简单使用——生成结构体
  • 网络编程8.22
  • C++---多态(一个接口多种实现)
  • YOLO算法:实时目标检测核心技术解析
  • CMake进阶:Ninja环境搭建与加速项目构建
  • UVa1472/LA4980 Hanging Hats
  • webpack开发模式与生产模式(webpack --mode=development/production“, )
  • ubuntu使用fstab挂载USB设备(移动硬盘)
  • Jenkins用户授权管理 企业级jenkins授权策略 jenkins用户权限分配
  • 【go语言】使用Wails开发一款现代化文本编辑器 - 从0到1的实践指南
  • 机器学习之线性回归:原理、实现与实践
  • 动态代理保姆级别
  • 移动应用青少年模式开发成本解析:原生、Flutter与Uniapp方案对比-优雅草卓伊凡