当前位置: 首页 > news >正文

NLP 分词技术学习

文章目录

  • 分词
    • 1. 分词方法
    • 2. 分词工具
    • 3. 分词难点

分词

分词是将连续的中文字符串序列切分成有意义的词语序列的过程,是 NLP 的基础任务之一。需要掌握以下内容:

1. 分词方法

  • 基于规则/词典的方法(字符串匹配)

    • 正向最大匹配法(MM):从左到右扫描文本,匹配词典中最长的词。
    • 逆向最大匹配法(RMM):从右到左扫描文本,匹配词典中最长的词。
    • 双向最大匹配法:结合正向和逆向匹配,选择更合理的切分方式。
      • 更合理:比如选择词数更少,或者单个词的长度最少的方法。
    • 最短路径分词法:使切分后的词数最少。
  • 基于统计的方法

    • 隐马尔可夫模型(HMM):计算词语出现的概率,选择最优切分。
    • 条件随机场(CRF):考虑上下文信息,优化分词结果。
    • 互信息(MI):计算相邻字共现概率,判断是否成词。
  • 基于深度学习的方法

    • BiLSTM-CRF:结合双向LSTM和CRF,提高分词准确性。
    • BERT等预训练模型:利用Transformer架构进行端到端分词。

2. 分词工具

  • Jieba(Python):支持最大匹配、HMM、自定义词典。
  • HanLP(Java/Python):支持多种分词算法,如CRF、感知机等。
  • LTP(哈工大):支持分词、词性标注等任务。

3. 分词难点

  • 歧义切分(如“南京市长江大桥”可切分为“南京/市长/江大桥”或“南京市/长江大桥”)。
  • 未登录词识别(如新词、专有名词)。
  • 分词与NER的相互影响(如“苹果手机”是品牌名还是水果+手机?)。
http://www.xdnf.cn/news/233713.html

相关文章:

  • 【Dify系列教程重置精品版】第四章:实现Dify的 hello world
  • ISO 26262认证步骤
  • 【Java面试笔记:进阶】30.Java程序运行在Docker等容器环境有哪些新问题?
  • 楼宇智能化三、五章【期末复习】
  • 芯知识|小体积语音芯片方案WTV/WT2003H声音播放ic应用解析
  • 楼宇智能化四章【期末复习】
  • (eNSP)Smart Link配置实验
  • MicroPython for esp32s3开发HX711称重模块指南
  • rk3568 A/B系统 OAT升级 实践
  • 全面了解CSS语法 ! ! !
  • 聊一聊接口自动化测试断言处理策略
  • 用户意图驱动:GEO优化策略之内容精准匹配
  • PID中低通滤波算法的详细讲解
  • 消防岗位技能竞赛流程方案策划
  • verilog_testbench技巧
  • 逻辑回归之参数选择:从理论到实践
  • [FPGA VIDEO IP] VCU
  • Allegro23.1新功能之新型via structure创建方法操作指导
  • 20250430在ubuntu14.04.6系统上完成编译NanoPi NEO开发板的FriendlyCore系统【严重不推荐,属于没苦硬吃】
  • 两向量平行公式、向量与平面平行公式、两平面平行公式;两向量垂直公式、向量与平面垂直公式、两平面垂直公式
  • 2025年数字创意设计与图像处理国际会议 (DCDIP 2025)
  • 一种导弹追踪算法的MATLAB仿真实现
  • HTML5 新增的主要标签整理
  • 10. 你需了解的原生测试框架Unittest断言的使用
  • 开源项目[Heygem]可商用的本地运行AI数字人!支持离线运行、本地API接口调用(喂饭级安装教程)
  • ‌连续流型液氮恒温器核心特点解析
  • 望获实时Linux系统荣获人形机器人技术突破奖
  • 【Token系列】14|Prompt不是文本,是token结构工程
  • Linux远程管理
  • 第三部分:特征提取与目标检测