当前位置: 首页 > ds >正文

中文分词器之结巴分词

gihub仓库以及有各种语言的分词实现

解决场景

1、解决搜索时通过中文分词器拿到结果然后匹配是否命中了敏感词库

maven依赖

 <properties><java.version>17</java.version><huban.version>1.0.2</huban.version></properties><!--  https://github.com/huaban/jieba-analysis      --><dependency><groupId>com.huaban</groupId><artifactId>jieba-analysis</artifactId><version>${huban.version}</version></dependency>

SEARCH模式

(适合 查询阶段(保证搜索召回)) 适合搜索使用

 /*** 原句: 我来到北京清华大学* 分词结果:* word=我, start=0, end=1* word=来到, start=1, end=3* word=北京, start=3, end=5* word=清华大学, start=5, end=9*/@Testpublic void testSegModeSearch() {JiebaSegmenter segmenter = new JiebaSegmenter();//        String sentence = "我来到北京清华大学";String sentence = "小明硕士毕业于中国科学院计算所";System.out.println("原句: " + sentence);// 精确搜索模式List<SegToken> tokens = segmenter.process(sentence, JiebaSegmenter.SegMode.SEARCH);System.out.println("分词结果:");for (SegToken token : tokens) {System.out.printf("word=%s, start=%d, end=%d%n",token.word, token.startOffset, token.endOffset);}}

INDEX模式

(适合 索引阶段(构建倒排索引)。) 模式 适合构建索引 因为会把长词更加细分
/**分词结果:word=小明, start=0, end=2word=硕士, start=2, end=4word=毕业, start=4, end=6word=于, start=6, end=7word=中国, start=7, end=9word=科学, start=9, end=11word=学院, start=10, end=12word=科学院, start=9, end=12word=中国科学院, start=7, end=12word=计算, start=12, end=14word=计算所, start=12, end=15*/@Testpublic void testSegModeIndex() {JiebaSegmenter segmenter = new JiebaSegmenter();String sentence = "小明硕士毕业于中国科学院计算所";List<SegToken> tokens = segmenter.process(sentence, JiebaSegmenter.SegMode.INDEX);System.out.println("分词结果:");for (SegToken token : tokens) {System.out.printf("word=%s, start=%d, end=%d%n",token.word, token.startOffset, token.endOffset);}}

使用自定义词库

dicts/jieba.dict

中国科学院计算所 3 ns
/*** https://www.cnblogs.com/xuchen163/p/13444973.html?utm_source=chatgpt.com* 使用自定义词库*/@Testpublic void testSegMode() {JiebaSegmenter segmenter = new JiebaSegmenter();String sentence = "小明硕士毕业于中国科学院计算所";String resultStr = segmenter.process(sentence, JiebaSegmenter.SegMode.INDEX).toString();System.out.println("-------------------切到的词:"+resultStr);Path path = Paths.get(new File( getClass().getClassLoader().getResource("dicts/jieba.dict").getPath() ).getAbsolutePath() ) ;//加载自定义的词典进词库WordDictionary.getInstance().loadUserDict( path ) ;//重新分词segmenter = new JiebaSegmenter();System.out.println(segmenter.process( sentence , JiebaSegmenter.SegMode.INDEX).toString());System.out.printf(resultStr);}

http://www.xdnf.cn/news/19857.html

相关文章:

  • GPT-Realtime 弹幕TTS API 低延迟集成教程
  • leetcode111. 二叉树的最小深度
  • 2025华为最值得入的耳机,真的赢麻了!
  • golang 依赖管理
  • 【C++详解】C++11(三) 可变参数模板、包扩展、empalce系列接⼝、新的类功能
  • 大数据开发环境搭建(Linux + Hadoop + Spark + Flink + Hive + Kafka)
  • ELK 统一日志分析系统部署与实践指南(下)
  • HDFS读写机制深度解析:分布式存储的核心奥秘
  • 下载ubuntu镜像下载
  • 试用Augment编写python脚本实现智能家居3D环境交互响应
  • Elasticsearch创建索引分片和副本大小建议
  • Cloudflare安全规则实用指南:从路径拦截到IP限制的10个经典范例
  • 第5节:分布式文件存储
  • DeepL Translate在线工具测评:精准翻译技术文档与学术论文,支持多格式文档上传保留原格式
  • 3D语义地图(3D Semantic Mapping)研究现状
  • Docker CI/CD 自动化部署配置指南
  • 移动端富文本markdown中表格滚动与页面滚动的冲突处理:Touch 事件 + 鼠标滚轮精确控制方案
  • Android把源Bitmap中心缩放到固定宽高的尺寸,Kotlin
  • 【C语言进阶】指针进阶_数组指针
  • Corrosion: 2靶场渗透
  • B样条曲线节点消去方法介绍
  • SylixOS 下的信号系统
  • Python面试题及详细答案150道(91-100) -- 迭代器与生成器篇
  • 鸿蒙HarmonyOS应用开发者认证:抢占万物智联时代先机
  • 净利润超10亿元,智能类产品18倍增长!顾家家居2025年半年报业绩:零售增长强劲,整家定制多维突破,全球深化布局!|商派
  • Mysql安全之 TDE ,列加密,审计日志
  • Watt Toolkit下载安装并加速GitHub
  • AI 時代的白帽與黑帽 SEO:最佳實踐與趨勢解析
  • form表达和实体类通常有什么不同
  • STM32之SPI详解