当前位置: 首页 > news >正文

Hutool 的 WordTree(敏感词检测)

package cn.hutool.dfa;

WordTree 继承自 HashMap<Character, WordTree>,表示一个字符到子树的映射,构成一颗“词树”(类似 Trie 树),用于快速匹配字符串中的词语(敏感词检测、关键词匹配等)。

主要特点和功能 

  • 结构是多叉树,每个节点是一个 HashMap<Character, WordTree>,键是当前字符,值是对应的子树节点。

  • endCharacterSet 存储标记某些字符作为词尾,用来判断一个词是否匹配完成。

  • charFilter 用于过滤字符,比如跳过一些停用字符(空格、标点等)。

  • 支持批量添加词 addWords,单个添加词 addWord

  • 提供多种匹配方法:

    • isMatch(String text) 判断文本是否包含树中的词。

    • match(String text) 返回匹配到的第一个词。

    • matchAll(String text) 返回所有匹配词。

  • 支持限制匹配数量和匹配策略(密集匹配、贪婪匹配)。

工作原理简述

  • 构建词树
    addWord 方法逐字符插入,如果路径不存在则新建节点,最后标记词尾字符。

  • 匹配词
    遍历文本,从每个字符开始,沿树向下匹配。如果走到词尾节点,说明匹配到一个词。

  • 字符过滤
    使用 charFilter 过滤无意义字符,忽略它们,不影响匹配。

数据演示

敏感词:

"毒品", "赌博", "枪支"

演示代码:

import cn.hutool.dfa.WordTree;
import java.util.Arrays;
import java.util.List;public class WordTreeDemo {public static void main(String[] args) {// 1. 创建词树WordTree tree = new WordTree();// 2. 添加敏感词List<String> sensitiveWords = Arrays.asList("毒品", "赌博", "枪支");tree.addWords(sensitiveWords);// 3. 待检测文本String text = "他涉嫌赌博和毒品交易,持有非法枪支。";// 4. 检测文本中是否包含敏感词boolean hasSensitive = tree.isMatch(text);System.out.println("是否包含敏感词: " + hasSensitive);// 5. 找出第一个匹配词String firstMatch = tree.match(text);System.out.println("第一个匹配的敏感词: " + firstMatch);// 6. 找出所有匹配词List<String> allMatches = tree.matchAll(text);System.out.println("所有匹配的敏感词: " + allMatches);// 7. 将敏感词替换为***String cleanText = text;for (String word : allMatches) {cleanText = cleanText.replaceAll(word, "***");}System.out.println("替换后的文本: " + cleanText);}
}

输出结果示例:

是否包含敏感词: true
第一个匹配的敏感词: 赌博
所有匹配的敏感词: [赌博, 毒品, 枪支]
替换后的文本: 他涉嫌***和***交易,持有非法***。
  • addWords 把所有敏感词加入词树。

  • isMatch 检测文本是否包含任意敏感词。

  • match 找到文本中第一个敏感词。

  • matchAll 找到文本中所有敏感词。

  • 最后用 replaceAll 把敏感词替换成 ***

补充

tree.addword和tree.addwords区别

tree.matchAllWordstree.matchAll区别

 

方法名返回类型内容用途
matchAllWordsList<FoundWord>词 + 位置 + 其他信息需要详细匹配信息的场景
matchAllList<String>只有匹配的词字符串只关心匹配词,不关心词在文本中位置
http://www.xdnf.cn/news/1211995.html

相关文章:

  • 第2章 cmd命令基础:常用基础命令(2)
  • 中国高铁从追赶到领跑的破壁之路
  • 磁盘io查看命令iostat与网络连接查看命令netstat
  • FFmpeg,如何插入SEI自定义数据
  • MidJourney精选图集与提示词生成器:AI创意灵感与高效提示词工具
  • 无监督MVSNet系列网络概述
  • 高效管理Hosts文件的终极工具
  • 【Qt开发】信号与槽(三)-> 自定义信号和槽
  • Python 程序设计讲义(46):组合数据类型——集合类型:集合间运算
  • 解决 Node.js 托管 React 静态资源的跨域问题
  • 力扣54:螺旋矩阵
  • 疯狂星期四文案网第24天运营日记
  • 永磁同步电机FOC控制----电流采样的实现
  • 【Lambda】flatMap使用案例
  • 字节跳动“扣子”(Coze)开源:AI智能体生态的技术革命
  • 从结构到交互:HTML5进阶开发全解析——语义化标签、Canvas绘图与表单设计实战
  • 微软OpenAI展开深入谈判
  • DIV 指令概述
  • 视觉语言模型在视觉任务上的研究综述
  • HTML第一次作业
  • JavaWeb 进阶:Vue.js 与 Spring Boot 全栈开发实战(Java 开发者视角)
  • 【数据结构初阶】--二叉树(四)
  • Prometheus-1--什么是Prometheus?
  • Docker网络技术深度研究与实战手册
  • C++类中动态内存分配注意手册
  • 基于springboot的零食商城的设计与实现/零食销售系统的设计与实现
  • 每日学习笔记记录(分享更新版-凌乱)
  • LeetCode 11 - 盛最多水的容器
  • Vue.js 指令系统完全指南:深入理解 v- 指令
  • python的进程、线程、锁