当前位置: 首页 > backend >正文

ik 分词器 设置自定义词典

进入 ES 的安装目录,进入 /elasticsearch-8.10.0/plugins/ik/config/ 文件夹目录,打开 IKAnalyzer.cfg.xml 文件进行配置。
在这里插入图片描述

一、添加 自定义扩展词典
  • 扩展词:就是不想哪些词分开,让他们成为一个词,比如“蒙的全是对的”
  • 例如
进入 /elasticsearch-8.10.0/plugins/ik/config/ 文件夹目录, vim custom_word.dic,添加 蒙的全是对的

在这里插入图片描述

  • 修改配置文件
    在这里插入图片描述

  • 然后重启 ES

二、添加 自定义 停用词扩展词典
  • 停用词:有些词在文本中对语义产生不了影响。例如英文的a、 an等。或中文的”的、了等”。这样的词称为停用词。停用词经常被过滤掉,不会被进行索引。在检索的过程中,如果用户的查询词中含有停用词,系统会自动过滤掉。停用词可以加快索引的速度,减少索引库文件的大小。

  • 例如

进入 /elasticsearch-8.10.0/plugins/ik/config/ 文件夹目录, vim custom_stopword.dic,添加 heiheihei

在这里插入图片描述

  • 修改配置文件
    在这里插入图片描述

  • 然后重启 ES

三、添加 自定义 同义词(近义词)词典
  • 同义词:意思相同的,“番茄”和“西红柿”,查询“番茄”的时候,把带有“西红柿”的数据一起查出来,这种叫做同义词查询

  • 例如

进入 /elasticsearch-8.10.0/plugins/ik/config/ 文件夹目录, vim synonym.txt,添加 
儿童,青年,少年,幼年
西红柿,番茄 => 西红柿,番茄
社保,公积金 => 社保,公积金

在这里插入图片描述

  • 然后重启 ES
http://www.xdnf.cn/news/5791.html

相关文章:

  • @Component 注解:Spring 组件扫描与管理的基石
  • 如何使用 WebBrowserPassView 查看所有浏览器密码?
  • 【WordPress博客AI内容辅助生成/优化工具箱插件下载无标题】
  • 语义分割模型部署到嵌入式终端的通用操作流程
  • journalctl 日志查看工具介绍
  • istringstream的简化源码详解
  • 热部署与双亲委派
  • pclinuxos系统详解
  • 应急响应靶机——WhereIS?
  • CRM和SCRM有什么区别
  • python实现usb热插拔检测(windows)
  • Android Framework
  • LWIP传输层协议笔记
  • Git 用法总结
  • 微信小程序原生swiper高度自适应图片,不同屏幕适配,正方形1:1等比例图片轮播
  • E+H流量计与Profibus DP主站转Modbus RTU/TCP网关通讯
  • DeepSeek新玩法: RAG Chatbot 3.0测试人的新大脑
  • 深入探讨dubbo组件的实践
  • Dapp开发-如何开发一个dapp
  • Vue 2 项目中配置 Tailwind CSS 和 Font Awesome 的最佳实践
  • MYSQL之表的约束
  • rbac模型详解
  • PHP编写图书信息爬虫程序
  • 力扣451:根据字符频率排序(桶排序)
  • 快解析为TPDDNS用户提供免费替换服务
  • 小白学习Java第18天(上):mybatis
  • 994. 腐烂的橘子
  • MYSQL时间函数、group by 和partition by的区别、组内编号leetcode学习
  • GitHub 趋势日报 (2025年05月11日)
  • LeetCode热题100——链表