ik 分词器 设置自定义词典
进入 ES 的安装目录,进入 /elasticsearch-8.10.0/plugins/ik/config/ 文件夹目录,打开 IKAnalyzer.cfg.xml 文件进行配置。
一、添加 自定义扩展词典
- 扩展词:就是不想哪些词分开,让他们成为一个词,比如“蒙的全是对的”
- 例如
进入 /elasticsearch-8.10.0/plugins/ik/config/ 文件夹目录, vim custom_word.dic,添加 蒙的全是对的
-
修改配置文件
-
然后重启 ES
二、添加 自定义 停用词扩展词典
-
停用词:有些词在文本中对语义产生不了影响。例如英文的a、 an等。或中文的”的、了等”。这样的词称为停用词。停用词经常被过滤掉,不会被进行索引。在检索的过程中,如果用户的查询词中含有停用词,系统会自动过滤掉。停用词可以加快索引的速度,减少索引库文件的大小。
-
例如
进入 /elasticsearch-8.10.0/plugins/ik/config/ 文件夹目录, vim custom_stopword.dic,添加 heiheihei
-
修改配置文件
-
然后重启 ES
三、添加 自定义 同义词(近义词)词典
-
同义词:意思相同的,“番茄”和“西红柿”,查询“番茄”的时候,把带有“西红柿”的数据一起查出来,这种叫做同义词查询
-
例如
进入 /elasticsearch-8.10.0/plugins/ik/config/ 文件夹目录, vim synonym.txt,添加
儿童,青年,少年,幼年
西红柿,番茄 => 西红柿,番茄
社保,公积金 => 社保,公积金
- 然后重启 ES