当前位置: 首页 > news >正文

关于ES中文分词器analysis-ik快速安装

ES中文分词器插件

  • 安装
    • 快速安装
    • 手动安装
  • 应用
    • ik_max_word 与 ik_smart 的区别
    • 验证是否生效

官方地址:https://github.com/infinilabs/analysis-ik

安装

快速安装

插件安装(将链接最后的版本号换成当前ES版本号):

bin/elasticsearch-plugin install https://get.infini.cloud/elasticsearch/analysis-ik/8.4.1

注:

  • 上述地址可正常访问,无需特殊网络配置
  • 如果是通过 Docker 部署的 ES,可参考下述命令
# 进入容器
docker exec -it 容器名称 bash
# 切换指定目录
cd /usr/share/elasticsearch
# 执行安装命令
bin/elasticsearch-plugin install https://get.infini.cloud/elasticsearch/analysis-ik/8.4.1
# 退出容器
exit
# 重启ES容器
docker restart 容器名称

手动安装

下载地址:https://release.infinilabs.com/
参考路径:
在这里插入图片描述
安装方式:

  1. 下载与当前ES版本相同的分词器安装包
  2. 进入ES安装目录,找到 plugins 文件夹,在里面新建一个名为 analysis-ik 的文件夹,把下载的安装包解压后放进该文件夹中
  3. 重启ES

命令参考:

# 进入plugins 文件夹
cd plugins
# 将下载好的文件上传到该目录或这直接下载到该目录
wget https://release.infinilabs.com/analysis-ik/stable/elasticsearch-analysis-ik-9.0.5.zip
# 创建文件夹 analysis-ik
mkdir analysis-ik
# 解压文件到 analysis-ik
unzip elasticsearch-analysis-ik-9.0.5.zip -d analysis-ik/
# 重启ES

应用

ik_max_word 与 ik_smart 的区别

  1. 关联关系
分词器说明
ik_max_word最细粒度切分,会将文本做尽可能多的拆分,适合 索引阶段(indexing)
ik_smart智能粗粒度切分,会做合并优化,切分结果更少,适合 搜索阶段(searching)

  1. 示例对比

文本:"中华人民共和国"

分词器结果
ik_max_word中华, 华人, 人民, 共和, 共和国, 中华人民共和国, …(多个结果)
ik_smart中华人民共和国(一个结果,智能合并)

  1. 实际使用场景(推荐配置)
PUT /news_index
{"settings": {"analysis": {"analyzer": {"my_index_analyzer": {"type": "custom","tokenizer": "ik_max_word"},"my_search_analyzer": {"type": "custom","tokenizer": "ik_smart"}}}},"mappings": {"properties": {"title": {"type": "text","analyzer": "my_index_analyzer","search_analyzer": "my_search_analyzer"}}}
}
  • 索引时用 ik_max_word:确保尽可能多的关键词被收录
  • 搜索时用 ik_smart:避免用户输入被过度拆分,提升召回准确率

验证是否生效

POST /_analyze
{"analyzer": "ik_max_word","text": "人工智能"
}
POST /_analyze
{"analyzer": "ik_smart","text": "人工智能"
}

如果都能返回中文分词结果,说明插件安装成功,两个分词器都可用。

http://www.xdnf.cn/news/1444681.html

相关文章:

  • k8s使用StatefulSet(有状态)部署单节点 MySQL方案(使用本地存储)
  • 【Bug】Nexus无法正常启动的五种解决方法
  • SuperMap GIS基础产品FAQ集锦(20250901)
  • Elasticsearch 数字字段随机取多值查询缓慢-原理分析与优化方案
  • 504 Gateway Timeout:服务器作为网关或代理时未能及时获得响应如何处理?
  • 揭秘设计模式:优雅地为复杂对象结构增添新功能-访问者模式
  • go语言面试之Goroutine详解
  • Linux使用-Linux系统管理
  • WPF里的几何图形Path绘制
  • 硬件驱动C51单片机——裸机(1)
  • 三、Scala方法与函数
  • 【面试场景题】1GB 大小HashMap在put时遇到扩容的过程
  • 安卓系统中IApplicationThread.aidl对应的是哪个类
  • 智慧交通管理信号灯通信4G工业路由器应用
  • 【小白笔记】移动硬盘为什么总比电脑更容易满?
  • 【LeetCode热题100道笔记】括号生成
  • 系统架构设计师备考第14天——业务处理系统(TPS)
  • WebAppClassLoader(Tomcat)和 LaunchedURLClassLoader(Spring Boot)类加载器详解
  • Llama v3 中的低秩自适应 (LoRA)
  • 51单片机-LED与数码管模块
  • 2024 arXiv Cost-Efficient Prompt Engineering for Unsupervised Entity Resolution
  • JetBrains 2025 全家桶 11合1 Windows直装(含 IDEA PyCharm、WebStorm、DataSpell、DataGrip等)
  • Datawhale AI夏令营复盘[特殊字符]:我如何用一个Prompt,在Coze Space上“画”出一个商业级网页?
  • 终于有人把牛客网最火的Java面试八股文整理出来了,在Github上获赞50.6K
  • 使用 PHP Imagick 扩展实现高质量 PDF 转图片功能
  • 特斯拉“宏图计划4.0”发布!马斯克:未来80%价值来自机器人
  • 超适合程序员做知识整理的 AI 网站
  • SQL 函数:使用 REPLACE进行批量文本替换
  • 嵌入式第四十五天(51单片机相关)
  • Windows 电源管理和 Shutdown 命令详解