详解elasticsearch分词器

一、简介

随着云计算和大数据的普及，搜索引擎已经成为当今互联网技术的重要组成部分。elasticsearch作为开源全文搜索引擎，其分词器作为搜索引擎的核心组件，具有重要的作用。elasticsearch的分词器主要有以下三个部分：

字符过滤器：对原始输入和标记化的术语进行字符级处理，比如删除HTML标签、转换字符编码
分词器：将输入的文本拆分成单个单词（词项）的过程
标记过滤器：修改、删除或添加特定标记，比如stemming、lowercasing、stopwords

二、分词器的分类

elasticsearch分词器按照不同的算法可分为五种：

Standard Analyzer（标准分词器）：按照非字母符号或空格分词
Simple Analyzer（简单分词器）：按照非字母符号或空格分词，并忽略大小写
Whitespace Analyzer（空格分词器）：按照空格分词
Keyword Analyzer（关键字分词器）：将输入视作一个单一术语，常用于过滤或精确匹配查询
Language-specific Analyzers（特定语言分词器）：基于不同语言的特点进行分词，如中文分词、德语分词、法语分词等

三、中文分词器的使用

中文分词是一项复杂的任务，elasticsearch提供了多种中文分词器，比如IK分词器和smartcn分词器。下面是使用IK分词器进行中文分词的代码示例：

$ curl -X PUT "localhost:9200/test" -H 'Content-Type: application/json' -d'
{
  "settings": {
    "analysis": {
      "analyzer": {
        "ik_max_word": { 
          "type": "custom",
          "tokenizer": "ik_max_word"
        },
        "ik_smart": {
          "type": "custom",
          "tokenizer": "ik_smart"
        }
      }
    }
  }
}
'

$ curl -X GET "localhost:9200/test/_analyze?pretty=true" -H 'Content-Type: application/json' -d'
{
  "analyzer": "ik_max_word",
  "text": "我是一名全能编程开发工程师"
}
'

// 返回结果：
{
  "tokens" : [
    {
      "token" : "我",
      "start_offset" : 0,
      "end_offset" : 1,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "是",
      "start_offset" : 1,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "一名",
      "start_offset" : 2,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "全能",
      "start_offset" : 4,
      "end_offset" : 6,
      "type" : "CN_WORD",
      "position" : 3
    },
    {
      "token" : "编程",
      "start_offset" : 6,
      "end_offset" : 8,
      "type" : "CN_WORD",
      "position" : 4
    },
    {
      "token" : "开发",
      "start_offset" : 8,
      "end_offset" : 10,
      "type" : "CN_WORD",
      "position" : 5
    },
    {
      "token" : "工程师",
      "start_offset" : 10,
      "end_offset" : 13,
      "type" : "CN_WORD",
      "position" : 6
    }
  ]
}

四、标记过滤器的使用

标记过滤器用于修改、删除或添加特定标记，比如stemming、lowercasing、stopwords。下面是使用stopwords标记过滤器过滤“我是一个全能编程开发工程师”中停用词的代码示例：

PUT /stopwords_test
{
  "settings": {
    "analysis": {
      "filter": {
        "my_stopwords": {
          "type": "stop",
          "stopwords": ["我", "是", "一个"]
        }
      },
      "analyzer": {
        "my_analyzer": {
          "tokenizer": "standard",
          "filter": ["lowercase", "my_stopwords"]
        }
      }
    }
  }
}

GET /stopwords_test/_analyze
{
  "analyzer": "my_analyzer",
  "text": "我是一个全能编程开发工程师"
}

// 返回结果：
{
  "tokens": [
    {
      "token": "全能",
      "start_offset": 5,
      "end_offset": 7,
      "type": "",
      "position": 3
    },
    {
      "token": "编程",
      "start_offset": 7,
      "end_offset": 9,
      "type": "
   ",
      "position": 4
    },
    {
      "token": "开发",
      "start_offset": 9,
      "end_offset": 11,
      "type": "
    ",
      "position": 5
    },
    {
      "token": "工程师",
      "start_offset": 11,
      "end_offset": 14,
      "type": "
     ",
      "position": 6
    }
  ]
}

五、结尾

以上是elasticsearch分词器的基本介绍和使用方法。不同的分词器和标记过滤器的使用场景不同，可以根据不同情况进行选择使用。希望这篇文章能够帮助到使用elasticsearch的开发工程师。

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

详解elasticsearch分词器

一、简介

二、分词器的分类

三、中文分词器的使用

四、标记过滤器的使用

五、结尾

详解elasticsearch分词器

Elasticsearch7详解

java学习的一些基础笔记（java初学笔记）

elasticsearch windows安装详解

Elasticsearch倒排索引详解

每日java学习笔记（java高手笔记）

Elasticsearch默认分词器简介及使用方法

Elasticsearch keyword类型详解

印象笔记记录java学习（Java成长笔记）

java方法整理笔记（java总结）

Elasticsearch详解

elasticsearch搜索详解

Elasticsearch中文详解

深入理解elasticsearch字段类型

发篇java复习笔记（java课程笔记）

深入理解elasticsearch文档

java客户端学习笔记（java开发笔记）

java分词工具hanlp,分词工具有哪些

Elasticsearch高亮功能详解

java学习笔记（java初学笔记）

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

详解elasticsearch分词器

一、简介

二、分词器的分类

三、中文分词器的使用

四、标记过滤器的使用

五、结尾

详解elasticsearch分词器

Elasticsearch7详解

java学习的一些基础笔记（java初学笔记）

elasticsearch windows安装详解

Elasticsearch倒排索引详解

每日java学习笔记（java高手笔记）

Elasticsearch默认分词器简介及使用方法

Elasticsearch keyword类型详解

印象笔记记录java学习（Java成长笔记）

java方法整理笔记（java总结）

Elasticsearch详解

elasticsearch搜索详解

Elasticsearch中文详解

深入理解elasticsearch字段类型

发篇java复习笔记（java课程笔记）

深入理解elasticsearch文档

java客户端学习笔记（java开发笔记）

java分词工具hanlp,分词工具有哪些

Elasticsearch高亮功能详解

java学习笔记（java初学笔记）

人机检测，请谅解