es分词源码

发布时间: 2024-10-30 08:40:27

‘壹’ ES自定义分词器

es的分词器往往包括3个低级构建块包：

Standard Analyzer
标准分析仪按照Unicode文本分段算法的定义，将文本分割成单词边界的分词。它删除了大多数标点符号，小写显示分词，并支持删除stop words。

Simple Analyzer
当遇到不是字母的字符时，简单的分析器会将文本分成条目。小写显示分词。

Whitespace Analyzer
空格分析器遇到任何空格字符时都会将文本分为多个项目。不会把分词转换为小写字母。

Stop Analyzer
停止分析仪和Simple Analyzer类似，但也支持stop words的删除。

Keyword Analyzer
一个“noop”分析器，它可以接受任何给定的文本，并输出完全相同的文本作为一个单词。

Pattern Analyzer
使用正则表达式拆分分词，支持lower-casing和stop words。

Language Analyzers
Elasticsearch提供许多语言特定的分析器，如英语或法语。

Fingerprint Analyzer
一个专门的分析仪，它可以创建一个可用于重复检测的指纹。

https://www.jianshu.com/p/13112fe5eaad

对中文文本以英文逗号作为分隔符分词：

将分析器设置到索引上

获取分词结果

https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-stop-analyzer.html

es 节点层面的默认分词设置已经废弃，不支持了。就是说在 elasticsearch.yml 配置诸如：

无效，会导致es启动失败：

推荐在索引层面动态设置。
https://blog.csdn.net/yu280265067/article/details/71107658

阅读全文

热点内容

OP编译驱动发布：2025-03-13 05:54:41 浏览：73

图片集体压缩发布：2025-03-13 05:53:47 浏览：876

压缩文件是什么发布：2025-03-13 05:19:38 浏览：996

debian自启动脚本发布：2025-03-13 05:16:23 浏览：429

如何登录微信找回密码发布：2025-03-13 05:06:20 浏览：450

pc游戏编程人机博弈源码发布：2025-03-13 04:51:45 浏览：605

手机原生配置低怎么玩流畅发布：2025-03-13 04:35:31 浏览：736

分线器安卓供电口有什么用发布：2025-03-13 04:19:54 浏览：137

端口访问关系发布：2025-03-13 03:49:50 浏览：789

运用零基预算法发布：2025-03-13 03:45:30 浏览：791

es分词源码

与es分词源码相关的资讯