编程开源技术交流,分享技术与知识

网站首页 > 开源技术 正文

es-ik自定义词库步骤(es词库热更新)

wxchong 2024-07-16 10:51:51 开源技术 9 ℃ 0 评论

【ik自定义词库步骤】

1:首先在ik插件的config/custom目录下创建一个文件my.dic

在文件中添加词语即可,每一个词语一行。

-------------------------------------------------------------------------------------------------------------

注意:这个文件可以在linux中直接vi生成,或者在windows中创建之后上传到这里。

如果是在linux中直接vi生成的,可以直接使用。

如果是在windows中创建的,需要注意文件的编码必须是UTF-8 without BOM 格式【UTF-8 无 BOM格式】

-------------------------------------------------------------------------------------------------------------

2:修改ik的配置文件

默认情况下ik的配置文件就在ik插件的config目录下面。【IKAnalyzer.cfg.xml】

把刚才创建的文件的位置添加到ik的配置文件中即可。

vi config/IKAnalyzer.cfg.xml

<properties>

<comment>IK Analyzer 扩展配置</comment>

<!--用户可以在这里配置自己的扩展字典 -->

<entry key="ext_dict">custom/mydict.dic;custom/single_word_low_freq.dic;custom/my.dic</entry>

<!--用户可以在这里配置自己的扩展停止词字典-->

<entry key="ext_stopwords">custom/ext_stopword.dic</entry>

<!--用户可以在这里配置远程扩展字典 -->

<!-- <entry key="remote_ext_dict">words_location</entry> -->

<!--用户可以在这里配置远程扩展停止词字典-->

<!-- <entry key="remote_ext_stopwords">words_location</entry> -->

</properties>

------------------------------------------------------------------------------------------------------------------------------

注意:需要把my.dic文件的位置添加到key=ext_dict这个entry中,切记不要随意新增entry,随意新增的entry是不被识别的。

并且entry的名称也不能乱改,否则也不会识别。

<entry key="ext_dict">custom/mydict.dic;custom/single_word_low_freq.dic;custom/my.dic</entry>

------------------------------------------------------------------------------------------------------------------------------

3:重启es验证分词效果

重启的时候查看日志会看到下面信息

验证:

curl 'http://192.168.80.100:9200/yehua/_analyze?analyzer=ik_max_word&pretty=true' -d '{"text":"大讲台"}'

{

"tokens" : [ {

"token" : "大讲台",

"start_offset" : 0,

"end_offset" : 3,

"type" : "CN_WORD",

"position" : 0

}, {

"token" : "大讲",

"start_offset" : 0,

"end_offset" : 2,

"type" : "CN_WORD",

"position" : 1

}, {

"token" : "讲台",

"start_offset" : 1,

"end_offset" : 3,

"type" : "CN_WORD",

"position" : 2

}, {

"token" : "台",

"start_offset" : 2,

"end_offset" : 3,

"type" : "CN_WORD",

"position" : 3

} ]

}

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表