【ik自定义词库步骤】
1:首先在ik插件的config/custom目录下创建一个文件my.dic
在文件中添加词语即可,每一个词语一行。
-------------------------------------------------------------------------------------------------------------
注意:这个文件可以在linux中直接vi生成,或者在windows中创建之后上传到这里。
如果是在linux中直接vi生成的,可以直接使用。
如果是在windows中创建的,需要注意文件的编码必须是UTF-8 without BOM 格式【UTF-8 无 BOM格式】
-------------------------------------------------------------------------------------------------------------
2:修改ik的配置文件
默认情况下ik的配置文件就在ik插件的config目录下面。【IKAnalyzer.cfg.xml】
把刚才创建的文件的位置添加到ik的配置文件中即可。
vi config/IKAnalyzer.cfg.xml
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!--用户可以在这里配置自己的扩展字典 -->
<entry key="ext_dict">custom/mydict.dic;custom/single_word_low_freq.dic;custom/my.dic</entry>
<!--用户可以在这里配置自己的扩展停止词字典-->
<entry key="ext_stopwords">custom/ext_stopword.dic</entry>
<!--用户可以在这里配置远程扩展字典 -->
<!-- <entry key="remote_ext_dict">words_location</entry> -->
<!--用户可以在这里配置远程扩展停止词字典-->
<!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>
------------------------------------------------------------------------------------------------------------------------------
注意:需要把my.dic文件的位置添加到key=ext_dict这个entry中,切记不要随意新增entry,随意新增的entry是不被识别的。
并且entry的名称也不能乱改,否则也不会识别。
<entry key="ext_dict">custom/mydict.dic;custom/single_word_low_freq.dic;custom/my.dic</entry>
------------------------------------------------------------------------------------------------------------------------------
3:重启es验证分词效果
重启的时候查看日志会看到下面信息
验证:
curl 'http://192.168.80.100:9200/yehua/_analyze?analyzer=ik_max_word&pretty=true' -d '{"text":"大讲台"}'
{
"tokens" : [ {
"token" : "大讲台",
"start_offset" : 0,
"end_offset" : 3,
"type" : "CN_WORD",
"position" : 0
}, {
"token" : "大讲",
"start_offset" : 0,
"end_offset" : 2,
"type" : "CN_WORD",
"position" : 1
}, {
"token" : "讲台",
"start_offset" : 1,
"end_offset" : 3,
"type" : "CN_WORD",
"position" : 2
}, {
"token" : "台",
"start_offset" : 2,
"end_offset" : 3,
"type" : "CN_WORD",
"position" : 3
} ]
}
本文暂时没有评论,来添加一个吧(●'◡'●)