编程开源技术交流,分享技术与知识

网站首页 > 开源技术 正文

腾云忆想架构师分析Elasticsearch集群异常状态原因

wxchong 2024-11-14 18:38:49 开源技术 60 ℃ 0 评论

腾讯云 Elasticsearch Service(ES)是基于开源搜索引擎 Elasticsearch 打造的高可用、可伸缩的云端全托管的 Elasticsearch 服务,包含 Kibana 及常用插件,并集成了安全、SQL、机器学习、告警、监控等高级特性(X-Pack)。使用腾讯云 ES,您可以快速部署、轻松管理、按需扩展您的集群,简化复杂运维操作,快速构建日志分析、异常监控、网站搜索、企业搜索、BI 分析等各类业务。

作者简介

岳涛

腾云忆想大数据产品架构师,多年分布式、高并发大数据系统的研发、系统架构设计经验,擅长主流大数据架构技术平台的落地和实施。目前专注于大数据架构相关组件的研究推广和最佳实践的沉淀,致力于帮助企业完成数字化转型。

一、集群状态为什么会异常?

想知道这个,我们首先需要了解一下集群的几种状态。

Elasticsearch 集群健康状态分为三种:

GREEN

YELLOW

RED

GREEN是最健康的状态,说明所有的分片包括副本都可用。这种情况Elasticsearch集群所有的主分片和副本分片都已分配,Elasticsearch集群是100%可用的。

那么,集群状态在什么情况下发生RED和YELLOW呢?

YELLOW:主分片可用,但是副本分片不可用。这种情况Elasticsearch集群所有的主分片已经分配了,但至少还有一个副本是未分配的。不会有数据丢失,所以搜索结果依然是完整的。不过,集群高可用性在某种程度上会被弱化。可以把yellow想象成一个需要关注的warnning,该情况不影响索引读写,一般会自动恢复。

RED:存在不可用的主分片。此时执行查询虽然部分数据仍然可以查到,但实际上已经影响到索引读写,需要重点关注。这种情况Elasticsearch集群至少一个主分片(以及它的全部副本)都在缺失中。这意味着索引已缺少数据,搜索只能返回部分数据,而分配到这个分片上的请求都返回异常。

二、查看集群状态

使用kibana开发工具,查看集群状态:

GET /_cluster/health

这里可以看到,当前集群状态为red,有9个未分配的分片。

ES健康接口返回内容官方解释

三、问题分析

当集群状态异常时,需要重点关注unassigned_shards没有正常分配的分片,这里举例说明其中一种场景。

1.找到异常索引

查看索引情况,并根据返回找到状态异常的索引

GET /_cat/indices

2.查看详细的异常信息

GET /_cluster/allocation/explain

这里通过异常信息可以看出:

(1)主分片当前处于未分配状态current_state,发生这个问题的原因是因为分配了该分片的节点已从集群中离开unassigned_info.reason;

(2)发生了上诉问题之后,分片无法自动分配分片的原因是集群中没有该分片的可用副本can_allocate;

(3)同时也给出了更详细的信息allocate_explanation 。

这种情况发生的原因是因为集群有节点下线,导致主分片已没有任何可用的分片数据,当前唯一能做的事就是等待节点恢复并重新加入集群。

注意

某些极端场景,比如单副本集群的分片发生了损坏,或是文件系统故障导致该节点被永久移除,而此时只能接受数据丢失的事实,并通过[reroute commends]1来重新分配空的主分片。

3. 分片未分配(`unassigned_info.reason`)的所有可能

小结

我们可以通过上诉分析方式大概分析出集群产生未分配分片的原因,一般都可以在allocation explain api中得到想要的答案。

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表