我司分布式定时任务框架用的是XXL-JOB,在使用过程中遇到了一些问题整理下,方便以后查阅,同时也希望能帮助到大家。
问题1:任务结果丢失,标记失败
产生原因:当前任务的调度记录停留在 "运行中" 状态超过10min,且对应执行器心跳注册失败不在线。
排查思路:检查任务执行是否存在异常;执行器服务是否宕机、假死和重启
问题2:执行器连接拒绝:code:500,msg:xxl-rpc remoting error(conncection refused)
产生原因:xxl-job admin的宿主机中存在一个【相同ip】的docker容器,admin直接调度到该容器,报500错误。
排查思路:确定xxl-job admin的宿主机中是否存在一个【相同ip】。
问题3:应用服务日志中一直报Connection reset by peer异常
产生原因:SLB的端口健康检查(基于TCP协议)
排查思路:排查执行器端口是否使用TCP协议进行健康检查,参考:
开启负载均衡SLB的健康检查后业务日志中出现“Connection reset by peer”的错误
问题4:script exit value(XXX) is failed
产生原因:任务脚本执行异常
排查思路:查看调度日志,分析异常原因
问题5:调度失败:执行器地址为空
产生原因:应用启动不正常或者appname配置不一致
排查思路:
- 检查应用启动是否正常。
- 检查配置文件中appname和xxl-job admin的执行器管理中的appname是否一样。
问题6:xxl-rpc remoting error(connect timed out), for url : XXX/run
产生原因:应用启动不正常、是否有人本地启动或者网络问题。
排查思路:
- 检查应用启动是否正常。
- 检查是否是否有人本地启动,调到本地环境。
- 网络问题。
本文暂时没有评论,来添加一个吧(●'◡'●)