Below you will find pages that utilize the taxonomy term “troubleshooting”
Posts
记一次 Kubernetes 节点 OOM 的排查
环境 tke(腾讯云容器服务) 1.12.4 托管集群. 节点操作系统:ubuntu16.04.1 LTSx86_64,4.4.0-104-generic kube-proxy mode: ipvs Docker version 18.06.3-ce, build d7080c1 过程 集群内的业务rpc请求大量超时,与kube-proxy的ipvs模式udp转发规则过期问题 的现象一致。 从集群-事件中观察到以下事件,且该节点有coredns的pod。
2020-06-14 13:15:39 Warning Node 172.21.128.138.1618e2878157535e Rebooted Node 172.21.128.138 has been rebooted, boot id: 281c2a66-2bb2-4274-b979-e1f50cc56fd 后客服反馈:CVM在当时发生了OOM。在得到云厂商客服的反馈后,运维同学没有继续跟进,只是简单的认为是编排中的资源配置问题,可能导致了OOM(我们的编排中, resources.limit.memory > resources.requests.memory),对编排进行了调整。在后续的几天里,发生了4次类似的reboot情况,发生OOM时的时间点和内存监控图如下:
143, 2020-06-11 10:52 138, 2020-06-14 13:15 124, 2020-06-15 23:00 47, 2020-06-16 09:40 从以上的图表中发现:
发生OOM时,部分节点的free指标(绿色)是充裕的,按理不应该触发OOM。 发生OOM前,cache指标占80%。这可能是正常的。 我们将以上信息同步给了云厂商的技术支持,后反馈
ins-xxx ins-yyy 在这两个节点上都有发现上面的内核报错。我反馈给相关同事进一步看下 找到内核报错的方式
# journalctl --since "2020-06-14 13:00" --until "2020-06-14 14:00" ... Jun 14 13:14:38 host-172-21-128-138 kernel: ------------[ cut here ]------------ Jun 14 13:14:38 host-172-21-128-138 kernel: kernel BUG at /build/linux-SwhOyu/linux-4.