记一次 Kubernetes 节点 OOM 的排查

环境 tke(腾讯云容器服务) 1.12.4 托管集群. 节点操作系统：ubuntu16.04.1 LTSx86_64，4.4.0-104-generic kube-proxy mode: ipvs Docker version 18.06.3-ce, build d7080c1 过程集群内的业务rpc请求大量超时，与kube-proxy的ipvs模式udp转发规则过期问题的现象一致。从集群-事件中观察到以下事件，且该节点有coredns的pod。 2020-06-14 13:15:39 Warning Node 172.21.128.138.1618e2878157535e Rebooted Node 172.21.128.138 has been rebooted, boot id: 281c2a66-2bb2-4274-b979-e1f50cc56fd 后客服反馈：CVM在当时发生了OOM。在得到云厂商客服的反馈后，运维同学没有继续跟进，只是简单的认为是编排中的资源配置问题，可能导致了OOM(我们的编排中, resources.limit.memory > resources.requests.memory)，对编排进行了调整。在后续的几天里，发生了4次类似的reboot情况，发生OOM时的时间点和内存监控图如下: 143, 2020-06-11 10:52 138, 2020-06-14 13:15 124, 2020-06-15 23:00 47, 2020-06-16 09:40 从以上的图表中发现：发生OOM时，部分节点的free指标(绿色)是充裕的，按理不应该触发OOM。发生OOM前，cache指标占80%。这可能是正常的。我们将以上信息同步给了云厂商的技术支持，后反馈 ins-xxx ins-yyy 在这两个节点上都有发现上面的内核报错。我反馈给相关同事进一步看下找到内核报错的方式 # journalctl --since "2020-06-14 13:00" --until "2020-06-14 14:00" ... Jun 14 13:14:38 host-172-21-128-138 kernel: ------------[ cut here ]------------ Jun 14 13:14:38 host-172-21-128-138 kernel: kernel BUG at /build/linux-SwhOyu/linux-4.