分析POD Exit Code 137，容器被强制kill掉原因

pod的生命周期：

https://kubernetes.io/zh-cn/docs/concepts/workloads/pods/pod-lifecycle/

常见的容器退出状态码解释

Exit Code 0
退出代码0表示特定容器没有附加前台进程
该退出代码是所有其他后续退出代码的例外
这不一定意味着发生了不好的事情。如果开发人员想要在容器完成其工作后自动停止其容器，则使用此退出代码。比如：kubernetes job 在执行完任务后正常退出码为 0

Exit Code 1
程序错误，或者Dockerfile中引用不存在的文件，如 entrypoint中引用了错误的包
程序错误可以很简单，例如 “除以0”，也可以很复杂，比如空引用或者其他程序 crash

Exit Code 137
表明容器收到了 SIGKILL 信号，进程被杀掉，对应kill -9
引发SIGKILL的是docker kill。这可以由用户或由docker守护程序来发起，手动执行：docker kill

137 比较常见，如果 pod 中的limit 资源设置较小，会运行内存不足导致 OOMKilled，此时state 中的 ”OOMKilled” 值为true，你可以在系统的 dmesg -T 中看到 oom 日志

Exit Code 139
表明容器收到了 SIGSEGV 信号，无效的内存引用，对应kill -11
一般是代码有问题，或者 docker 的基础镜像有问题

Exit Code 143
表明容器收到了 SIGTERM 信号，终端关闭，对应kill -15
一般对应 docker stop 命令
有时docker stop也会导致Exit Code 137。发生在与代码无法处理 SIGTERM 的情况下，docker进程等待十秒钟然后发出 SIGKILL 强制退出。

不常用的一些 Exit Code
Exit Code 126: 权限问题或命令不可执行
Exit Code 127: Shell脚本中可能出现错字且字符无法识别的情况
Exit Code 1 或 255：因为很多程序员写异常退出时习惯用 exit(1) 或 exit(-1)，-1 会根据转换规则转成 255。这个一般是自定义 code，要看具体逻辑。


常见退出状态码

退出代码 0：一般为容器正常退出
退出代码 1：由于容器中 pid 为 1 的进程错误而失败
退出代码 137：由于容器收到 SIGKILL 信号而失败（手动执行或“oom-killer” [OUT-OF-MEMORY]）
退出代码 139：由于容器收到 SIGSEGV 信号而失败
退出代码 143：由于容器收到 SIGTERM 信号而失败

查看异常 pod 的状态，注意需要在减少pod或删除pod，超过宽限期的一瞬间才会出现:

kubectl get -n crm-app-api-java pod crm-app-fund-5ffcd4c8b9-b5mts -o yaml|egrep 'exitCode|reason'

           f:reason: {}
            f:reason: {}
    reason: ContainersNotReady
    reason: ContainersNotReady
        exitCode: 137
        reason: Error

其中 ExitCode 即程序上次退出时的状态码，如果不为 0，表示异常退出，我们可以分析下原因。

复现过程：

运行一个nginx，然后把副本数降为0，查看yaml关键字段复现问题。发现是正常的

再次测试无法优雅下线的java服务，发现还是出现137 code

因为pod的字段reason出现的是error，并非oomkill。更进一步确认是否oom问题，查看宿主机内核日志

dmesg |grep oom
journalctl -k | grep -i -e memory -e oom

#并没有发现该容器的omm信息，彻底排除掉oomkill

通过上面的排查，初步判断是否发送了Kill信号，超过宽限期还没正常退出，然后kill -9停止了。尝试调大宽限期的范围，宽限期默认是30s，改成60s

spec:
  terminationGracePeriodSeconds: 60

调大宽限期之后，把副本数增加为1，随后减至0，结果还是出现exitcode 137

然后进入容器内部查看进程，发现1号进程运行的是脚本。通过排查和沟通，得知是测试同事使用入口shell命令运行pinpoint-agent脚本，占用了PID为1的进程，导致无法获取进程信号，所以容器超过宽限期而被强制kill掉，无法优雅下线！

常见问题：

在大多数情况下，信号处理不当。Linux内核对以PID 1运行的进程应用特殊的信号处理。当进程在普通Linux系统上被发送一个信号时，内核将首先检查进程是否注册了该信号的任何自定义处理程序，否则将返回到默认行为（例如，在SIGTERM上终止进程）。但是，如果接收到信号的进程是PID 1，它将得到内核的特殊处理；如果它没有为该信号注册处理程序，内核将不会返回到默认行为，并且不会发生任何事情。换句话说，如果您的进程没有显式地处理这些信号，那么发送SIGTERM将没有任何效果。一个常见的例子是执行docker run my-container script的CI作业：将SIGTERM发送到docker run进程通常会终止docker run命令，但让容器在后台运行。
孤立的僵尸进程没有得到正确的收获。进程在退出时变成僵尸，在其父进程调用wait()系统调用的某个变体之前，它仍然是僵尸。它作为“失效”进程保留在进程表中。通常，父进程将立即调用wait()，并避免long-living僵尸。如果父级在其子级之前退出，则子级是“孤立的”，并且在PID 1下是re-parented。因此，init系统负责孤立僵尸进程上的wait()-ing。当然，大多数进程在随机进程上不会wait()，而这些随机进程恰好与它们相连，因此容器通常以许多根于PID 1的僵尸结束。

总结：

通常1个pod只运行1个容器1个进程。容器运行多个进程的情况，容器运行时会发送一个 TERM 信号到每个容器中的主进程，主进程要为子进程传递信号实现优雅退出，否则主进程先退出，而子进程还保留在进程表，就成了僵尸进程，超过pod的终止宽限期而触发kill -9

为什么我的容器收不到 SIGTERM 信号 ?

背景

我们的业务代码通常会捕捉 SIGTERM 信号，然后执行停止逻辑以实现优雅终止。在 Kubernetes 环境中，业务发版时经常会对 workload 进行滚动更新，当旧版本 Pod 被删除时，K8S 会对 Pod 中各个容器中的主进程发送 SIGTERM 信号，当达到超时时间进程还未完全停止的话，K8S 就会发送 SIGKILL 信号将其强制杀死。

业务在 Kubernetes 环境中实际运行时，有时候可能会发现在滚动更新时，我们业务的优雅终止逻辑并没有被执行，现象是在等了较长时间后，业务进程直接被 SIGKILL 强制杀死了。

什么原因 ?

通常都是因为容器启动入口使用了 shell，比如使用了类似 /bin/sh -c my-app 或 /docker-entrypoint.sh 这样的 ENTRYPOINT 或 CMD，这就可能就会导致容器内的业务进程收不到 SIGTERM 信号，原因是:

容器主进程是 shell，业务进程是在 shell 中启动的，成为了 shell 进程的子进程。
shell 进程默认不会处理 SIGTERM 信号，自己不会退出，也不会将信号传递给子进程，导致业务进程不会触发停止逻辑。
当等到 K8S 优雅停止超时时间 (terminationGracePeriodSeconds，默认 30s)，发送 SIGKILL 强制杀死 shell 及其子进程。

如何解决 ?

如果可以的话，尽量不使用 shell 启动业务进程。
如果一定要通过 shell 启动，比如在启动前需要用 shell 进程一些判断和处理，或者需要启动多个进程，那么就需要在 shell 中传递下 SIGTERM 信号了，解决方案请参考 Kubernetes 实用技巧: 在 SHELL 中传递信号

在 SHELL 中如何传递信号？

背景

在 Kubernetes 中，Pod 停止时 kubelet 会先给容器中的主进程发 SIGTERM 信号来通知进程进行 shutdown 以实现优雅停止，如果超时进程还未完全停止则会使用 SIGKILL 来强行终止。

但有时我们会遇到一种情况: 业务逻辑处理了 SIGTERM 信号，但 Pod 停止时好像没收到信号导致优雅停止逻辑不生效。

通常是因为我们的业务进程是在脚本中启动的，容器的启动入口使用了脚本，所以容器中的主进程并不是我们所希望的业务进程而是 shell 进程，导致业务进程收不到 SIGTERM 信号，下面将介绍几种解决方案。

使用 exec 启动

在 shell 中启动二进制的命令前加一个 exec 即可让该二进制启动的进程代替当前 shell 进程，即让新启动的进程成为主进程:

#! /bin/bash
...

exec /bin/yourapp # 脚本中执行二进制

然后业务进程就可以正常接收所有信号了，实现优雅退出也不在话下。

多进程场景: 使用 trap 传递信号

通常我们一个容器只会有一个进程，也是 Kubernetes 的推荐做法。但有些时候我们不得不启动多个进程，比如从传统部署迁移到 Kubernetes 的过渡期间，使用了富容器，即单个容器中需要启动多个业务进程，这时也只能通过 shell 启动，但无法使用上面的 exec 方式来传递信号，因为 exec 只能让一个进程替代当前 shell 成为主进程。

这个时候我们可以在 shell 中使用 trap 来捕获信号，当收到信号后触发回调函数来将信号通过 kill 传递给业务进程，脚本示例:

#! /bin/bash

/bin/app1 & pid1="$!" # 启动第一个业务进程并记录 pid
echo "app1 started with pid $pid1"

/bin/app2 & pid2="$!" # 启动第二个业务进程并记录 pid
echo "app2 started with pid $pid2"

handle_sigterm() {
  echo "[INFO] Received SIGTERM"
  kill -SIGTERM $pid1 $pid2 # 传递 SIGTERM 给业务进程
  wait $pid1 $pid2 # 等待所有业务进程完全终止
}
trap handle_sigterm SIGTERM # 捕获 SIGTERM 信号并回调 handle_sigterm 函数

wait # 等待回调执行完，主进程再退出

完美方案: 使用 init 系统

前面一种方案实际是用脚本实现了一个极简的 init 系统 (或 supervisor) 来管理所有子进程，只不过它的逻辑很简陋，仅仅简单的透传指定信号给子进程，其实社区有更完善的方案，dumb-init 和 tini 都可以作为 init 进程，作为主进程 (PID 1) 在容器中启动，然后它再运行 shell 来执行我们指定的脚本 (shell 作为子进程)，shell 中启动的业务进程也成为它的子进程，当它收到信号时会将其传递给所有的子进程，从而也能完美解决 SHELL 无法传递信号问题，并且还有回收僵尸进程的能力。

特性描述

进程信号传递

站在容器的角度，由其运行的第一个程序的PID为1，这个进程肩负着重要的使命：传递信号让子进程退出和等待子进程退出。对于第一点，如果pid为1的进程，无法向其子进程传递信号，可能导致容器发送SIGTERM信号之后，父进程等待子进程退出。此时，如果父进程不能将信号传递到子进程，则整个容器就将无法正常退出，除非向父进程发送SIGKILL信号，使其强行退出，这就会导致一些退出前的操作无法正常执行，例如关闭数据库连接、关闭输入输出流等。

僵尸进程处理上边提到：PID为1的进程的一个重要使命是等待子进程退出，如果一个进程中A运行了一个子进程B，而这个子进程B又创建了一个子进程C，若子进程B非正常退出（通过SIGKILL信号，并不会传递SIGKILL信号给进程C），那么子进程C就会由进程A接管，一般情况下，我们在进程A中并不会处理对进程C的托管操作（进程A不会传递SIGTERM和SIGKILL信号给进程C），结果就导致了进程B结束了，倒是并没有回收其子进程C，子进程C就变成了僵尸进程。

进程信号模拟父进程非正常退出（收到SIGKILL信号），若使用了Supervisor类工具，可以将SIGKILL信号传递给子进程，若子进程中想收到SIGTERM信号，就可以通过dumb-init来模拟。

容器里面安装Dumb-init

deb安装

RUN wget https://github.com/Yelp/dumb-init/releases/download/v1.2.0/dumb-init_1.2.0_amd64.deb
RUN dpkg -i dumb-init_*.deb

二进制安装

RUN wget -O /usr/local/bin/dumb-init https://github.com/Yelp/dumb-init/releases/download/v1.2.0/dumb-init_1.2.0_amd64
RUN chmod +x /usr/local/bin/dumb-init

PyPI安装

pip install dumb-init

这里以 dumb-init 为entrypoint固定使用dumb-init为容器运行的第一个进程，start.sh作为其子进程，它充当PID 1，并立即将命令作为子进程生成，在接收到信号时正确地处理和转发，下面是 Dockerfile 示例:

FROM ubuntu:latest
RUN apt-get update && apt-get install -y dumb-init
ADD start.sh /
ADD app1 /bin/app1
ADD app2 /bin/app2
ENTRYPOINT ["dumb-init", "--"]
CMD ["/start.sh"]

这是以 tini 为例制作镜像的 Dockerfile 示例:

FROM ubuntu:22.04
ENV TINI_VERSION v0.19.0
ADD https://github.com/krallin/tini/releases/download/${TINI_VERSION}/tini /tini
COPY entrypoint.sh /entrypoint.sh
RUN chmod +x /tini /entrypoint.sh
ENTRYPOINT ["/tini", "--"]
CMD [ "/start.sh" ]

start.sh 脚本示例:

#! /bin/bash
/bin/app1 &
/bin/app2 &
wait

业务代码处理 SIGTERM 信号

要实现优雅终止，首先业务代码得支持下优雅终止的逻辑，在业务代码里面处理下 SIGTERM 信号，一般主要逻辑就是"排水"，即等待存量的任务或连接完全结束，再退出进程。

本文给出各种语言的代码示例。

shell

#!/bin/sh

## Redirecting Filehanders
ln -sf /proc/$$/fd/1 /log/stdout.log
ln -sf /proc/$$/fd/2 /log/stderr.log

## Pre execution handler
pre_execution_handler() {
  ## Pre Execution
  # TODO: put your pre execution steps here
  : # delete this nop
}

## Post execution handler
post_execution_handler() {
  ## Post Execution
  # TODO: put your post execution steps here
  : # delete this nop
}

## Sigterm Handler
sigterm_handler() { 
  if [ $pid -ne 0 ]; then
    # the above if statement is important because it ensures 
    # that the application has already started. without it you
    # could attempt cleanup steps if the application failed to
    # start, causing errors.
    kill -15 "$pid"
    wait "$pid"
    post_execution_handler
  fi
  exit 143; # 128 + 15 -- SIGTERM
}

## Setup signal trap
# on callback execute the specified handler
trap 'sigterm_handler' SIGTERM

## Initialization
pre_execution_handler

## Start Process
# run process in background and record PID
>/log/stdout.log 2>/log/stderr.log "$@" &
pid="$!"
# Application can log to stdout/stderr, /log/stdout.log or /log/stderr.log

## Wait forever until app dies
wait "$pid"
return_code="$?"

## Cleanup
post_execution_handler
# echo the return code of the application
exit $return_code

Go

package main

import (
    "fmt"
    "os"
    "os/signal"
    "syscall"
)

func main() {

    sigs := make(chan os.Signal, 1)
    done := make(chan bool, 1)
    //registers the channel
    signal.Notify(sigs, syscall.SIGTERM)

    go func() {
        sig := <-sigs
        fmt.Println("Caught SIGTERM, shutting down")
        // Finish any outstanding requests, then...
        done <- true
    }()

    fmt.Println("Starting application")
    // Main logic goes here
    <-done
    fmt.Println("exiting")
}

Python

import signal, time, os

def shutdown(signum, frame):
    print('Caught SIGTERM, shutting down')
    # Finish any outstanding requests, then...
    exit(0)

if __name__ == '__main__':
    # Register handler
    signal.signal(signal.SIGTERM, shutdown)
    # Main logic goes here

NodeJS

process.on('SIGTERM', () => {
  console.log('The service is about to shut down!');
  
  // Finish any outstanding requests, then...
  process.exit(0); 
});

Java

import sun.misc.Signal;
import sun.misc.SignalHandler;
 
public class ExampleSignalHandler {
    public static void main(String... args) throws InterruptedException {
        final long start = System.nanoTime();
        Signal.handle(new Signal("TERM"), new SignalHandler() {
            public void handle(Signal sig) {
                System.out.format("\nProgram execution took %f seconds\n", (System.nanoTime() - start) / 1e9f);
                System.exit(0);
            }
        });
        int counter = 0;
        while(true) {
            System.out.println(counter++);
            Thread.sleep(500);
        }
    }
}

分析POD Exit Code 137，无法优雅下线