Python 如何让子进程崩溃时主进程也能收到详细错误

子进程崩溃时 subprocess.run() 默认不抛出异常,需通过 capture_output=True 和 text=True 获取 stderr 中的 traceback 或段错误信息,并检查 returncode 判断是否被信号终止。

子进程崩溃时 subprocess.run() 默认不暴露底层异常

直接调用 subprocess.run() 并捕获 subprocess.CalledProcessError 只能拿到退出码和标准输出,但看不到子进程内部的 Python traceback、段错误(SIGSEGV)或未捕获异常的原始堆栈。这是因为子进程的异常信息默认被截断在它自己的 stderr 里,主进程没做透传处理。

关键点在于:子进程崩溃 ≠ 主进程抛出 Python 异常;它只是提前退出,主进程需要主动读取并解析它的 stderr 才能还原现场。

  • capture_output=True 或显式设置 stderr=subprocess.PIPE,确保 stderr 不被丢弃
  • 不要依赖 check=True 自动 raise —— 它只包装退出码,不解析 stderr 内容
  • 对 Python 子进程,建议在命令前加 python -u -c "import sys; ...",避免 stdout/stderr 缓冲导致日志延迟或丢失

subprocess.Pope

n
拿到完整 stderr 并手动检查

subprocess.run() 是封装,而 subprocess.Popen 给你控制权。崩溃时,子进程的 Python traceback 一定在 stderr 中,只要你不丢弃它,就能提取出来。

示例场景:运行一个故意报错的 Python 脚本

import subprocess
import sys

proc = subprocess.Popen( [sys.executable, "-c", "raise ValueError('boom')"], stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True # 关键:用 text=True 直接得 str,避免 bytes.decode() 出错 ) stdout, stderr = proc.communicate() # 等待结束,必须调用!

if proc.returncode != 0: print("子进程崩溃,返回码:", proc.returncode) if stderr: print("详细错误:") print(stderr) # 这里就包含完整的 traceback

  • text=Trueuniversal_newlines=True 更推荐(Python 3.7+)
  • 必须调用 .communicate(),否则 stderr 可能为空或阻塞
  • 若子进程是 C 程序崩溃(如 segfault),stderr 可能为空,此时需配合 signal.signal(signal.SIGCHLD, ...) 或用 psutil 查子进程状态

捕获 SIGSEGV / 段错误这类系统级崩溃

Python 子进程因 C 扩展或 ctypes 调用触发段错误时,不会打印 Python traceback,Linux 下通常只输出 Segmentation fault (core dumped) 到 stderr,且可能被截断。

这时候仅靠 stderr 不够可靠,要结合退出信号判断:

  • 检查 proc.returncode:若为负数(如 -11),表示被信号终止,-11 == SIGSEGV
  • os.WIFSIGNALED(proc.returncode)os.WTERMSIG(proc.returncode) 做跨平台解析(Windows 不适用)
  • 启用 core dump:在启动子进程前加 ulimit -c unlimited(shell 层),或用 resource.setrlimit(resource.RLIMIT_CORE, (-1, -1))(Python 层)

注意:生产环境一般禁用 core dump,所以更实用的做法是让子进程自己做防御性包装,比如用 try/except BaseException 捕获所有异常并强制 flush + print traceback 到 stderr。

subprocess.run() 的简洁写法也能拿到详细错误

如果你坚持用 subprocess.run()(比如为了代码简洁),仍然可以拿到完整错误信息,只需注意参数组合:

result = subprocess.run(
    [sys.executable, "-c", "import sys; sys.exit(1)"],
    capture_output=True,
    text=True,
    timeout=10
)

if result.returncode != 0: print("错误输出:", result.stderr) # 包含 traceback(如果是 Python 异常) print("返回码:", result.returncode)

  • capture_output=True 等价于 stdout=subprocess.PIPE, stderr=subprocess.PIPE
  • 不要加 check=True,否则异常会覆盖原始 stderr 内容,你只能看到 CalledProcessError.stderr 字段,但该字段值就是原始 stderr —— 所以其实也可以用,只是多一层包装
  • timeout 触发时抛 subprocess.TimeoutExpired,它的 stderr 属性同样可用,但要注意:超时时子进程可能还在跑,需手动 kill 并 wait

最易忽略的一点:很多人把子进程错误当成“主进程异常”来 try/except,结果什么也没 catch 到 —— 子进程崩溃从来不会自动变成主进程的 Python 异常,它只是 returncode 变了,stderr 有内容了。你得主动看、主动读、主动判。