Python 如何让子进程崩溃时主进程也能收到详细错误_技术教程

子进程崩溃时 subprocess.run() 默认不抛出异常，需通过 capture_output=True 和 text=True 获取 stderr 中的 traceback 或段错误信息，并检查 returncode 判断是否被信号终止。

子进程崩溃时 `subprocess.run()` 默认不暴露底层异常

直接调用 subprocess.run() 并捕获 subprocess.CalledProcessError 只能拿到退出码和标准输出，但看不到子进程内部的 Python traceback、段错误（SIGSEGV）或未捕获异常的原始堆栈。这是因为子进程的异常信息默认被截断在它自己的 stderr 里，主进程没做透传处理。

关键点在于：子进程崩溃 ≠ 主进程抛出 Python 异常；它只是提前退出，主进程需要主动读取并解析它的 stderr 才能还原现场。

用 capture_output=True 或显式设置 stderr=subprocess.PIPE，确保 stderr 不被丢弃
不要依赖 check=True 自动 raise —— 它只包装退出码，不解析 stderr 内容
对 Python 子进程，建议在命令前加 python -u -c "import sys; ..."，避免 stdout/stderr 缓冲导致日志延迟或丢失

用 `subprocess.Pope n` 拿到完整 stderr 并手动检查

subprocess.run() 是封装，而 subprocess.Popen 给你控制权。崩溃时，子进程的 Python traceback 一定在 stderr 中，只要你不丢弃它，就能提取出来。

示例场景：运行一个故意报错的 Python 脚本

import subprocess
import sys
proc = subprocess.Popen(
[sys.executable, "-c", "raise ValueError('boom')"],
stdout=subprocess.PIPE,
stderr=subprocess.PIPE,
text=True  # 关键：用 text=True 直接得 str，避免 bytes.decode() 出错
)
stdout, stderr = proc.communicate()  # 等待结束，必须调用！
if proc.returncode != 0:
print("子进程崩溃，返回码：", proc.returncode)
if stderr:
print("详细错误：")
print(stderr)  # 这里就包含完整的 traceback

text=True 比 universal_newlines=True 更推荐（Python 3.7+）
必须调用 .communicate()，否则 stderr 可能为空或阻塞
若子进程是 C 程序崩溃（如 segfault），stderr 可能为空，此时需配合 signal.signal(signal.SIGCHLD, ...) 或用 psutil 查子进程状态

捕获 SIGSEGV / 段错误这类系统级崩溃

Python 子进程因 C 扩展或 ctypes 调用触发段错误时，不会打印 Python traceback，Linux 下通常只输出 Segmentation fault (core dumped) 到 stderr，且可能被截断。

这时候仅靠 stderr 不够可靠，要结合退出信号判断：

检查 proc.returncode：若为负数（如 -11），表示被信号终止，-11 == SIGSEGV
用 os.WIFSIGNALED(proc.returncode) 和 os.WTERMSIG(proc.returncode) 做跨平台解析（Windows 不适用）
启用 core dump：在启动子进程前加 ulimit -c unlimited（shell 层），或用 resource.setrlimit(resource.RLIMIT_CORE, (-1, -1))（Python 层）

注意：生产环境一般禁用 core dump，所以更实用的做法是让子进程自己做防御性包装，比如用 try/except BaseException 捕获所有异常并强制 flush + print traceback 到 stderr。

用 `subprocess.run()` 的简洁写法也能拿到详细错误

如果你坚持用 subprocess.run()（比如为了代码简洁），仍然可以拿到完整错误信息，只需注意参数组合：

result = subprocess.run(
    [sys.executable, "-c", "import sys; sys.exit(1)"],
    capture_output=True,
    text=True,
    timeout=10
)
if result.returncode != 0:
print("错误输出：", result.stderr)  # 包含 traceback（如果是 Python 异常）
print("返回码：", result.returncode)

capture_output=True 等价于 stdout=subprocess.PIPE, stderr=subprocess.PIPE
不要加 check=True，否则异常会覆盖原始 stderr 内容，你只能看到 CalledProcessError.stderr 字段，但该字段值就是原始 stderr —— 所以其实也可以用，只是多一层包装
timeout 触发时抛 subprocess.TimeoutExpired，它的 stderr 属性同样可用，但要注意：超时时子进程可能还在跑，需手动 kill 并 wait

最易忽略的一点：很多人把子进程错误当成“主进程异常”来 try/except，结果什么也没 catch 到 —— 子进程崩溃从来不会自动变成主进程的 Python 异常，它只是 returncode 变了，stderr 有内容了。你得主动看、主动读、主动判。