生存分析

Kaplan-Meier 生存曲线:生存分析基础工具 | Lattice

Kaplan-Meier 生存曲线是生存分析的核心方法,用于评估从起始点到特定事件发生所需的时间。当你需要分析随访数据,特别是当部分对象在研究结束时尚未发生事件(即删失)时,它能提供比简单平均值更准确的生存概率估计,帮助你直观地对比不同组别之间的生存差异。

理解生存分析中的核心指标

Kaplan-Meier 生存曲线不仅仅是一条随时间变化的折线,它背后的核心是生存函数估计。通过计算每个时间点发生的事件数与处于风险中总人数的比例,模型能实时修正生存概率。我们不仅返回曲线数据,还会计算中位生存时间以及 25% 和 75% 分位数,帮助你全面掌握群体的生命周期分布。

在多组对比场景下,该方法会配套提供 Log-rank 检验结果。通过卡方统计量和对应的 p 值,你可以量化判断不同干预手段或组别之间的生存曲线是否存在统计学上的显著差异。

如何正确解读生存曲线

生存曲线上的每一个「台阶」都代表了一个或多个事件的发生。曲线越平缓,说明该阶段生存概率下降越慢;反之,曲线陡峭处意味着事件密集发生。对于随访时间较长的研究,曲线尾部的置信区间往往会变宽,这是因为此时仍在风险集中的样本减少,估计的波动性随之增大。

当遇到「中位生存时间未达」的提示时,通常是因为研究结束时,观察组中超过一半的样本尚未发生事件。此时应关注特定时间点(如 12 个月或 24 个月)的生存率,而非强行寻找中位数。

数据准备与删失定义

在 Lattice 中使用此方法时,正确标注删失状态是确保分析准确的前提。我们采用标准的 0/1 编码:1 代表目标事件发生(如故障、流失、死亡),0 代表删失(如失访、研究结束)。请确保你的事件列严格遵循这一约定,以便工具能够准确识别哪些样本提供了完整数据,哪些样本提供了生存期下限信息。

学术投稿级可视化建议

对于需要投稿的研究,建议在生成曲线图时包含 95% 置信区间带以及底部的风险表(at-risk table)。置信区间能帮助读者评估估计的确定性,而风险表则直观地展示了随时间推移处于风险中的人数,这是审稿人判断研究可靠性的重要参考依据。

1 · Intent → method

An LLM picks survival_km from a fixed catalog.

2 · Method → numbers

Deterministic Python engine runs the math. Same input → same output.

3 · Numbers → plain language

A second LLM translates the result into your domain’s vocabulary.

  • 什么是删失?为什么 Kaplan-Meier 生存曲线必须处理它?

    删失指研究结束或中途退出时,我们未能观察到目标事件的发生,只知道该个体「至少活到了某个时间点」。如果直接剔除这些样本会高估风险,简单视为事件发生则会低估寿命。该方法通过在风险集中动态调整分母,在考虑删失的前提下给出了最准确的生存概率估计。

  • 如果我的数据中 log-rank 检验结果不显著,这意味着什么?

    log-rank 检验用于对比不同组别生存曲线的整体差异。若 p 值不显著,说明在当前的样本规模下,没有足够证据表明各组间的生存分布存在系统性差异。你可以查看曲线的重叠情况,或者进一步通过多因素 Cox 回归分析排除其他干扰变量的潜在影响。

Tool 输入字段

Schema for survival_km not exported yet (run pnpm export:registry).