forked from Jaanai-Lu/Statistics
-
Notifications
You must be signed in to change notification settings - Fork 0
/
031. 生存分析基础知识
68 lines (61 loc) · 12.9 KB
/
031. 生存分析基础知识
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
logistic回归只考虑终点事件terminal event的出现与否,但恶性肿瘤、慢性病等随访研究中,除了考虑终点事件出现与否,还需考虑观察对象到达终点所经历的时间长短。
多重线性回归以生存时间为因变量,虽能考虑生存时间,但生存时间一般不呈正态分布,且传统线性回归不能有效利用删失时间,若剔除删失数据会导致信息损失和估计偏差,当删失比例较大时,会导致较大偏差,若将1年未死亡者的生存时间假定为1年的话,会明显低估生存时间,同样会造成大的偏差。
传统的多因素分析方法不能同时处理生存结局和生存时间,也不能充分利用删失时间所提供的不完全信息。
生存分析survival analysis则是将终点事件的出现与否和到达终点所经历的时间结合起来分析的一类统计分析方法。它起源于寿命表,为现代统计学的一个重要分支。生存分析包括生存曲线估计、生存曲线比较、影响因素分析和生存预测。
生存分析基本概念:
生存时间survival time/time to event,泛指从规定的观察起点到某一特定终点事件出现经历的时间长度,其三要素为:观察起点、终点事件和时间的度量单位。随机对照临床试验的观察起点通常是随机化入组的事件,观察性研究中,观察起点可以是发病时间、第一次确诊时间或接受正规治疗的时间等。终点事件可以是某种疾病的发生、某种处理(治疗)的反应、疾病的复发或死亡等。由于早先的研究来自寿命保险,而死亡时最常用的结局,生存时间和生存分析由此得名。发生终点事件也称为失效failure,故生存时间也称为失效时间failure time。生存时间的度量单位可以是年、月、日、小时等。
1. 完全数据complete data:随访研究中,在规定的观察期内,对某些观察对象如观察到了终点事件发生,则从起点到终点事件发生所经历的时间,称为生存时间的完全数据,完全数据提供的是准确的生存时间。
2. 删失数据censored data:生存分析的一个重要特性是随访期间不是所有患者都会出现研究者所关心的结局,在规定的观察期内,对某些观察对象由于某种原因未能观察到终点事件发生,并不知道确切的生存时间,称为生存时间的删失数据,也称截尾数据。
产生删失数据的原因大致有:a. 研究结束时终点事件尚未发生;b. 失访lost to follow-up,如病人未继续就诊、拒绝访问或因病人搬迁而失去联系等,未能观察到其死亡结局;c. 病人因死于其他原因等终止观察。
不论删失数据的产生原因为何,删失生存时间的计算均为规定的起点至删失点所经历的时间。若研究结束时终点事件尚未发生,则为研究结束时间;若失访,则为最后一次随访时间;若病人因死于其他原因等终止观察,则为死于其他原因时间。
删失数据常在其右上角标记+,表示真实的生存时间未知,只知比观察到的删失时间要长。这里假定删失对象具有与非删失对象经历感兴趣事件同样的风险,这种删失称为非信息姓删失uninformative censoring,删失机制未告诉我们任何关于经历终点事件风险的信息。
生存时间通常不服从正态分布,且在临床实践中很难获得全部患者生存时间的完全数据,因而接下来只介绍生存分析的非参数方法和半参数方法。
某时段的死亡概率probability of death:表示某时段开始时存活的个体,在该时段内死亡的可能性。如年死亡概率表示年初尚存人口在今后一年内死亡的可能性。
某时段的生存概率probability of survival:表示某时段开始时存活的个体,到该时段结束时仍存活的可能性。如年生存概率表示年初尚存人口存活满一年的可能性。
生存函数survival function或生存率survival rate指观察对象经历t个时段后仍存活的可能性,记为S(t),0≤S(t)≤1。如资料中无删失数据,计算生存率的公式为:
S(t)=P(T>t)=t时刻仍存活的例数/观察总例数
若资料中含有删失数据,则须分时段计算生存概率。假定观察对象在各个时段的生存事件独立,应用概率乘法定理将分时段的生存概率相乘得到生存率:
S(t_k )=P(T>t_k )=p_1∗p_2∗…∗p_k=S(t_(k−1) )∗p_k
其中p_i (i=1, 2, …, k)为各分时段的生存概率,故生存率又称为累积生存概率cumulative probability of survival。
若终点事件为死亡,风险函数hazard function表示t时刻存活的个体在t时刻的瞬时风险,记为h(t),描述某个体的瞬时死亡风险随时间变化的情况:
h(t)=lim_(Δt→0)〖(P(t≤T<t+Δt ┤| T≥t))/Δt〗
h(t)=0意味着没有死亡风险,t时刻S(t)平坦;大的h(t)意味着S(t)的快速下降,风险函数越大,生存函数下降越快。注意:h(t)是速率rate而非概率,其取值范围为0至+ ∞。生存分析模型通常以h(t)的形式给出。
生存函数S(t)与风险函数h(t)的关系如下:
S(t)=exp[−∫_0^t▒hu)du]
h(t)=−[(dS(t)/dt)/S(t) ]
生存曲线的估计:
非参数估计生存率(即基于一组寿命资料估计生存曲线)主要有寿命表法life table method和Kaplan-Meier法。二者均应用定群寿命表的基本原理,先求出各个时段的生存概率,再根据概率乘法定理计算生存率。前者适用于按生存时间区间分组的大样本资料,后者适用于仅含个体生存时间的大样本或小样本资料。
1. 寿命表法:某些队列研究,并不知道个体确切的死亡事件或删失时间,例如肿瘤登记等大型检测系统,随访中某些个体死亡或删失发生在两次随访之间,寿命表法是分析分组生存资料(由研究者分组且含有删失数据的大样本资料)的经典方法。
2. Kaplan-Meier法:又称乘积极限法product-limit method,乘积的含义为:生存率等于生存概率的乘积,极限的定义为:标准寿命表法中时间区间长度趋近于0。
以生存时间为横轴,生存率为纵轴,连接各个时间点所对应的生存率得到的曲线图称为生存曲线survival curve。以风险函数为纵轴的曲线图称为风险曲线hazard curve。
Kaplan-Meier法生存曲线为阶梯形曲线,分析时应注意曲线的高度和下降的坡度,曲线高、下降平缓表示高生存率或较长生存期,曲线低、下降陡峭表示低生存率或较短生存期。
中位生存期median survival time又称半数生存期,表示恰有50%的个体尚存活的时间。中位生存期越长,表示疾病的预后越好。生存曲线纵轴生存率为50%时所对应的横轴生存时间即中位生存期。
生存曲线的比较:
两条或多条生存曲线的差别比较是生存分析的主要内容之一,若采用两组或多组频率比较的χ^2 检验,笼统地以最后结局(死亡与否)作为检验依据,而不考虑每个观察对象生存时间的长短,显然过于粗糙。专门的假设检验方法有log-rank检验(注意:这里的log表示count、register或record,与对数毫无关系,也称为时序检验),与普通χ^2 检验不同之处时:log-rank检验能充分利用生存时间(包括删失数据),而且能对各组的生存曲线作整体比较。log-rank检验是比较两条或多条生存曲线的非参数方法,属于单因素分析方法,应用条件是除比较因素外,影响生存率的各协变量组间均衡可比。若需要调整协变量或同时分析众多因素对生存结局和生存时间的影响,应采用Cox比例风险回归模型。
Cox回归:
目前对生存资料的多因素分析最常用的是Cox比例风险回归模型Cox's proportional hazards regression model,简称Cox模型。该模型以生存结局和生存时间为因变量,可同时分析众多因素对生存期的影响,分析带有删失生存时间的资料,且不要求资料服从特定的分布类型,在医学随访研究中得到广泛的应用。
Cox模型的表达式为:
h(t)=h0 (t)exp(β_1 X_1+ β_2 X_2+…+β_p X_p) \
其中X_1 等为自变量,如研究开始时个体的年龄、性别、临床及生化指标等,h(t)为具有自变量X_1 等的个体在t时刻的风险函数,h0 (t)为自变量都等于0时t时刻的风险函数,称为基准风险函数baseline hazard function,β_1 等为各自变量的偏回归系数,需由样本资料作出估计。
此模型假定个体在t时刻的风险函数为两个因子的乘积,第一个因子为基准风险函数h0 (t);第二个因子为以p个自变量的线性组合为指数的指数函数,其中回归系数反映自变量的效应,表达式右边变量的线性组合取值越大,则风险函数h(t)越大,预后越差,线性组合的取值称为预后指数prognostic index(PI),按预后指数的若干分数将观察对象分成若干组,如低危组、中危组和高危组,对制定合理的治疗方案,正确指导病人的治疗,提高生存率有指导意义。Cox模型对第一个因子h0 (t)的内容不作任何设定,第二个因子却具有参数模型的形式,所以Cox模型实为半参数模型semi-parametric model,这使得它在解决问题时兼具灵活性和稳健性。若h0 (t)的函数形式已知,则为参数模型。
由Cox模型表达式可知,p个自变量共同作用时,h(t)=h0 (t) exp(β_1 X_1 )∗exp(β_2 X_2 )∗…exp(β_p X_p ) ,风险函数由h0 (t)增至exp(β_1 X_1 )∗exp(β_2 X_2 )∗…exp(β_p X_p )倍,故Cox模型是一种乘法模型。
任两个个体风险函数之比,即风险比(risk ratio,RR;或hazard ratio,HR)为:
RR=(hi (t))/(hj (t) ) =(h0 (t) exp(β_1 X_i1+ β_2 X_i2+…+β_p X_ip ))/(h0 (t) exp(β_1 X_j1+ β_2 X_j2+…+β_p X_jp ) ) = exp[β_1 〖(X〗_i1 −X_j1)+ β_2 〖(X〗_i2 −X_j2)+…+β_p 〖(X〗_ip −X_jp)] \
其中,i,j=1, 2, …,
该比值与h0 (t)无关,也与时间t无关,即模型中自变量的效应不随时间而改变,称为比例风险proportional hazard假定,简称PH假定,比例风险模型由此得名。
上式又可表示为:
ln〖hi (t)〗 −ln〖hj (t)〗= β_1 〖(X〗_i1 −X_j1)+ β_2 〖(X〗_i2 −X_j2)+…+β_p 〖(X〗_ip −X_jp)
即两个个体风险函数的对数应严格平行。
上式左边为风险比的自然对数,右边为自变量的变化量与相应回归系数的线性组合。故β_j (j=1, 2, …, p)的实际意义是:在其他自变量不变的条件下,变量X_j 每增加一个单位所引起的风险比的自然对数,或使风险函数增至exp(β_j)倍,即:
ln〖RR_j 〗=β_j 或 RR_j=exp(β_j)
当β_j>0时,RR_j>1,说明X_j 增加时,风险函数增加,即X_j 为危险因素;当β_j<0时,RR_j<1,说明X_j 增加时,风险函数下降,即X_j 为保护因素;当β_j=0时,RR_j=1,说明X_j 增加时,风险函数不变,即X_j 为无关因素。
回归系数的估计需要借助部分似然partial likelihood理论,用极大似然估计方法得到。该估计的最大优点是不需确定基准风险函数h0 (t)的形式就能估计回归系数,另一特性是估计结果仅与生存时间的排序有关,而不是生存时间的数值大小,这意味着生存时间的单调变换,如对生存时间加一个常数、乘以一个常数或取对数,都不会改变回归系数的估计值。
多变量Cox回归分析可以在其它变量保持不变的情形下,考察某个或某些变量对生存的影响,具体用途包括以下三个方面:影响因素分析、校正协变量后的组间比较和多变量生存预测。
应用Cox回归的注意事项:
1. Cox模型的基本假定是比例风险假定(PH假定)。只有在满足该假定前提下,基于此模型的分析预测才是可靠有效的。检查某自变量是否满足PH假定,最简单的方法是观察按该变量分组的Kaplan-Meier生存曲线,若生存曲线明显交叉,提示不满足PH假定。此图形法有一定的主观性,但其简便、直观,实际中很常用。
2. Cox比例风险回归模型所需样本含量的经验估算方法是至少需要相当于协变量个数10~15倍的阳性结局事件数。
关于生存分析的结果,需要报告以下内容:
1. 一般统计描述:主要报告观察单位数、终点事件发生数、删失数、随访时间(范围及其平均值);
2. 生存曲线估计:主要报告生存率估计方法、生存曲线(最好加上期初例数)、中位生存期、某特定事件生存率点估计及其置信区间;
3. 生存曲线比较:主要报告生存曲线、生存曲线比较方法、检验统计量及其p值。
4. 影响因素分析:主要报告回归方法、变量筛选方法、检验水准α、各变量RR、RR的95%置信区间及其p值、比例风险假定考察结果。