很早之前就看到了这个问题,自己也不太理解,一直划水。。。
直到最近开始看这本资料:
John P. Klein, Melvin L. Moeschberger Survival analysis Techniques for censored and truncated data
参照文章里面的定义和例子,大概写出自己的想法,有错误还希望指正 = =
(回答以生存分析为例)
先是主要结论:删失和截尾最主要的区别,粗糙一点来说
观测者对于删失数据的发生是知情的,只是仍然不知道对应这些删失数据,其失效事件发生的精确时间。
观测值对于截尾数据的发生是不知情或不关心的。
下面是具体的理解
首先是翻译问题
按照其他回答中提到的,总结起来,censoring翻译为删失,truncation翻译为截尾或截断。
按照这个翻译来看, @JANE.MIAO 的说法应该有误,将两者搞反了。
censoring:删失
按照参考资料中的解释:Censored data arises when an individual’s life length is known to occur only in a certain period of time.(正文Page1)
也就是说,要想知道对象存活到的准确的时间点(lifetime),事件的失效时间点(failure time)必须要在删失时间的区间以内,也就是要在观察区间以内。如果失效事件发生的时间不是在观察的时间区间以内,该对象的数据就会以删失数据(censored data)的形式出现。我们只知道事件在观测区间以外发生了这个事情,但并不知道具体事件发生的失效时间点的精确值。和截尾不同的是,数据存在的事实我们是知道的(后面会说截尾的特点,主要是对于观测外的事件的发生并不知情/不考虑)。
左删失(left censoring)
当事件发生时,观测还没有开始,事件发生时间位于观测区间的左侧,那么相应的数据就是左删失的数据。我们只知道事件在观测开始之前就发生,但还是不知道精确的发生时间。
右删失(right censoring)
在观测区间中,对象并没有发生失效事件,失效事件的发生时间是在我们观测区间的右侧,但我们也不能得到精确的失效时间。
比如在对一群癌症病人死亡时间的统计中,由于时间和成本的限制,我们只能观测记录接下来5年内病人死亡情况。但当时间超过5年时,也许还是有一部分病人没有死亡,但我们实验的观测和记录已经终止了,那么这些还未死亡的病人的数据就是右删失的数据。
interval censoring(区间删失/间隔删失?翻译不太好...)
在某一个时间区间内,我们无法知道事件的精确失效时间,只知道失效事件是在这个区间内发生的。
truncation 截尾/截断
原文:Truncation of survival data occurs when only those individuals whose event time lies within a certain observational window (YL,YR) are observed. An individual whose event time is not in this interval is not observed and no information on this subject is available to the investigator.(正文Page72)
也就是说,我们只能从一个固定的时间窗内观测,记录事件在这个时间段内发生的精确时间点。但是对于时间窗以外的时间发生的失效事件,我们是不知情的。只有当事件的失效时间(也就是事件的发生时间,文中的event time)出现在观测区间内,我们才能知道这个事件及其观测数据的存在。
左截尾(left truncation):只能观测到一个时间点之后发生的失效事件。左截尾时间点之前发生的失效事件不知情/不关心。
右截尾(right truncation):只能观测到一个时间点之前发生的失效事件。右截尾时间点之后发生的失效事件不知情/不关心。
interval truncation(大家自己翻译吧...):在这个固定区间内发生的失效事件不知情,也就是在这个区间内发生的失效事件不能被观测到,或者说不关心或不知情。
我认为删失和截尾最主要的区别是:
观测者对于删失的数据是知情的,只是仍然不知道对应这些删失数据,其失效事件发生的精确时间。
观测值对于截尾的数据的发生是不知情或不关心的。
|