删失
在统计学、工程学、经济学和医学研究领域中,删失是指值的测量或观测只有部分数据的一种情況。
例如,假设一项研究进行了测量影响的一种药物的死亡率。研究中,可知一个人的死亡年龄为至少75年。如果测试对象在75岁退出研究,或如果该人在75岁的时候仍然在世,删失的情况就发生了。
删失还发在测量仪器的可测量范围之外发生。 例如,一个浴室秤可能只达到140公斤。如果一个160公斤的人使用这个秤,观察员只会知道这个人的重量至少为140公斤。
删失数据问题,和缺失数据问题有关,前者是其中观察值的一些可变部分地已知,后者是在那里观察值的一些变量是未知的。
不应将删失与截断的相关概念概念混淆。通过删失,观察结果要么知道适用的确切值,要么知道值在一个区间内。通过截断,观察结果永远不会导致超出给定范围的值:如果看到范围之外的人口中的值,则永远不会看到或永远不会记录。请注意,在统计学中,截断与舍入不同。
类型
[编辑]- 左删失:一个数据点小于某一个确定的值,但它的实际值是未知的。
- 区间删失:一个数据点的值在两个特定的值之间。
- 右删失:一个数据点大于某一个确定的值,但它的实际值是未知的。
- 类型I删失:如果实验有一定数量的受试者或项目并在预定时间停止实验,则可能发生类型I删失,此时剩余的受试者将被右删失。
- 类型II删失:如果实验有一定数量的受试者或项目并在观察到预定数量的受试者或项目失败时停止实验,则可能发生类型II删失,此时剩余的受试者将被右删失。
- 随机 (或 非信息) 删失 是在每个主题都有一个删失时间 的统计学上的独立 ,他们的故障时间。 所观察到的价值是最小的删失和失败的次数;主题的失败的时间大于其删失的时间适当删失。
当观察值需要后续或检查时,可能会发生间隔删失。左右删失是区间删失的特殊情况,区间的开始分别为零或结束于无穷大。
使用左删失数据的估计方法各不相同,并且并非所有估计方法都适用于所有数据集,或者最可靠。 [1]
对时间间隔数据的常见误解是将其作为左删失间隔,其中开始时间未知。 在这些情况下,我们在时间间隔上有一个下限,因此数据被正确删除 (尽管在被视为时间轴时,缺失的起点位于已知区间的左侧!)。
分析
[编辑]可以使用特殊技术来处理删失数据。具有特定故障时间的测试被编码为实际故障;对于删失类型和已知的间隔或限制,对删失数据进行编码。特殊软件程序(通常是面向可靠性的)可以对摘要统计,置信区间等进行最大似然估计。
流行病学
[编辑]分析涉及删失数据的统计问题的最早尝试之一是丹尼尔伯努利 1766年对天花发病率和死亡率数据的分析,以证明疫苗接种的效果。 [2] 使用Kaplan-Meier估计器估算删失成本的早期论文是Quesenberry等人。 (1989), [3]然而这种方法后来于1997年由Lin等人发现。 [4]除非所有患者随着时间的推移累积具有共同确定性率函数的成本,否则它们无效,他们提出了一种称为Lin估计量的替代估计技术。 [5]
可靠性测试通常包括对项目(在特定条件下)进行测试,以确定发生故障所需的时间。
- 有时会计划和预期故障,但不会发生:操作员错误,设备故障,测试异常等。 测试结果不是所需的故障时间,但可以(并且应该)用作终止时间。 使用删失数据是无意的,但却是必要的。
- 有时工程师会计划一个测试程序,以便在一定的时间限制或失败次数之后,所有其他测试都将终止。 这些暂停时间被视为右删失数据。 使用删失数据是有意的。
对复制测试数据的分析包括失败项目的失败时间和未失败的测试终止时间。
删失的回归
[编辑]早期的删失回归 模型 , 托比特模型 ,由詹姆斯托宾于1958年提出。 [6]
参见
[编辑]参考文献
[编辑]- ^ Helsel,D。 很多关于Nothing:Nonconstects in Science, Ann。 OCCUP。 Hyg。,Vol。 54,第3期,第257-262页,2010年
- ^ 伯努利D.(1766)“Essai D'UNE新式分析德拉mortalitécausée齐名的La Petitevérole 记忆棒。数学物理层学院院刊罗伊,科学,巴黎 ,转载于布拉德利(1971年)21和鼓风机(2004年)
- ^ CP Quesenberry,Jr,B Fireman,RA Hiatt和JV Selby,对获得性免疫缺陷综合征患者住院治疗的生存分析,Am J Public Health 1989
- ^ Lin DY,Feuer EJ,Etzioni R,Wax Y.,估算不完整随访数据的医疗费用,生物识别1997
- ^ Wijeysundera HC,Wang X,Tomlinson G,Ko DT,Krahn MD,通过审查数据估算医疗保健成本的技术:医疗服务研究员概述,Clinicoecon Outcomes Res。 2012
- ^ Tobin, James. Estimation of relationships for limited dependent variables. Econometrica. 1958, 26 (1): 24–36. JSTOR 1907382. doi:10.2307/1907382.
进一步阅读
[编辑]- Blower, S. (2004), D, Bernoulli's "An attempt at a new analysis of the mortality caused by smallpox and of the advantages of inoculation to prevent it (PDF). [2019-05-25]. (原始内容 (PDF)存档于2017-08-08). (146 KiB)", Reviews of Medical Virolology, 14: 275–288
- Bradley, L. (1971) Smallpox Inoculation: An Eighteenth Century Mathematical Controversy, Nottingham
- Mann, N. R.; et al. Methods for Statistical Analysis of Reliability and Life Data. New York: Wiley. 1975. ISBN 047156737X.
- Bagdonavicius, V.,Kruopis, J., Nikulin, M.S. (2011),"Non-parametric Tests for Censored Data", London, ISTE/WILEY,ISBN 9781848212893.