Survival Analysis 는 집단 내의 어떠한 event 가 발생했을 때, 시간에 대해서 특정 event 가 일어나는 function 을 구성하거나, Life Table 이나 사건이 발생할 시간에 대한 예측 regression problem, 더 나아가 여러 집단간의 비교까지 진행해 볼 수 있는 분석 기법이다
What is Survival Analysis ?
- Survival Analysis ( 생존분석 ) 은 두 집단의 생존분포를 비교하거나 시간과 관련된 하나 이상의 covariate 에 대해 분석하는 것을 말한다
- Reliability Analysis or Theory 라고도 불린다
Methods
정말 다양한 방식으로 생존분석이 가능하지만 크게는 두 가지 방식으로 분석이 가능하다
-
한 그룹 내의 member 들의 생존 시간을 분석하는 방법
- Life Tables
- Kaplan Meier curves
- Survival function
- Hazard function
-
2 개 이상의 그룹 간 비교
- Log Rank Test
-
Survival 모델의 변수가 ( categorical or quantitative ) event 에 어떻게 영향을 주는지 설명하는 방법
- Cox Regression ( = Proportional Hazards model )
- Parametric Survival models
- Survival Trees
- Survival Random Forest
Log Rank Test
Log Rank Test 는 두 개 이상의 그룹 간의 생존 ( survival/death events ) 분포를 비교하는 방식이다
기존 통계 검정 방식은 Chi-squared Statistical test 에 기반을 두며, 두 집단간의 생존 분포 ( survival event distribution ) 가 통계적으로 유의미하게 다른지에 대한 통계적 검증을 진행하는 것이라 보면 된다.
Cox proportional hazards Analysis
Cox proportional hazard analysis 는 regression problem 이다. 변수 별로 분석 방식을 달리 할 수 있다.
-
Categorical Variable or 연속 변량이지만 각 변량의 종류가 적을 때
-
Kaplan Meier curve 혹은 log rank test 를 활용하여 분석을 시행할 수 있다.
-
하지만 이 방식은 predictor output variable 이 Quantitative 할 때는 사용하지 않는다
( ex. Gene expression, Proportion of WBC, age etc. )
-
-
Continuos Varibale
- 연속 변수를 활용하여 survival function 을 구성할 때 Cox ph modeling 을 사용한다.
Tree Structured survival models
말 그대로 Single Tree 혹은 Random forest 를 사용하여 생존 분석을 하는 것.
두 집단간의 통계적인 차이를 보는 것도 가능하지만 무엇보다 각 변량이 정량적으로 얼마나 특정 사건 (survival event)에 영향을 주었는지 feature importance 를 측정할 수 있는 것이 장점이다.
'수학 > 통계' 카테고리의 다른 글
Kolmogorov–Smirnov test (1) | 2019.02.27 |
---|
댓글