본문 바로가기
수학/통계

Survival Anaylsis

by Sangwook.Aaron.Kim 2019. 11. 17.

Survival Analysis 는 집단 내의 어떠한 event 가 발생했을 때, 시간에 대해서 특정 event 가 일어나는 function 을 구성하거나, Life Table 이나 사건이 발생할 시간에 대한 예측 regression problem, 더 나아가 여러 집단간의 비교까지 진행해 볼 수 있는 분석 기법이다

What is Survival Analysis ?

  • Survival Analysis ( 생존분석 ) 은 두 집단의 생존분포를 비교하거나 시간과 관련된 하나 이상의 covariate 에 대해 분석하는 것을 말한다
  • Reliability Analysis or Theory 라고도 불린다

Methods

​ 정말 다양한 방식으로 생존분석이 가능하지만 크게는 두 가지 방식으로 분석이 가능하다

  1. 한 그룹 내의 member 들의 생존 시간을 분석하는 방법

    1. Life Tables
    2. Kaplan Meier curves
    3. Survival function
    4. Hazard function
  2. 2 개 이상의 그룹 간 비교

    1. Log Rank Test
  3. Survival 모델의 변수가 ( categorical or quantitative ) event 에 어떻게 영향을 주는지 설명하는 방법

    1. Cox Regression ( = Proportional Hazards model )
    2. Parametric Survival models
    3. Survival Trees
    4. Survival Random Forest

Log Rank Test

Log Rank Test 는 두 개 이상의 그룹 간의 생존 ( survival/death events ) 분포를 비교하는 방식이다

기존 통계 검정 방식은 Chi-squared Statistical test 에 기반을 두며, 두 집단간의 생존 분포 ( survival event distribution ) 가 통계적으로 유의미하게 다른지에 대한 통계적 검증을 진행하는 것이라 보면 된다.

Cox proportional hazards Analysis

Cox proportional hazard analysis 는 regression problem 이다. 변수 별로 분석 방식을 달리 할 수 있다.

  1. Categorical Variable or 연속 변량이지만 각 변량의 종류가 적을 때

    • Kaplan Meier curve 혹은 log rank test 를 활용하여 분석을 시행할 수 있다.

    • 하지만 이 방식은 predictor output variable 이 Quantitative 할 때는 사용하지 않는다

      ( ex. Gene expression, Proportion of WBC, age etc. )

  2. Continuos Varibale

    • 연속 변수를 활용하여 survival function 을 구성할 때 Cox ph modeling 을 사용한다.

Tree Structured survival models

말 그대로 Single Tree 혹은 Random forest 를 사용하여 생존 분석을 하는 것.

두 집단간의 통계적인 차이를 보는 것도 가능하지만 무엇보다 각 변량이 정량적으로 얼마나 특정 사건 (survival event)에 영향을 주었는지 feature importance 를 측정할 수 있는 것이 장점이다.

'수학 > 통계' 카테고리의 다른 글

Kolmogorov–Smirnov test  (1) 2019.02.27

댓글