Two sample Kolmogorov - Smirnov Test ( KS test)
서론
MR image 전처리의 전, 후 결과를 조금 더 정량적으로 비교하기 위해 방법을 찾다가 ks test라는 방법론을 사용하게 되었다.
하지만 위키피디아에 보면 비추천 하는 분위기라 two sample test 다른 방법을 찾아봐야 겠다.
ks test 란?
먼저 ks test 를 공부하기 전에 알아야 할 두가지 개념이 있다.
첫째로 supremum 이라는 개념과 두번째로 empirical distribution 이라는 개념이다. ( 이에 대해서는 다른 포스트를 참고하여 다룰 예정 )
ks test 는 쉽게 설명하면 비교하고자 하는 두 분포의 empirical distribution function 의 차이를 특정 기준과 비교하여 기각의 여부를 결정하는 것이다.
(이 때 , 특정 기준은 두 집단의 샘플 수로 계산할 수 있다)
아래의 graph 하나와 식 하나면 설명이 끝난다.
그래프에는 하나의 cdf 와 하나의 edf 가 보이며 그 사이에 black arrow 는 ks static 을 나타낸다.
저 black arrow 를 계산하는 식은 아래와 같다.
여기서 sup 은 해석학에서 상한을 뜻하는 supremum 의 약자이며 그 안의 각 function 은 distribution function 를 나타낸다.
결국 그래프의 black arrow 는 두 distribution function 의 차이의 집합중에서 상한의 값을 보여주는 것이다. 그리고 곧 그것이 two sample ks test 에서의 ks static 이 된다.
(ks test 에서 distribution function 은 empirical distribution function 을 사용한다)
이제 이렇게 계산해서 나온 ks static 을 언급했던 기준치와 비교하여 두 분포가 같은 집단에서의 결과인지 아닌지에 대한 결론을 내려주면 된다.
n, m 은 각 샘플 수이다.
오른쪽 사진과 같이 계산 하여 ks static 이 기준치 보다 높으면 null hypothesis 인 " 같은 집단 출신 " 을 기각하면 되는 것이고 기준치 보다 낮다면 기각하지 못하게 된다.
결론
ks test 에 대하여 정말 간단히 알아볼 수 있었다.
ks test 도 약점이 많은 test method 라고 한다. ( 모든 feature 하나하나에 sensitive 하여 general 한 차이를 보지 못한다. => less powerful )
위키피디아에 따르면 아래의 3 가지 test 도 같이 공부할 것을 추천하고 있다.
Reference
1. 위키피디아 (https://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test)
'수학 > 통계' 카테고리의 다른 글
Survival Anaylsis (0) | 2019.11.17 |
---|
댓글