본문 바로가기
수학/통계

Kolmogorov–Smirnov test

by Sangwook.Aaron.Kim 2019. 2. 27.

Two sample Kolmogorov - Smirnov Test ( KS test)


서론

MR image 전처리의 전, 후 결과를 조금 더 정량적으로 비교하기 위해 방법을 찾다가 ks test라는 방법론을 사용하게 되었다.

하지만 위키피디아에 보면 비추천 하는 분위기라 two sample test 다른 방법을 찾아봐야 겠다.




ks test 란?

먼저 ks test 를 공부하기 전에 알아야 할 두가지 개념이 있다.

첫째로 supremum 이라는 개념과 두번째로 empirical distribution 이라는 개념이다. ( 이에 대해서는 다른 포스트를 참고하여 다룰 예정 )


ks test 는 쉽게 설명하면 비교하고자 하는 두 분포의 empirical distribution function 의 차이를 특정 기준과 비교하여 기각의 여부를 결정하는 것이다.

(이 때 , 특정 기준은 두 집단의 샘플 수로 계산할 수 있다)


아래의 graph 하나와 식 하나면 설명이 끝난다.





그래프에는 하나의 cdf 와 하나의 edf 가 보이며 그 사이에 black arrow 는 ks static 을 나타낸다.

저 black arrow 를 계산하는 식은 아래와 같다. 


여기서 sup 은 해석학에서 상한을 뜻하는 supremum 의 약자이며 그 안의 각 function 은 distribution function 를 나타낸다.

결국 그래프의 black arrow 는 두 distribution function 의 차이의 집합중에서 상한의 값을 보여주는 것이다. 그리고 곧 그것이 two sample ks test 에서의 ks static 이 된다.


(ks test 에서 distribution function 은 empirical distribution function 을 사용한다)


이제 이렇게 계산해서 나온 ks static 을 언급했던 기준치와 비교하여 두 분포가 같은 집단에서의 결과인지 아닌지에 대한 결론을 내려주면 된다.


n, m 은 각 샘플 수이다.

오른쪽 사진과 같이 계산 하여 ks static 이 기준치 보다 높으면 null hypothesis 인 " 같은 집단 출신 " 을 기각하면 되는 것이고 기준치 보다 낮다면 기각하지 못하게 된다.


결론

ks test 에 대하여 정말 간단히 알아볼 수 있었다. 

ks test 도 약점이 많은 test method 라고 한다. ( 모든 feature 하나하나에 sensitive 하여 general 한 차이를 보지 못한다. => less powerful )


위키피디아에 따르면 아래의 3 가지 test 도 같이 공부할 것을 추천하고 있다.


1. Kuiper's test
2. Shapiro-Wilk test
3. Anderson-Darling test

Reference

1. 위키피디아 (https://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test)


'수학 > 통계' 카테고리의 다른 글

Survival Anaylsis  (0) 2019.11.17

댓글