기타

PERMANOVA in Beta-diversity (microbiome)

" " 2023. 11. 27. 09:49

베타다양성 분석을 수행할 때 각 클러스터 간에 유의한 차이가 존재하는지 확인하기 위한 통계적 기법으로 PERMANOVA (Permutational Multivariate Analysis of variance) 를 사용합니다. 이것이 정확이 어떤 기법인지 알아보고자 합니다.

 

https://rpubs.com/lconteville/714853

 

위와 같이 베타다양성 분석을 수행하였다면, 우리는 각 그룹별로 유의한 거리의 차이가 있는지 확인해야 합니다. 그럼 통계기법을 수행하여 p-value 가 유의한지 ( < 0.05 ) 확인해야 합니다. 이때 사용하는 것이 permanova 인데요, 이를 이해하기 위해서는 순차적인 학습이 필요합니다. (ANOVA -> MANOVA -> PERMANOVA)

 

 

1) ANOVA (Analysis of variance, 분산분석)

 

anova 는 일반적으로 다수의 집단 (세 개 이상) 을 서로 비교하고자 할 때 사용합니다. 아래와 같이 집단 내 분산, 집단 간 분산을 사용하여 집단의 평균을 비교합니다. 

 

가장 기본적인 형태로 하나의 종속변수를 가질 때 사용하며 귀무가설은 '집단 간 평균의 차이가 없다' 입니다. 

 

집단 평균들 간에 분산이 클수록, 집단 내 분산이 작을수록 평균의 차이가 분명해집니다.

 

https://databrio.com/blog/anova-step-by-step-procedure-

 


 

2) MANOVA (Multivariate Analysis of variance, 다변량 분산분석)

 

분산분석 (ANOVA) 를 기반으로 종속변수가 2개 이상인 집단 간의 분석을 수행할 때 사용합니다. 아래의 그림과 같이 어떤 treatment 를 수행했는지에 따라 두 개의 종속변수 (Tumor size & PSA) 가 변화하고 있습니다. 이때 A, B, C 간에 유의한 차이가 존재하는지 확인할 수 있는 통계 기법입니다. 귀무가설은 '모든 그룹의 모든 종속변수에는 차이가 없다' 입니다.

 

 

 

+ 위의 ANOVA, MANOVA 는 정규성 만족을 기반으로 합니다. 마이크로바이옴 데이터는 정규성을 만족하지 못하는 고차원의 데이터로 위의 기법은 거의 사용하지 않습니다.

 


3) PERMANOVA (Permutational Multivariate Analysis of variance , 순열 다변량 분산분석)

 

(비모수적, 거리 기반)

 

  1. PER"MANOVA" 인 이유는 수많은 종의 미생물이 treatment 에 따라 변하는지를 보기 때문입니다. (종속변수가 여러 개)

 

   2. "PER"MANOVA 인 이유는 "순열" 이라는 의미의 permutational 이 사용되기 때문입니다. 관측된 데이터의 순서를 무       작위로 바꾸어 새로운 순열을 만들고 각 순열에 대한 거리를 계산하여 통계분포를 만들고 특정 통계량이 나타날 확률을    계산 (p-value) 합니다. (해당 부분에 대한 설명은 아래 영상 3:15 부터 자세하게 확인할 수 있습니다.)

 

 

 

   3. 위의 ANOVA 는 그룹의 평균에 차이가 있는지를 확인하는 반면에 PERMANOVA 는 PcoA 수행에 대해 사용되는 만큼    선택한 거리 측정 방식 (Bray curtis, Jaccard distance 등) 을 기반으로 거리에 유사성이 있는지 확인합니다.

 

 

귀무가설은 '측정 공간에서 모든 그룹에 대해 그룹의 중심점과 분산이 동일하다' 입니다.

 

 


 

 

마이크로바이옴 데이터를 사용하여 어떤 거리를 기반으로 한 샘플의 분포를 나타냈다고 가정합니다. (PCA, PcoA, NMDS 등...) 건강한 그룹, 질병에 걸린 그룹이 있다고 했을 때 우리가 알고 싶은 것은 두 그룹의 마이크로바이옴 구성에 차이가 있는지입니다. PERMANOVA 는 집단의 거리를 기반으로 중심점이나 샘플의 분산에 대해 그룹 간에 차이가 있는지 확인합니다.  (PERMANOVA 는 distance matrix 를 기반으로 수행된다는 것을 기억해야 합니다.)

요약: 모든 그룹에 유의한 차이가 없다면 -> 아무리 다른 순열 (무작위 샘플이 할당, 그룹의 구성원이 무작위로 바뀜) 에 대해 중심점을 구해도, 중심점은 달라지지 않음

 

 

 

# reference

 

1) https://archetypalecology.wordpress.com/2018/02/21/permutational-multivariate-analysis-of-variance-permanova-in-r-preliminary/

 

2) https://www.youtube.com/watch?v=1a9LZTnwyEw&t=195s