저는 마이크로바이옴 관련해서 공부하기 전에 머신러닝을 먼저 공부했었습니다. 그래서 PCA 가 가장 제가 익숙한 차원축소 기법이었는데요. 최근에 마이크로바이옴 데이터를 분석하면서 주로 만난 것들은 PcoA (beta diversity plot), LDA (LEfSe) 로 차원축소를 진행하는 것을 보고 그 차이에 대해 공부해야겠다고 생각했습니다.
어렴풋하게나마 그것들의 차이에 대해 알고는 있었지만 이번에 LEfSe에 대해 자세히 공부하던 도중 한번 정리하고 넘어가면 좋을 것 같다고 생각하여 각각의 특징, 공통점이나 차이점 등을 정리해 보았습니다.
# statquest 유튜브를 참고하였습니다.
0. motivation
차원 축소란, 말 그대로 차원을 축소시켜 복잡한 데이터를 단순하게 만드는 것을 말합니다. 여기서 차원이란, feature 가 될 수 있기에 변수가 너무 많아 분석이 힘들거나, 시각화가 힘들때, 차원를 축소 (변수의 수를 줄임) 함으로써 데이터를 쉽게 분석할 수 있도록 해줍니다.
1. Principal component analysis (PCA)
앞서 말했듯이 PCA 란 차원을 축소시켜 데이터를 단순하게 만드는 작업입니다. 아래 예시를 보면, 두 개의 feature 가 있으므로 (Gene1, Gene2 / 2차원) 차원를 축소시키면 1차원인 직선 위에 데이터를 위치시킬 수 있습니다. 여기서 PCA는 각 1) 데이터를 1차원 직선에 정사영하여 그 거리의 합이 최소가 되게 하거나, 2) 1차원 직선에 정사영하였을 때 (0,0)으로부터 떨어진 거리가 최대가 되도록 직선을 긋습니다. (여기서 1, 2의 두 조건은 결국은 같은 의미입니다.)
여기서, 해당 1차원 직선을 PC1, PC1에 직교하는 직선을 PC2라고 하고 PCA를 수행하면 전체 분산 중에서 각 직선이 설명하는 분산의 정도가 %로 나타나게 된다. (여기서 차원이 증가하면 할수록 PC도 함께 증가하지만, scree plot을 사용하여 설명하는 분산이 많은 순으로 2개만 나타난다.)
2. Principal coordinates analysis (PCoA)
PCoA는 Multi-dimensional scaling 기법의 하나로 Metric Multi-dimensional scaling == PCoA이다. PCA는 PCoA와 상당히 유사하고 다른 부분은 거리를 계산하는 방법이다.
또 다른 예를 보면, 여기서는 유전자가 9개 있으므로 9차원에서 표현되는 데이터인데 여기서 cell 간의 거리를 구할 때 유클리디안 거리를 사용해서 구하면 PCA의 계산원리와 완전히 동일하므로 똑같은 2차원 평면상의 데이터를 확인할 수 있다. 그러나 PCoA는 유클리디안 거리가 아닌, 로그를 씌워서 뺀 뒤 절댓값의 평균을 구하는 등 다른 방법들을 사용하게 된다. 나머지는 모두 동일하다.
그렇다면, beta diversity plot을 그릴 때, PCA 가 아닌 PCoA를 사용하는 이유는 무엇일까?
먼저 마이크로바이옴 데이터의 특성과 관련되어 있고 composition data 인 마이크로바이옴 데이터를 다른 연속변수들과 같이 유클리디안 거리를 사용해서 계산하는 것은 옳지 않기 때문이다.
추가로, Bray-Curtis distance, Aitchison distance들이 기본적으로 다른 샘플 간의 비유사성을 정량하는 데에 주로 사용하다 보니 PCA 보다는 PCoA를 사용하게 된다.
다음 글에서 LDA와 LEfSe에 대해 적어보겠습니다.
# reference
1) https://www.youtube.com/watch?v=FgakZw6K1QQ
2) https://www.youtube.com/watch?v=GEn-_dAyYME&t=375s
'bioinfo' 카테고리의 다른 글
Sequencing quality (Illumina Miseq) : 1 (0) | 2023.09.01 |
---|---|
Sequencing quality : Phred quality score (illumina Miseq) (0) | 2023.08.28 |
차원축소 (PCA, PCoA, LDA) in microbiome data 와 LEfSe : 2 (microbiome) (0) | 2023.08.23 |
differential abundance tools for microbiome data (상대적 풍부도) (0) | 2023.08.20 |
OTU 와 ASV, 어떻게 ASV 는 선택되는가 (microbiome) (0) | 2023.08.19 |