서로 다른 그룹 간의 상대적 풍부도를 비교하는 differential abundance 분석은 마이크로바이옴 데이터가 갖는 특정 표현형에서 어떤 taxon이 중요한지, 유의한 차이가 나는 것들이 무엇인지 알기 위해서 필수적입니다.
해당 분석을 위해서 정말 다양한 분석 툴들이 있는데, 우리 연구실에서 사용하는 LEfSe 나 RNA-seq에 주로 사용되지만 마이크로바이옴 데이터를 분석하는 데에도 가끔 사용되는 DESeq2, edgeR 등이나 compositional data의 분석을 용이하게 한다는 ALDEx2, ANCOM-II 등 정말 많은 도구들이 있고 아직까지 어느 정도 혼용되고 있습니다. (LEfSe 가 가장 많이 사용되는 것으로 알고있습니다.)
다만, 앞서 언급한 것과 같이 compositional data의 형태를 띠는 마이크로바이옴 데이터를 일반적인 continuous data와 동일한 도구를 사용하여 분석하는 것은 옳지 않다는 이야기가 적어도 십 년 전부터 계속 있어왔던 것처럼 보입니다.
오늘 주로 참고한 논문에서는 ALDEx2, ANCOM-II 가 이런 특성을 갖는 마이크로바이옴 데이터를 분석하는 데에 가장 알맞은 도구라고 이야기를 하고 있습니다. 실제로, 위에서 언급한 도구들을 포함하여 14개의 도구를 가지고 마이크로바이옴 데이터를 분석한 뒤, 그 특정을 정리한 논문으로 상당히 많은 노력이 들어간 것 같은 논문입니다.
정말 많은 측면에서 분석을 수행하였지만, 저렇게 많은 도구에 대한 내용을 모두 확인할 자신은 없기에 결론 부분만 간단하게 보면,
동일한 데이터에 대해 다양한 도구를 가지고 differential abundance 분석 수행한 결과,
limma voom, edgeR, wilcoxon, LEfSe > 평균적으로 많은 taxa 가 유의한 차이가 있다고 나타남
ALDEx2, ANCOM-II > 상대적으로 적은 양의 taxa 가 유의한 것으로 나타남 (논문에서는 더 보수적이면서 더 정확한 경향이 있다고 서술하였습니다.)
또한 LEfSe는 마이크로바이옴 데이터를 rarefying 하기 때문에 별로 좋은 도구가 아니지만 그럼에도 가장 많이 사용되고 있는 툴 중 하나라고 하네요.
이것과 관련해서, 이후에 LEfSe, ALDEx2, ANCOM-II 가 각각 정확히 어떻게 작동하는지 공부해 볼 생각입니다.
그럼에도, 저희 연구실을 포함해서 LEfSe가 가장 많이 사용되는 이유는 오히려 많은 taxa 가 잡히기 때문이 아닌가 하는 생각도 하게 됩니다. 보수적으로 적은 양의 taxa 가 잡힌다는 것은 실험 결과에 대해 이야기할 수 있는 것이 그만큼 줄어든다는 것이니까요. LEfSe로 분석을 해보아도 유의한 taxa 들이 엄청나게 많이 나오지는 않습니다.
그래서 그것보다 더욱 보수적으로 설정되어있는 툴을 사용하면 유의한 taxa 가 나오지 않을때 데이터로 이야기할 거리가 많이 줄어들 수 있겠네요.
하나씩 천천히 공부해 보는 시간이 필요할 것 같습니다.
# reference
1) Nearing, Jacob T., et al. "Microbiome differential abundance methods produce different results across 38 datasets." Nature Communications 13.1 (2022): 342.
'bioinfo' 카테고리의 다른 글
Sequencing quality (Illumina Miseq) : 1 (0) | 2023.09.01 |
---|---|
Sequencing quality : Phred quality score (illumina Miseq) (0) | 2023.08.28 |
차원축소 (PCA, PCoA, LDA) in microbiome data 와 LEfSe : 2 (microbiome) (0) | 2023.08.23 |
차원축소 (PCA, PCoA, LDA) in microbiome data 와 LEfSe : 1 (microbiome) (0) | 2023.08.21 |
OTU 와 ASV, 어떻게 ASV 는 선택되는가 (microbiome) (0) | 2023.08.19 |