ANCOM-BC (Analysis of Composition of Microbiomes with Bias Correction) 은 이전에 몇 번 말씀드렸다시피,
LEfSe, ALDEx2 등과 함께 differential abundacne 룰 분석하기 위한 프로그램입니다.
그러나 실제 compositional 한 마이크로바이옴의 relative abundance 데이터를 분석하기 위해서는 LEfSe 보다는 ANCOM-BC 또는 ALDEx2 가 적절하다는 의견이 있습니다.
다만, 통계적으로 유의함을 확인하기 위해서는 LEfSe 또한 어느 정도의 역할이 가능하며, LDA score 등을 조절하며 분석이 가능하기 때문에 자주 사용되는 도구입니다.
다만, 제가 사용하면서 느낀 LEfSe 가 수행되는 과정에서의 이해가 어려운 부분이 있었고 다른 도구들을 사용해 보면 좋을 것 같다고 생각하여 이번에 ANCOM-BC 에 대해 공부해 보고 해당 내용에 대해 포스팅하려 합니다.
++
실제 마이크로바이옴 데이터를 가지고 differential abundance 분석을 수행할 때 주로 어떤 도구를 사용하는지에 대해 한번 보고 싶었고 인용수를 확인해 봤습니다.
1. LEfSe (Nicola Segata et al., Genome Biol, 2011) : 10905
2. ANCOM - BC (Huang Lin & Shyamal Das Peddada., nature communitcations, 2020) : 440
3. ALDEx, ALDEx2 (Andrew D. Fernandes et al., PLOS ONE, 2013) : 486
4. metagenomeSeq (Joseph N Paulson et al., nature methods, 2013) : 1352
이 정도로 차이 나는 줄은 몰랐는데 LEfSe 가 압도적으로 많이 인용되고 있습니다. 출판된 년도를 감안하면 ANCOM - BC 도 최근에는 자주 사용되는 것 같아서 공부해 볼 만한 가치는 충분하다고 생각합니다.
ANCOM - BC
1. 간단한 소개
ANCOM 은 기본적으로 aitchison method (CLR transformation) 을 사용해서 상대적 풍부도에서 절대적 풍부도를 추론합니다. 이 과정에서 중요한 것은 FDR 을 조절하는 것인데 ANCOM 은 샘플의 크기가 너무 작지 않은 한, 이 FDR 조절을 효과적으로 수행합니다.
마이크로바이옴 데이터의 특성을 이야기할 때 항상 강조되는 것은 상대적이고, compositonal 하다는 것 입니다. 두 개의 샘플을 비교할 때에도, A 샘플의 총량, B 샘플의 총량을 알 수 없기 때문에 직접적으로 비교하는 것 또한 어렵습니다. 우리는 단지 최초 샘플에서부터 무작위 추출을 무한히 수행하여 얻은 시퀀싱 데이터를 가지고 분석하기에 단순한 기법을 사용하기엔 무리가 있습니다. (위 논문에서는 sampling fraction 이 다르다고 표현합니다.)
ANCOM - BC 는 우리가 모르는 샘플링된 비율을 추정하고, 그 차이로 인해 나타나는 편향을 수정하기 위해 로그 선형회귀 모델을 사용, 관심있는 변수에 따라 유의하게 차이나는 taxon 을 식별합니다.
2. Normalization (ALR transformation)
ANCOM-BC 에서 수행되는 정규화 기법은 ALR transformation (Additive log-ratio transformation) 입니다.
(ALR transformation 관련해서는 아래 링크에 잘 설명되어 있었습니다)
Compositional Data
세상에는 이미지, 음성, 로그 등의 많은 종류의 데이터가 다양한 분야에 존재합니다. 특히, 생물학, 화학, 지질학 등의 자연과학에서는 다음 표와 같이 다양한 구성 요소가 퍼센트로 표현되어 합
hongl.tistory.com
이 정규화 기법을 사용함으로써 서로 다른 sampling fraction 을 갖는 샘플의 relative abundance 에 대한 absolute abundance 를 추정한 뒤에 그 성능을 평가하였습니다.
Group1 과 Group2 는 다른 sampling fraction 을 갖습니다. 그 의미는, 각 그룹에서 동일한 relative abundance 를 갖는다고 하더라도, 그것이 곧 동일한 absolute abundance 를 갖지 않는다는 것 입니다. 위의 그림에서는 그런 편향을 제거하기 위해 정규화 기법을 사용한 이후의 성능을 확인하였습니다. 추정된 sampling fraction 과 실제 sampling fraction 의 차이에 대한 편차를 계산하였는데, ANCOM-BC 에서 편차가 상당히 작은 것으로 확인되었습니다.
3. FDR (adjusted p value)
해당 분석에서는 여러 그룹을 동시에 비교하는 경우가 많기 때문에 위양성 비율이 증가하는 것에 대한 대비를 수행합니다. 중요한 부분은 아니지만 관련해서 공부했던 게 있어서 링크만 올려놓겠습니다. (ANCOM-BC 에서는 Bonferroni correction 을 적용하였습니다.)
FDR (false discovery rate)
최근에 FDR 이라는 단어를 너무 자주 만나고 있습니다. 마이크로바이옴 데이터의 differential abundance 도구에 대해 공부할 때도 자주 나오고, RNA-seq 데이터 분석할 때도 (DEG) p_value 와 FDR p_value 중에
hiimgood.tistory.com
4. 실행코드 (QIIME2)
(ancom-bc 는 R 로 작성되어서 qiime2 에서도 R 을 기반으로 작동합니다.)
conda activate qiime2-2023.7
qiime composition ancombc --help
# ### example: ancombc single formula
qiime composition ancombc \
--i-table table.qza \
--m-metadata-file metadata.tsv \
--p-formula bodysite \
--o-differentials dataloaf.qza
# ### example: ancombc multi formula with reference levels
qiime composition ancombc \
--i-table table.qza \
--m-metadata-file metadata.tsv \
--p-formula 'bodysite + animal' \
--p-reference-levels bodysite::tongue animal::dog \
--o-differentials dataloaf.qza
ANCOM-BC 플러그인의 파라미터 관련 정보는 아래 링크에서 확인하실 수 있습니다.
https://docs.qiime2.org/2023.9/plugins/available/composition/ancombc/
ancombc: Analysis of Composition of Microbiomes with Bias Correction — QIIME 2 2023.9.1 documentation
docs.qiime2.org
++
파라미터 중에 이렇게 FDR method 중에 어떤 걸 사용할지 정할 수 있더라구요. BH 도 보이고 bonferroni 도 보이는데 default 가 왜 holm 인지 모르겠습니다. 논문에서는 bonferroni 사용했다는 부분을 확인했습니다.
결과 파일을 qzv 로 변환하여 열면, 다음과 같은 결과를 얻을 수 있습니다. (collapsed 가 안되어있는데 샘플데이터로 수행한 결과라서 여기까지만 확인하였습니다.)
# reference
1) Gloor, Gregory B., et al. "Microbiome datasets are compositional: and this is not optional." Frontiers in microbiology 8 (2017): 2224.
2) Lin, Huang, and Shyamal Das Peddada. "Analysis of compositions of microbiomes with bias correction." Nature communications 11.1 (2020): 3514.
3) https://docs.qiime2.org/2023.9/plugins/available/composition/ancombc/
'bioinfo' 카테고리의 다른 글
Unifrac distance (microbiome) (0) | 2023.12.16 |
---|---|
PERMANOVA in Beta-diversity (microbiome) (1) | 2023.11.27 |
LEfSe 코드 살펴보기 (튜토리얼) (4) | 2023.10.31 |
QIIME2 feature classifier : 2 (naive bayes classifier) (1) | 2023.10.29 |
enterotype (microbiome, R) (1) | 2023.10.28 |