bioinfo

ANCOM-BC (Analysis of Composition of Microbiomes with Bias Correction)

" " 2023. 11. 5. 00:45

ANCOM-BC (Analysis of Composition of Microbiomes with Bias Correction) 은 이전에 몇 번 말씀드렸다시피,
LEfSe, ALDEx2 등과 함께 differential abundacne 룰 분석하기 위한 프로그램입니다.


그러나 실제 compositional 한 마이크로바이옴의 relative abundance 데이터를 분석하기 위해서는 LEfSe 보다는 ANCOM-BC 또는 ALDEx2 가 적절하다는 의견이 있습니다.

 

differential abundance 분석 도구의 특징



다만, 통계적으로 유의함을 확인하기 위해서는 LEfSe 또한 어느 정도의 역할이 가능하며, LDA score 등을 조절하며 분석이 가능하기 때문에 자주 사용되는 도구입니다.

다만, 제가 사용하면서 느낀 LEfSe 가 수행되는 과정에서의 이해가 어려운 부분이 있었고 다른 도구들을 사용해 보면 좋을 것 같다고 생각하여 이번에 ANCOM-BC 에 대해 공부해 보고 해당 내용에 대해 포스팅하려 합니다.

 

++

실제 마이크로바이옴 데이터를 가지고 differential abundance 분석을 수행할 때 주로 어떤 도구를 사용하는지에 대해 한번 보고 싶었고 인용수를 확인해 봤습니다.

 

1. LEfSe (Nicola Segata et al., Genome Biol, 2011) : 10905

2. ANCOM - BC (Huang Lin & Shyamal Das Peddada., nature communitcations, 2020) : 440

3. ALDEx, ALDEx2 (Andrew D. Fernandes et al., PLOS ONE, 2013) : 486

4. metagenomeSeq (Joseph N Paulson et al., nature methods, 2013) : 1352

 

이 정도로 차이 나는 줄은 몰랐는데 LEfSe 가 압도적으로 많이 인용되고 있습니다. 출판된 년도를 감안하면 ANCOM - BC 도 최근에는 자주 사용되는 것 같아서 공부해 볼 만한 가치는 충분하다고 생각합니다.

 


ANCOM - BC

 

1. 간단한 소개

ANCOM 은 기본적으로 aitchison method (CLR transformation) 을 사용해서 상대적 풍부도에서 절대적 풍부도를 추론합니다. 이 과정에서 중요한 것은 FDR 을 조절하는 것인데 ANCOM 은 샘플의 크기가 너무 작지 않은 한, 이 FDR 조절을 효과적으로 수행합니다. 

 

 

 

마이크로바이옴 데이터의 특성을 이야기할 때 항상 강조되는 것은 상대적이고, compositonal 하다는 것 입니다. 두 개의 샘플을 비교할 때에도, A 샘플의 총량, B 샘플의 총량을 알 수 없기 때문에 직접적으로 비교하는 것 또한 어렵습니다. 우리는 단지 최초 샘플에서부터 무작위 추출을 무한히 수행하여 얻은 시퀀싱 데이터를 가지고 분석하기에 단순한 기법을 사용하기엔 무리가 있습니다. (위 논문에서는 sampling fraction 이 다르다고 표현합니다.)

 

ANCOM - BC 는 우리가 모르는 샘플링된 비율을 추정하고, 그 차이로 인해 나타나는 편향을 수정하기 위해 로그 선형회귀 모델을 사용, 관심있는 변수에 따라 유의하게 차이나는 taxon 을 식별합니다.

 

2. Normalization (ALR transformation)

ANCOM-BC 에서 수행되는 정규화 기법은 ALR transformation (Additive log-ratio transformation) 입니다. 

(ALR transformation 관련해서는 아래 링크에 잘 설명되어 있었습니다)

 

Compositional Data

세상에는 이미지, 음성, 로그 등의 많은 종류의 데이터가 다양한 분야에 존재합니다. 특히, 생물학, 화학, 지질학 등의 자연과학에서는 다음 표와 같이 다양한 구성 요소가 퍼센트로 표현되어 합

hongl.tistory.com

 

이 정규화 기법을 사용함으로써 서로 다른 sampling fraction 을 갖는 샘플의 relative abundance 에 대한 absolute abundance 를 추정한 뒤에 그 성능을 평가하였습니다.

 

 

Group1 과 Group2 는 다른 sampling fraction 을 갖습니다. 그 의미는, 각 그룹에서 동일한 relative abundance 를 갖는다고 하더라도, 그것이 곧 동일한 absolute abundance 를 갖지 않는다는 것 입니다. 위의 그림에서는 그런 편향을 제거하기 위해 정규화 기법을 사용한 이후의 성능을 확인하였습니다. 추정된 sampling fraction 과 실제 sampling fraction 의 차이에 대한 편차를 계산하였는데, ANCOM-BC 에서 편차가 상당히 작은 것으로 확인되었습니다.

 

 

3. FDR (adjusted p value)

해당 분석에서는 여러 그룹을 동시에 비교하는 경우가 많기 때문에 위양성 비율이 증가하는 것에 대한 대비를 수행합니다. 중요한 부분은 아니지만 관련해서 공부했던 게 있어서 링크만 올려놓겠습니다. (ANCOM-BC 에서는 Bonferroni correction 을 적용하였습니다.)

 

 

FDR (false discovery rate)

최근에 FDR 이라는 단어를 너무 자주 만나고 있습니다. 마이크로바이옴 데이터의 differential abundance 도구에 대해 공부할 때도 자주 나오고, RNA-seq 데이터 분석할 때도 (DEG) p_value 와 FDR p_value 중에

hiimgood.tistory.com

 

 

 

 

4. 실행코드 (QIIME2) 

(ancom-bc 는 R 로 작성되어서 qiime2 에서도 R 을 기반으로 작동합니다.)

conda activate qiime2-2023.7

qiime composition ancombc --help

  # ### example: ancombc single formula
  qiime composition ancombc \
    --i-table table.qza \
    --m-metadata-file metadata.tsv \
    --p-formula bodysite \
    --o-differentials dataloaf.qza

  # ### example: ancombc multi formula with reference levels
  qiime composition ancombc \
    --i-table table.qza \
    --m-metadata-file metadata.tsv \
    --p-formula 'bodysite + animal' \
    --p-reference-levels bodysite::tongue animal::dog \
    --o-differentials dataloaf.qza

 

ANCOM-BC 플러그인의 파라미터 관련 정보는 아래 링크에서 확인하실 수 있습니다.

 

https://docs.qiime2.org/2023.9/plugins/available/composition/ancombc/

 

ancombc: Analysis of Composition of Microbiomes with Bias Correction — QIIME 2 2023.9.1 documentation

 

docs.qiime2.org

 

++

 

 

파라미터 중에 이렇게 FDR method 중에 어떤 걸 사용할지 정할 수 있더라구요. BH 도 보이고 bonferroni 도 보이는데 default 가 왜 holm 인지 모르겠습니다. 논문에서는 bonferroni 사용했다는 부분을 확인했습니다.

 

결과 파일을 qzv 로 변환하여 열면, 다음과 같은 결과를 얻을 수 있습니다. (collapsed 가 안되어있는데 샘플데이터로 수행한 결과라서 여기까지만 확인하였습니다.)

 

 

dataloaf-bs-tongue.qzv
0.24MB

 

 

# reference

 

1) Gloor, Gregory B., et al. "Microbiome datasets are compositional: and this is not optional." Frontiers in microbiology 8 (2017): 2224.

 

2) Lin, Huang, and Shyamal Das Peddada. "Analysis of compositions of microbiomes with bias correction." Nature communications 11.1 (2020): 3514.

 

3) https://docs.qiime2.org/2023.9/plugins/available/composition/ancombc/