bioinfo 29

Unifrac distance (microbiome)

마이크로바이옴 데이터를 분석하다 보면 '거리' 의 개념을 자주 필요로 합니다. 마이크로바이옴 데이터의 특성상, 일반적인 숫자 데이터가 아닌 서로 다른 미생물로 구성되어 있기 때문에 새로운 개념을 도입합니다. '거리' 라고 하면 가장 먼저 생각나는 것은 당연히 유클리드 거리입니다. 이것을 사용해서 우리는 (1,2) 와 (4,6) 사이의 거리를 계산하여 5 라는 것을 알 수 있습니다. 그러나 우리가 알고 싶어하는 것을 단순하게 나타내보면 아래와 같습니다. 아래의 A, B 샘플 간의 거리는 어떻게 될까요? 이러한 미생물 간의 거리를 나타내기 위해서 'Unifrac distance' 라는 개념을 도입하게 됩니다. 해당 개념은 위의 예시에서 알 수 있듯이 샘플 간의 미생물 구성에 대한 차이를 계산하는데 이는 미생..

bioinfo 2023.12.16

PERMANOVA in Beta-diversity (microbiome)

베타다양성 분석을 수행할 때 각 클러스터 간에 유의한 차이가 존재하는지 확인하기 위한 통계적 기법으로 PERMANOVA (Permutational Multivariate Analysis of variance) 를 사용합니다. 이것이 정확이 어떤 기법인지 알아보고자 합니다.  위와 같이 베타다양성 분석을 수행하였다면, 우리는 각 그룹별로 유의한 거리의 차이가 있는지 확인해야 합니다. 그럼 통계기법을 수행하여 p-value 가 유의한지 ( MANOVA -> PERMANOVA)  1) ANOVA (Analysis of variance, 분산분석) anova 는 일반적으로 다수의 집단 (세 개 이상) 을 서로 비교하고자 할 때 사용합니다. 아래와 같이 집단 내 분산, 집단 간 분산을 사용하여 집단의 평균을 비..

bioinfo 2023.11.27

ANCOM-BC (Analysis of Composition of Microbiomes with Bias Correction)

ANCOM-BC (Analysis of Composition of Microbiomes with Bias Correction) 은 이전에 몇 번 말씀드렸다시피, LEfSe, ALDEx2 등과 함께 differential abundacne 룰 분석하기 위한 프로그램입니다. 그러나 실제 compositional 한 마이크로바이옴의 relative abundance 데이터를 분석하기 위해서는 LEfSe 보다는 ANCOM-BC 또는 ALDEx2 가 적절하다는 의견이 있습니다. 다만, 통계적으로 유의함을 확인하기 위해서는 LEfSe 또한 어느 정도의 역할이 가능하며, LDA score 등을 조절하며 분석이 가능하기 때문에 자주 사용되는 도구입니다. 다만, 제가 사용하면서 느낀 LEfSe 가 수행되는 과정에서의 이..

bioinfo 2023.11.05

LEfSe 코드 살펴보기 (튜토리얼)

그룹 간의 feature 의 상대적 풍부도를 비교하기 위한 도구로 LEfSe 를 사용하고 있는데요, LEfSe 관련 포스팅에서 공부했듯이 간단하게만 작동 원리를 알고 있었습니다. 그런데, 최근에 LEfSe 를 사용하다가 통계적으로 유의하게 나오는 것들에 대해 의구심이 생겨서 조금 더 자세히 직접 사용하는 코드와 함께 살펴보고자 포스팅합니다. 차원축소 (PCA, PCoA, LDA) in microbiome data 와 LEfSe : 2 (microbiome) 지난번 글에 이어서 LDA와 LEfSe에 대해 작성하겠습니다. # statquest 유튜브를 참고하였습니다. 3. LDA (Linear discriminant analysis) 앞서 살펴봤던 PCA 와 PCoA와 유사한 방법인 것처럼 보이지만, LDA..

bioinfo 2023.10.31

QIIME2 feature classifier : 2 (naive bayes classifier)

1. motivation greengenes2 database (16s rRNA gene database) 이전 글에서 말했듯이 DADA2 를 수행하고 나면, representative sequence 정보를 얻을 수 있습니다. 그 다음에 해야 할 일은, 해당 rep seqs 이 어떤 미생물에 해당하는지 확인해야 하는 작업입니다. 기본적 hiimgood.tistory.com 지난번 포스팅에서 16s rRNA gene 데이터베이스에 대해 알아봤습니다. 해당 포스팅에서 말씀드렸던 대로, greengenes2 가 SILVA 등 흩어져있는 데이터베이스를 통합하였기 때문에 더 좋은 성능과 정확도를 보여줄 것이라고 생각하여 greengenes2 를 사용하여 분석합니다. (사실, genus level까지밖에 확인하지..

bioinfo 2023.10.29

enterotype (microbiome, R)

enterotype 이란 개념은, 단어 그대로 사람들의 장을 그룹 짓고자 만들어진 것으로 조금 더 정확하게 말하면, 장내 미생물 군집 (microbiota) 을 군집화 (clustering) 하고자 만들어졌다.  사람들의 장내 미생물 군집은 말 그대로 천차만별이다. 동일 소재를 처리했을 때에도 어떤 미생물을 얼마나 가지고 있느냐에 따라서 나타나는 변화가 달라진다. 그렇게 되면 이후 분석이 상당히 복잡해지고 해석하기 난해해지는 부분이 있다. 그런데 이 enterotype 개념을 사용하면, 조금 미생물 군집을 타입별로 그룹화할 수 있기 때문에 훨씬 간편하게 분석을 수행할 수 있게 된다. 1. 논문소개 처음 이 개념을 제시한 논문은 아래의 논문이다. https://www.nature.com/articles/n..

bioinfo 2023.10.28

QIIME2 feature classifier : 1 (greengenes2 database)

이전 글에서 말했듯이 DADA2 를 수행하고 나면, representative sequence 정보를 얻을 수 있습니다. 그 다음에 해야 할 일은, 해당 rep seqs 이 어떤 미생물에 해당하는지 확인해야 하는 작업입니다. 기본적으로 저는 EMP 의 16S Illumina Amplicon Protocol 을 따라 시퀀싱 하였습니다. 해당 프로토콜에서는 16S 유전자의 V4 region 을 증폭시켜 시퀀싱 수행하며, 515F-806R primer 를 사용합니다. 따라서 오늘 포스팅할 데이터베이스 관련해서는 total 16s rRNA gene 또는 whole genome shotgun sequencing 과는 사용할 데이터베이스가 다르므로 참고만 해주시면 될 것 같습니다. 일단 데이터베이스 관련해서 개인적..

bioinfo 2023.10.26

Divisive Amplicon Denoisinig Algorithm (DADA2) output file (microbiome)

저는 NGS data 를 시퀀싱 업체에서 받으면 데이터의 전처리를 위해 DADA2 를 사용합니다. Divisive Amplicon Denoisinig Algorithm (DADA2) DADA2: High resolution sample inference from Illumina amplicon data We present DADA2, a software package that models and corrects Illumina-sequenced amplicon errors. DADA2 infers sample sequences exactly, without coarse-graining into OTUs, and resolves differences of as little as one nucleotide...

bioinfo 2023.10.21

Sampling depth 설정 관련

기본적으로 sampling depth 를 설정하기 위해서는 어느 정도의 타협이 필요한 것 같습니다. 1. 너무 많은 정보를 손실하지 않을 정도로 설정 2. 특정 샘플의 값이 튀어서 너무 낮다면 해당 샘플을 분석에 사용하지 않고 sampling depth 를 유지 NGS 데이터 분석하시는분들과 이야기해보면 그래도 sampling depth 가 10,000 은 넘어야 샘플 간에 비교하는 분석이 의미 있지 않나라고 이야기를 많이들 하십니다. 만약 전체적인 퀄리티가 10,000 보다 낮다면 샘플 퀄리티 또는 시퀀싱 퀄리티 상의 문제라고보고 혹은 몇 개 튀는 값들이 10,000 보다 낮다면 샘플을 몇 개 포기하고 이후 분석 진행하는 게 더 좋은 것 같다는 의견이 주류고 저도 그렇게 생각합니다. 그럼에도 실제 시퀀..

bioinfo 2023.10.08

Sampling depth 와 rarefaction (microbiome)

시퀀싱 파일을 dada2 등으로 전처리하고 나면, feature table 파일을 얻을 수 있습니다. 해당 qza file 을 qzv file 로 변환해서 qiime view 로 확인해 보면, 다음과 같은 frequency 관련 정보들을 얻을 수 있게 됩니다. 먼저, 정확히 이것들이 무엇을 의미하는지 알아보겠습니다. 1. feature table feature table 은 위와 같이 생겼습니다. 먼저 feature 라는 것은 OTUs 또는 ASVs 로 정의되는 서로 다른 microbial features 를 의미합니다. 가장 좌측의 숫자와 영어가 섞여있는 데이터가 hashing 되어있는 feature id 를 확인하실 수 있는데 이 하나하나가 ASVs 를 통해 cluastering 한 represent..

bioinfo 2023.10.07