전체 글 67

마이크로바이옴 데이터의 시각화 (taxa plot)

마이크로바이옴 관련 논문들을 많이 보면서 이 분야에 대해 잘 알지 못하는 사람들에게 보여줄 때는 어떻게 시각화하여 보여주는지가 중요하겠다는 생각을 많이 합니다.  마이크로바이옴 관련 논문이나 분석을 보면 아래의 세가지는 거의 항상 보입니다. alpha diversity, beta diversity, taxa plot (알파다양성을 나타내는 방식은 사실 모두 box plot 으로 상당히 익숙한 데이터 시각화라 제외하겠습니다.) 1. beta diversity 사실 베타다양성 같은 경우는 PCoA 사용하여 시각화하는데, PCoA 와 PCA 관련해서도 포스팅을 했었지만 거리를 기반으로 하느냐, 상관관계를 기반으로 하느냐의 차이만 존재하고 시각화가 되는 과정은 완전하게 동일합니다. 기본적으로 차원축소의 개념이기..

기타 2023.11.11

variable region 에 따른 시퀀싱 결과의 변화

주로 박테리아를 대상으로 시퀀싱 한다고 했을 때 가장 많이 사용되는 것이 16s rRNA gene 의 variable region 을 증폭하여 short read 를 생성하는 것입니다. 16s rRNA 에는 대부분의 박테리아가 공유하는 conserved region 과 박테리아의 종류에 따라 달라지는 variable region 이 있는데 이 variable region 은 앞글자를 따서 V1 부터 V9 까지 총 9개의 구역으로 나눠져 있습니다. 아래의 그림에 잘 나타나 있습니다. 제가 아는 한 각 region 별로 어떤 장점이나 단점이 있다기보다는 어떤 기기로 시퀀싱 하느냐에 따라 증폭시키는 영역이 다르다고 알고 있습니다. short read 를 생성하는 Illumina 의 경우 V3~V4 region..

기타 2023.11.10

ANCOM-BC (Analysis of Composition of Microbiomes with Bias Correction)

ANCOM-BC (Analysis of Composition of Microbiomes with Bias Correction) 은 이전에 몇 번 말씀드렸다시피, LEfSe, ALDEx2 등과 함께 differential abundacne 룰 분석하기 위한 프로그램입니다. 그러나 실제 compositional 한 마이크로바이옴의 relative abundance 데이터를 분석하기 위해서는 LEfSe 보다는 ANCOM-BC 또는 ALDEx2 가 적절하다는 의견이 있습니다. 다만, 통계적으로 유의함을 확인하기 위해서는 LEfSe 또한 어느 정도의 역할이 가능하며, LDA score 등을 조절하며 분석이 가능하기 때문에 자주 사용되는 도구입니다. 다만, 제가 사용하면서 느낀 LEfSe 가 수행되는 과정에서의 이..

bioinfo 2023.11.05

FDR (false discovery rate)

최근에 FDR 이라는 단어를 너무 자주 만나고 있습니다. 마이크로바이옴 데이터의 differential abundance 도구에 대해 공부할 때도 자주 나오고, RNA-seq 데이터 분석할 때도 (DEG) p_value 와 FDR p_value 중에 어떤 것을 사용할지 고르라고 하더라구요. 공부하는 김에 포스팅해보려 합니다. 기본적으로 많은 수의 가설검정을 한 번에 수행할 때 false positive (위양성) 에 의한 오류가 많아집니다. 그렇기 때문에 p value 를 조정하여 adjusted p value 를 만들고, 그것을 기준으로 통계적으로 유의함을 평가합니다.   저는 처음에 FDR 이 false discovery rate 이라는 것을 알았을 때 false positive 가 가장 먼저 생각났..

기타 2023.11.03

LEfSe 코드 살펴보기 (튜토리얼)

그룹 간의 feature 의 상대적 풍부도를 비교하기 위한 도구로 LEfSe 를 사용하고 있는데요, LEfSe 관련 포스팅에서 공부했듯이 간단하게만 작동 원리를 알고 있었습니다. 그런데, 최근에 LEfSe 를 사용하다가 통계적으로 유의하게 나오는 것들에 대해 의구심이 생겨서 조금 더 자세히 직접 사용하는 코드와 함께 살펴보고자 포스팅합니다. 차원축소 (PCA, PCoA, LDA) in microbiome data 와 LEfSe : 2 (microbiome) 지난번 글에 이어서 LDA와 LEfSe에 대해 작성하겠습니다. # statquest 유튜브를 참고하였습니다. 3. LDA (Linear discriminant analysis) 앞서 살펴봤던 PCA 와 PCoA와 유사한 방법인 것처럼 보이지만, LDA..

bioinfo 2023.10.31

QIIME2 feature classifier : 2 (naive bayes classifier)

1. motivation greengenes2 database (16s rRNA gene database) 이전 글에서 말했듯이 DADA2 를 수행하고 나면, representative sequence 정보를 얻을 수 있습니다. 그 다음에 해야 할 일은, 해당 rep seqs 이 어떤 미생물에 해당하는지 확인해야 하는 작업입니다. 기본적 hiimgood.tistory.com 지난번 포스팅에서 16s rRNA gene 데이터베이스에 대해 알아봤습니다. 해당 포스팅에서 말씀드렸던 대로, greengenes2 가 SILVA 등 흩어져있는 데이터베이스를 통합하였기 때문에 더 좋은 성능과 정확도를 보여줄 것이라고 생각하여 greengenes2 를 사용하여 분석합니다. (사실, genus level까지밖에 확인하지..

bioinfo 2023.10.29

enterotype (microbiome, R)

enterotype 이란 개념은, 단어 그대로 사람들의 장을 그룹 짓고자 만들어진 것으로 조금 더 정확하게 말하면, 장내 미생물 군집 (microbiota) 을 군집화 (clustering) 하고자 만들어졌다.  사람들의 장내 미생물 군집은 말 그대로 천차만별이다. 동일 소재를 처리했을 때에도 어떤 미생물을 얼마나 가지고 있느냐에 따라서 나타나는 변화가 달라진다. 그렇게 되면 이후 분석이 상당히 복잡해지고 해석하기 난해해지는 부분이 있다. 그런데 이 enterotype 개념을 사용하면, 조금 미생물 군집을 타입별로 그룹화할 수 있기 때문에 훨씬 간편하게 분석을 수행할 수 있게 된다. 1. 논문소개 처음 이 개념을 제시한 논문은 아래의 논문이다. https://www.nature.com/articles/n..

bioinfo 2023.10.28

QIIME2 feature classifier : 1 (greengenes2 database)

이전 글에서 말했듯이 DADA2 를 수행하고 나면, representative sequence 정보를 얻을 수 있습니다. 그 다음에 해야 할 일은, 해당 rep seqs 이 어떤 미생물에 해당하는지 확인해야 하는 작업입니다. 기본적으로 저는 EMP 의 16S Illumina Amplicon Protocol 을 따라 시퀀싱 하였습니다. 해당 프로토콜에서는 16S 유전자의 V4 region 을 증폭시켜 시퀀싱 수행하며, 515F-806R primer 를 사용합니다. 따라서 오늘 포스팅할 데이터베이스 관련해서는 total 16s rRNA gene 또는 whole genome shotgun sequencing 과는 사용할 데이터베이스가 다르므로 참고만 해주시면 될 것 같습니다. 일단 데이터베이스 관련해서 개인적..

bioinfo 2023.10.26

Divisive Amplicon Denoisinig Algorithm (DADA2) output file (microbiome)

저는 NGS data 를 시퀀싱 업체에서 받으면 데이터의 전처리를 위해 DADA2 를 사용합니다. Divisive Amplicon Denoisinig Algorithm (DADA2) DADA2: High resolution sample inference from Illumina amplicon data We present DADA2, a software package that models and corrects Illumina-sequenced amplicon errors. DADA2 infers sample sequences exactly, without coarse-graining into OTUs, and resolves differences of as little as one nucleotide...

bioinfo 2023.10.21

qiime2-2023.9 업데이트 내용

안녕하세요. 이번에 qiime2 업데이트 내용을 보는데 기존에서 크게 추가된 부분이 있어 한 번 훑어볼 겸 포스팅해보겠습니다. https://forum.qiime2.org/t/qiime-2-2023-9-is-now-available/27923 QIIME 2 2023.9 is now available! The QIIME 2 2023.9 release is now available! Thanks to everyone involved for their hard work! 🙌🏼 🎉 As a reminder, our next planned QIIME 2 release is scheduled for December 2023 (QIIME 2 2023.12), but please stay tuned for update..

기타 2023.10.14