bioinfo 29

Data augmentation in microbiome data (데이터 불균형)

마이크로바이옴 데이터에 머신러닝 기법을 적용해보려 할 때 가장 먼저 생각나는 것은 Bacteroides, Prevotella, Ruminococcaceae 분류이다. (이하 B, P, R) 위의 3개의 gut microbiota phenotype 중에서 탄수화물 위주의 섭취 시 나타나는 P type 은 단백질을 많이 섭취하는 현대식단에서 찾아보기 어려운 유형이다. 실제 연구들에서도 단백질 및 동물성 지방 섭취와 관련된 B type의 수는 많지만, P type의 유형은 상대적으로 적은 경우가 적지 않게 보인다. 그런 데이터의 불균형 자체로 어떤 문제가 있는 것은 아니지만, 마이크로바이옴 데이터를 가지고 B, P, R 타입에 대해 분류를 수행할 수 있는 예측모델을 만든다고 했을때는 문제가 생길 수 있다. 데..

bioinfo 2023.09.06

Sequencing quality (Illumina Miseq) : 3

해당 주제에 대한 마지막 포스팅입니다. Sequencing quality (궁금했던 것들) : 2 (illumina Miseq) 지난 번 포스팅에 이어서 작성합니다. Sequencing quality (궁금했던 것들) : 1 (illumina Miseq) 오늘은 실제 NGS 데이터의 QC를 수행하면서, 궁금했던 부분에 대해 공부한 것을 작성하기 위해 포스팅합니다. hiimgood.tistory.com 1. 5'에서 3'으로 진행되면서 quality 가 낮아지는 이유 2. 5'의 5~6 정도의 nucleotide sequence의 퀄리티가 낮게 시작하는 이유 (+ QC 수행할 때 앞부분도 잘라야 하는지) 3. forward read의 퀄리티가 reverse read의 퀄리티보다 좋은 것 같았는데 일반적인 ..

bioinfo 2023.09.03

Sequencing quality (Illumina Miseq) : 2

지난번 포스팅에 이어서 작성합니다.  Sequencing quality (궁금했던 것들) : 1 (illumina Miseq)오늘은 실제 NGS 데이터의 QC를 수행하면서, 궁금했던 부분에 대해 공부한 것을 작성하기 위해 포스팅합니다. Sequencing quality (Phred quality score) : 1 (microbiome) 시퀀싱이 완료된 후 파일을 전달받아서 dhiimgood.tistory.com  1. 5'에서 3'으로 진행되면서 quality 가 낮아지는 이유 2. 5'의 5~6 정도의 nucleotide sequence의 퀄리티가 낮게 시작하는 이유 (+ QC 수행할 때 앞부분도 잘라야 하는지) 3. forward read의 퀄리티가 reverse read의 퀄리티보다 좋은 것 같았..

bioinfo 2023.09.02

Sequencing quality (Illumina Miseq) : 1

오늘은 실제 NGS 데이터의 QC를 수행하면서, 궁금했던 부분에 대해 공부한 것을 작성하기 위해 포스팅합니다. Sequencing quality (Phred quality score) : 1 (microbiome) 시퀀싱이 완료된 후 파일을 전달받아서 demux 를 하면 해당 sequencing run 에서의 seqeuncing quality 를 확인할 수 있습니다. 퀄리티를 확인한 뒤 quality control tools 를 사용해서 300 bp 의 foward, reverse read 의 hiimgood.tistory.com 제가 실제 NGS 를 수행한 데이터는 아니지만, 일반적으로 위와 유사한 특징을 같고 있습니다. 그래서 일반적으로 보이는 특징 중에서, 궁금했던 것들에 대해 작성해 보겠습니다. ..

bioinfo 2023.09.01

Sequencing quality : Phred quality score (illumina Miseq)

시퀀싱이 완료된 후 파일을 전달받아서 demux 를 하면 해당 sequencing run 에서의 seqeuncing quality 를 확인할 수 있습니다. 퀄리티를 확인한 뒤 quality control tools 를 사용해서 300 bp 의 foward, reverse read 의 어느 정도를 자르고, 어느 정도를 가지고 분석할것인지를 선택할 수 있습니다. (저의 경우에는 qiime2 에서 DADA2 를 사용합니다.) 이 과정에서 quanlity score 에 대한 것은 illumina 홈페이지에서 확인할 수 있습니다. sequencing quality score 란, 각각의 염기가 잘못 호출될 가능성을 나타내는 지표로 각각의 염기에 대해 phred-like algorithm 을 사용하여 가능성을 측정..

bioinfo 2023.08.28

차원축소 (PCA, PCoA, LDA) in microbiome data 와 LEfSe : 2 (microbiome)

지난번 글에 이어서 LDA와 LEfSe에 대해 작성하겠습니다. # statquest 유튜브를 참고하였습니다. 3. LDA (Linear discriminant analysis)앞서 살펴봤던 PCA 와 PCoA와 유사한 방법인 것처럼 보이지만, LDA는 지도학습입니다. labeling 되어있지 않은 데이터를 가지고 수행하는 PCA와 PCoA와 달리, labeling 되어있는 데이터를 가지고 차원축소를 진행합니다. 그렇기 때문에, 각 그룹에 속하는 데이터의 seperatibility를 최대화하는 것에 목표가 있습니다.  PCA는 축에 정사영한 거리의 합이 최소가 되도록, 정사영하여 내린 점이 (0,0)으로부터 떨어진 거리가 최대가 되도록 축을 설정한다면, LDA는 그룹 내의 데이터 분산이 최소가 되도록, 그..

bioinfo 2023.08.23

차원축소 (PCA, PCoA, LDA) in microbiome data 와 LEfSe : 1 (microbiome)

저는 마이크로바이옴 관련해서 공부하기 전에 머신러닝을 먼저 공부했었습니다. 그래서 PCA 가 가장 제가 익숙한 차원축소 기법이었는데요. 최근에 마이크로바이옴 데이터를 분석하면서 주로 만난 것들은 PcoA (beta diversity plot), LDA (LEfSe) 로 차원축소를 진행하는 것을 보고 그 차이에 대해 공부해야겠다고 생각했습니다. 어렴풋하게나마 그것들의 차이에 대해 알고는 있었지만 이번에 LEfSe에 대해 자세히 공부하던 도중 한번 정리하고 넘어가면 좋을 것 같다고 생각하여 각각의 특징, 공통점이나 차이점 등을 정리해 보았습니다. # statquest 유튜브를 참고하였습니다. 0. motivation 차원 축소란, 말 그대로 차원을 축소시켜 복잡한 데이터를 단순하게 만드는 것을 말합니다. 여..

bioinfo 2023.08.21

differential abundance tools for microbiome data (상대적 풍부도)

서로 다른 그룹 간의 상대적 풍부도를 비교하는 differential abundance 분석은 마이크로바이옴 데이터가 갖는 특정 표현형에서 어떤 taxon이 중요한지, 유의한 차이가 나는 것들이 무엇인지 알기 위해서 필수적입니다. 해당 분석을 위해서 정말 다양한 분석 툴들이 있는데, 우리 연구실에서 사용하는 LEfSe 나 RNA-seq에 주로 사용되지만 마이크로바이옴 데이터를 분석하는 데에도 가끔 사용되는 DESeq2, edgeR 등이나 compositional data의 분석을 용이하게 한다는 ALDEx2, ANCOM-II 등 정말 많은 도구들이 있고 아직까지 어느 정도 혼용되고 있습니다. (LEfSe 가 가장 많이 사용되는 것으로 알고있습니다.) 다만, 앞서 언급한 것과 같이 compositional..

bioinfo 2023.08.20

OTU 와 ASV, 어떻게 ASV 는 선택되는가 (microbiome)

OTU와 ASV의 개념은 microbiome data 분석하시는 분들은 모드들 너무나 잘 알고 계실 것이라고 생각합니다. 저 역시 익숙한 개념이지만 최근에 주로 사용되는 ASV 개념에 대해 조금 더 자세히 공부해 보고자 관련 자료를 포스팅합니다. * 해당 포스팅은 Zymo research의 유튜브 영상을 참고하였습니다. - https://www.youtube.com/watch?v=azI9taClDhQ0. Motivation기본적으로 OTU 와 ASV라는 것이 왜 필요한가에 대해 알아보겠습니다. paired-end sequencing을 수행했다는 가정하에, 양쪽 방향으로 생성된 두 개의 read를 merging 하게 되면 Miseq 기준 샘플 당 평균 30,000 개 정도의 read들이 생성되게 됩니다. ..

bioinfo 2023.08.19