분류 전체보기 66

[머신러닝] q2-sample classifier

머신러닝 하면 가장 흔히 사용되는 것은 python 의 sklearn 입니다. 만약 더욱 복잡한 모델을 만들고 싶다면 tenserflow 등의 사용도 고려해 봐야겠지만 그 단계에서는 요구하는 컴퓨터의 사양 (GPU) 도 증가하고 학습시키는데 사긴도 상당히 오래 걸립니다. 따라서 초기 단계에서는 sklearn 으로 해당 데이터셋이 머신러닝을 수행하기에 적합한지 알아보는 것도 좋은 방법입니다. 마이크로바이옴 데이터를 기계학습 모델에 적용하고자 하는 시도는 지속적으로 이루어지고 있습니다. 실제 마이크로바이옴 데이터를 분석하는데에 자주 사용되는 QIIME2 에서도 머신 러닝을 수행할 수 있는 플러그인을 제공하고 있습니다. q2-sample-classifer 플러그인은 sklearn 을 기반으로 작성된 머신 러닝..

[머신러닝] 2023.12.17

Unifrac distance (microbiome)

마이크로바이옴 데이터를 분석하다 보면 '거리' 의 개념을 자주 필요로 합니다. 마이크로바이옴 데이터의 특성상, 일반적인 숫자 데이터가 아닌 서로 다른 미생물로 구성되어 있기 때문에 새로운 개념을 도입합니다. '거리' 라고 하면 가장 먼저 생각나는 것은 당연히 유클리드 거리입니다. 이것을 사용해서 우리는 (1,2) 와 (4,6) 사이의 거리를 계산하여 5 라는 것을 알 수 있습니다. 그러나 우리가 알고 싶어하는 것을 단순하게 나타내보면 아래와 같습니다. 아래의 A, B 샘플 간의 거리는 어떻게 될까요? 이러한 미생물 간의 거리를 나타내기 위해서 'Unifrac distance' 라는 개념을 도입하게 됩니다. 해당 개념은 위의 예시에서 알 수 있듯이 샘플 간의 미생물 구성에 대한 차이를 계산하는데 이는 미생..

bioinfo 2023.12.16

[머신러닝] 모델에 학습시키기 위한 마이크로바이옴 데이터의 형식

-- 논문보다는 개인적인 생각을 바탕으로 서술하였습니다-- 어떤 학습을 목표로 하는지에 따라서 다르겠지만 마이크로바이옴 데이터를 학습시키기 위해서 무조건 포함되어야 하는 것은 균주의 정량 또는 유무에 대한 정보입니다. 16s rRNA gene 을 증폭시켜 해당 부분을 시퀀싱한 데이터를 얻었다고 가정할 때 해당 데이터를 처리하는 방법은 생각보다 다양할 수 있습니다. 그리고 머신러닝 학습의 특성상 최소 백명 또는 천명 단위의 데이터를 필요로 하는데 동일한 조건으로 해당 데이터를 생산하는 것은 쉽지 않습니다. 이전에 마이크로바이옴 데이터를 사용하여 조산을 예측하고자 머신러닝 경진대회와 비슷한 것이 열렸었습니다. Microbiome Preterm Birth DREAM Challenge: Crowdsourcing..

[머신러닝] 2023.11.29

PERMANOVA in Beta-diversity (microbiome)

베타다양성 분석을 수행할 때 각 클러스터 간에 유의한 차이가 존재하는지 확인하기 위한 통계적 기법으로 PERMANOVA (Permutational Multivariate Analysis of variance) 를 사용합니다. 이것이 정확이 어떤 기법인지 알아보고자 합니다.  위와 같이 베타다양성 분석을 수행하였다면, 우리는 각 그룹별로 유의한 거리의 차이가 있는지 확인해야 합니다. 그럼 통계기법을 수행하여 p-value 가 유의한지 ( MANOVA -> PERMANOVA)  1) ANOVA (Analysis of variance, 분산분석) anova 는 일반적으로 다수의 집단 (세 개 이상) 을 서로 비교하고자 할 때 사용합니다. 아래와 같이 집단 내 분산, 집단 간 분산을 사용하여 집단의 평균을 비..

기타 2023.11.27

Gut Microbiota and SCFA

인간의 장내 건강 관련해서 SCFA 는 긍정적인 지표로 해석되고 있습니다. 특정 장내미생물이 생산한 acetate, propionate, butyrate 등의 대사물들은 면역 시스템 조절, 장 점막 보호 등 중요한 역할을 한다고 알려져 있습니다. 또한, 최근 연구에서는 gut-brain axis 에도 영향을 미친다는 결과도 등장하였습니다. 해당 부분에 대해 조금 더 구체적인 지식이 필요하다고 생각해서 SCFA 생산 과정, SCFA 의 효과 등에 대해 조금 더 자세하게 알아보려고 합니다. google scholar 에 SCFA gut microbiota 의 키워드로 검색했을 때 인용수가 높은 3개의 논문을 바탕으로 합니다. 1) Douglas J. Morrison & Tom Preston, 2016 2) ..

기타 2023.11.25

RNA-seq 분석 : 3. read 의 mapping 및 normalization

이번에 전사체 데이터 분석을 진행해 보면서 개인적으로 공부했던 부분들, 분석 과정 등을 하나씩 올려보려고 합니다. 원래 자주 하던 분석이 아니라 중간중간 틀린 부분이 있을 수 있는데 댓글로 수정해 주시면 바로 반영하겠습니다. 이전 포스팅에서와 같이 필요에 따라 알맞은 형태의 reference genome 을 얻으면 그 위에 시퀀싱을 수행하여 얻은 수 많은 reads 들을 maping 하는 과정이 필요합니다. 이 과정은 일반적인 alignment 과정과 다르지 않고 일반적으로 프로그램을 통해 수행되기 때문에 그 과정에 대해서는 소개하지 않겠습니다. (HISAT2, STAR, Bowtie2 등) 수행하고 나면 reference genome 상에 우리의 reads 들이 mapping 되는데, 우리의 목표는 어..

[RNA-seq] 2023.11.20

# log2 fold change

이번에 전사체 데이터 분석을 진행해보면서 개인적으로 공부했던 부분들, 분석 과정 등을 하나씩 올려보려고 합니다. 원래 자주 하던 분석이 아니라 중간중간 틀린 부분이 있을 수 있는데 댓글로 수정해주시면 바로 반영하겠습니다. 아직 소개하지 않았지만 reference genome 에 시퀀싱 결과 얻은 reads 를 mapping 하면, 각 유전자를 정량할 수 있습니다. 각 유전자를 정량하여 샘플 간에 결과를 수행할 수 있는데 일반적으로 DEG 분석 (differentially expressed gene) 을 진행하게 됩니다. 그러면 RNA-seq 분석에서 주로 만날 수 있는 volcano plot 을 그릴 수 있는데요, 아래의 그림을 보시면 특별히 색깔로 표시된 점 (유전자) 들이 있습니다. 그것은 엄청나게 ..

[RNA-seq] 2023.11.17

RNA-seq 분석 : 2. reference genome 의 종류

이번에 전사체 데이터 분석을 진행해 보면서 개인적으로 공부했던 부분들, 분석 과정 등을 하나씩 올려보려고 합니다. 원래 자주 하던 분석이 아니라 중간중간 틀린 부분이 있을 수 있는데 댓글로 수정해 주시면 바로 반영하겠습니다. NGS 를 수행하여 확보한 reads 들을 실험의 대상으로 사용한 유전체 데이터에 mapping 하는 작업이 필요합니다. 해당 유전체를 기반으로 reads 들을 mapping 함으로써 보다 쉽게 alignment 를 수행하고, 유전자들의 발현량을 mapping 된 reads 수를 기반으로 측정하게 됩니다. 다만, 참조 유전체의 종류에는 여러가지가 있어서 처음에 헷갈리는 부분이 있었습니다. 그 부분에 대해 정리해 보겠습니다. 참조 유전체를 다운로드할 수 있는 여러 가지 데이터베이스들이..

[RNA-seq] 2023.11.16

RNA-seq 분석 : 1. 기본개념

이번에 전사체 데이터 분석을 진행해 보면서 개인적으로 공부했던 부분들, 분석 과정 등을 하나씩 올려보려고 합니다. 원래 자주 하던 분석이 아니라 중간중간 틀린 부분이 있을 수 있는데 댓글로 수정해 주시면 바로 반영하겠습니다. 1. RNA-seq 과 transcriptome (전사체) 가장 가본적인 부분부터 천천히 공부해보려 합니다. 그러기 위해서는 central dogma 를 다시 한번 상기시켜볼 필요가 있습니다. DNA 에서 RNA 를 합성하는 과정을 transcription (전사) 라고 합니다. 그러므로 transcriptome (전사체) 는 'mRNA 등을 포함하는 전사 과정에서 합성되는 물질들' 이라고 정의할 수 있습니다. 그럼 전사체를 시퀀싱, 분석한다는 의미는, 이 과정에서 합성된 물질 (m..

[RNA-seq] 2023.11.14

마이크로바이옴 데이터의 시각화 (taxa plot)

마이크로바이옴 관련 논문들을 많이 보면서 이 분야에 대해 잘 알지 못하는 사람들에게 보여줄 때는 어떻게 시각화하여 보여주는지가 중요하겠다는 생각을 많이 합니다.  마이크로바이옴 관련 논문이나 분석을 보면 아래의 세가지는 거의 항상 보입니다. alpha diversity, beta diversity, taxa plot (알파다양성을 나타내는 방식은 사실 모두 box plot 으로 상당히 익숙한 데이터 시각화라 제외하겠습니다.) 1. beta diversity 사실 베타다양성 같은 경우는 PCoA 사용하여 시각화하는데, PCoA 와 PCA 관련해서도 포스팅을 했었지만 거리를 기반으로 하느냐, 상관관계를 기반으로 하느냐의 차이만 존재하고 시각화가 되는 과정은 완전하게 동일합니다. 기본적으로 차원축소의 개념이기..

기타 2023.11.11