시퀀싱 파일을 dada2 등으로 전처리하고 나면, feature table 파일을 얻을 수 있습니다. 해당 qza file 을 qzv file 로 변환해서 qiime view 로 확인해 보면, 다음과 같은 frequency 관련 정보들을 얻을 수 있게 됩니다.


먼저, 정확히 이것들이 무엇을 의미하는지 알아보겠습니다.
1. feature table

feature table 은 위와 같이 생겼습니다. 먼저 feature 라는 것은 OTUs 또는 ASVs 로 정의되는 서로 다른 microbial features 를 의미합니다.
가장 좌측의 숫자와 영어가 섞여있는 데이터가 hashing 되어있는 feature id 를 확인하실 수 있는데 이 하나하나가 ASVs 를 통해 cluastering 한 representative sequence 입니다. (저는 DADA2 사용해서 ASVs 로 clustering 했습니다.)

시퀀스마다 고유한 feature id 를 갖기 때문에 서로 다른 run 간에 동일한 전처리 기법을 사용했다면 merging 하는데에 전혀 문제가 없으며 해당 feature id 에 대한 정보는 마찬가지로 이전 전처리 단계에서 생성되는 rep-seqs.qza 파일을 qzv 로 변환한 뒤 qiime2 view 로 확인하면 위와 같은 representative sequence 에 대한 정보를 확인할 수 있고
링크가 걸려있는 부분을 확인해 보면 BLASTn 을 통해 어떤 시퀀스인지 아래와 같이 확인할 수 있습니다.

(ASV 와 OTU 에 대한 것은 예전에 포스팅한 적이 있어서 참고하시면 될 것 같습니다. )
2. frequency


이제 feature_table.qzv 파일을 qiime2 view 로 확인해 보면 위와 같은 정보를 얻을 수 있습니다. 위 사진에서의 frequency 는 샘플 당 몇 개의 representative sequence 를 포함하고 있는지를 의미하는 정보입니다.
그래서 이것들을 활용해서 추후에 rarefying 을 수행하고 그것을 바탕으로 alpha diversity, beta diversity 분석 등을 하게 되는데 여기서 등장한 rarefying (rarefaction) 이란 개념은 아래에서 다시 보겠습니다.
qiime2 view 상에서 interactive sample detail 을 가보면 아래와 같이 sampling depth 를 설정할 수 있습니다.

sampling depth 을 설정한다는 것은, 간단하게 말하면
몇 개의 rep seqs 를 포함하는 샘플까지를 이후 그룹 간의 분석에 사용할지 결정한다는 의미입니다. 아래의 예시를 보면 한 번에 이해하실 수 있을 것입니다.

행에는 서로 다른 샘플의 정보이고, 열에는 각 feature 의 frequency 에 대한 정보를 담고 있습니다. 우측의 표가 모든 feature 의 수를 더해서 total frequency 를 계산한 것입니다.
우리가 alpha, beta diversity 등을 분석할 때 그룹 (여기서는 샘플) 간의 비교를 수행하게 되는데 이 과정에서 total frequency 가 다르면 그룹 간의 비교가 공정하지 않습니다.
이에 대해 생각해보기 위해선, 위의 데이터가 생성된 과정을 한번 생각해봐야 합니다. NGS 과정에서 시간과 돈을 절약하기 위해 pooling 이라는 과정을 거치는데 이는 많은 샘플에 바코드를 붙여 하나의 덩어리로 섞어주는 것입니다. 추후에 이 하나의 덩어리에서 시퀀싱 할 대상이 되는 reads 를 선택하게 되고 이 과정에는 어느 정도의 무작위성이 포함됩니다. (library prep variablity, bias in PCR...)
쉽게 말해, 위 표의 total frequency 는 무작위성이 포함된 시퀀싱 결과의 total frequency 이지, 실제 샘플의 total frequency 는 아니라는 것입니다.
그런데 alpha diversity 를 생각해 보면, 당연히 total frequency 가 높은 쪽이 더 높은 다양성을 갖는다고 결과가 나올 확률이 높기 때문에 이를 보정해 주기 위해서 total frequency 를 그룹 간에 통일해 주는 과정이 필요한 것입니다.
(다만, 이 과정이 적절한지에 대해서는 약간의 논쟁이 있습니다.)

그 결과는 위의 표와 같습니다. 51로 total frequency 를 통일하였고, 보라색 샘플의 total frequency 가 27 이었는데 27 로 sampling depth 를 설정하면 너무 많은 정보의 손실이 있기 때문에 보라색 샘플은 분석에 사용하지 않기로 하고 51 로 설정한 것입니다.
이후 rarefaction curve 를 보면 해당 결과를 추후 분석에 사용할 만한 지 확인할 수 있습니다.
여기까지 관련 개념들에 대해 알아보았고, 처음에 보여드린 사진이 실제 제 데이터인데 sampling depth 를 어떻게 결정할지 고민이 되더라구요, 그래서 다시 한번 리마인드 해보고자 공부하면서 포스팅하게 되었고 다음 포스팅에서 관련해서 이어가겠습니다.
# reference
1) https://bioinformatics.ccr.cancer.gov/docs/qiime2/Lesson3/
2) https://www.youtube.com/watch?v=g5BdGP4V5YA
'bioinfo' 카테고리의 다른 글
Divisive Amplicon Denoisinig Algorithm (DADA2) output file (microbiome) (1) | 2023.10.21 |
---|---|
Sampling depth 설정 관련 (1) | 2023.10.08 |
Data augmentation in microbiome data (데이터 불균형) (0) | 2023.09.06 |
Sequencing quality (Illumina Miseq) : 3 (0) | 2023.09.03 |
Sequencing quality (Illumina Miseq) : 2 (0) | 2023.09.02 |