미생물을 분리해서 전장유전체분석을 수행하면 시퀀스 정보를 획득할 수 있습니다. 그 유전체 정보를 가지고 해당 미생물이 어떤 기능을 할 수 있는지 확인하기 위해 annotation 과정을 수행하게 됩니다. Annotation 이란, 단백질 서열을 분석하여 해당 단백질들이 어떤 역할을 하는지 확인함으로써 해당 미생물을 특성을 파악하는 과정입니다.
다양한 annotation 도구들이 있지만 2008 년 개발된 RAST (Rapid Annotation using Subsystem Technology) 는 여전히 주요한 annotation 도구로 사용되고 있습니다. (일반적으로 RAST + @ 등의 조합으로 상호보완하는 식으로 진행됩니다.)
사실 RAST 사용 방법에 대해서는 많은 곳에 정리가 잘 되어있어 소개하지 않을 예정이고 제가 RAST 사용하면서 궁금했던 " RAST annotation scheme" 에 대해 간단하게 알아보겠습니다.
위의 노란색으로 표시된 곳에서 annotation scheme 을 선택할 수 있습니다. Classic RAST 와 RASTtk 의 선택지가 있는데 일반적으로 RASTtk 를 사용합니다. 이 두 개의 차이가 뭔지는 아래와 같이 간단하게 나타낼 수 있습니다.
Classic RAST = Glimmer3
RASTtk = Glimmer3 + Prodigal
Glimmer3 만을 사용하던 Classic RAST 에 Prodigal 을 추가로 사용하여 보완한 것이 RASTtk 임으로 굳이 특별한 목적이 있는 것이 아니라면 Classic RAST 를 사용할 필요는 없다는 것을 알 수 있습니다.
빨간 화살표로 표시되어 있는 것들이 Classic RAST 에서 RASTtk 로 넘어가면서 추가, 보완된 부분들입니다. (회색 화살표는 사라진 것들입니다.)
해당 논문에 의하면 다음과 같이 간단하게 정리할 수 있습니다.
" added Prodigal as an additional gene caller because of its improved accuracy with short genes and start positions because it is more robust to differences in G+C content."
기존의 Glimmer3 만을 사용하던 Classic RAST 에는 GC content 가 높은 경우에 낮은 정확도를 보이고 있었습니다. 이를 Prodigal 을 추가함으로써 보완하였다고 합니다.
Glimmer3 와 Prodigal 에 대해 간단하게만 알아보겠습니다. 이 둘은 모두 유전자 상에서 어떤 부분이 CDS 로 코딩되는지 예측하기 위한 도구입니다. 이를 예측함으로써 단백질로 번역되는 구간을 확보, 해당 단백질 서열의 기능을 확인할 수 있습니다.
1. Glimmer3
새로운 Glimmer 3.0 은 현저히 낮은 false-positive 비율을 달성하며 많은 시작 지점을 정확하게 예측하고 높은 true positive 비율을 유지합니다. 이를 가능하게 하기 위해 새로운 코딩 영역 스캔 알고리즘, 새로운 시작 지점 감지 모듈, 전체 유전체에 걸쳐 모든 유전 예측을 통합하는 새로운 아키텍처를 도입했습니다. 또한 자동화된 training set 는 GC 함량이 높은 유전체에 대해 현저히 개선된 training set 를 생성합니다.
+ intracellular endosymbionts 등을 포함하는 호스트에 존재하는 다른 생명체의 유전자 서열이 포함되어 있는 경우가 많이 있는데 이를 식별하여 제거할 수 있는 interpolated Markov model (IMM) 을 코어로 사용합니다.
# 작동 원리
1. reverse scoring - stop codon 에서 시작해서 start codon 으로 이동하면서 ORF 를 찾는다.
2. RBS (true start site 에 대한 강력한 신호로 사용) -> RBSfinder 사용하여 찾는다.
3. 많은 경우에 ORF 가 겹치게 되는데 그 많은 겹치는 ORF 중 하나만 true gene 이므로 더욱 강건한 알고리즘을 사용해야 함
-> 겹치지 않는 ORFs 의 개수가 가장 많아지는 threshold length 를 계산해서 training set 의 크기를 최대로 만드는데 GC-rich genomes 에서는 stop codon 이 적어 이 방법이 효과적으로 작동하지 않음. 따라서 가장 protein-coding gene 이 아닌 것 같은 ORF 를 가능한 한 많이 제거해야 하는데 이전에 확보하고 있는 미생물 유전체 데이터 바탕으로 비교하여 수행한다.
-> 이런 전략들을 사용하여 유전자 예측 정확도, start-site 예측 정확도, 유전체 분리 능력 등이 증가
2. Prodigal
정확한 ORF 의 확보를 위해서는 원핵생물의 translation initiation mechanism 에 대한 이해가 필요하고 이를 기반으로 Prodigal 을 개발
이전의 도구들은 GC 함량이 낮은 유전체에 대해서는 좋은 성능을 보여주었지만 GC 함량이 높은 유전체에 대해서는 상대적으로 성능이 떨어지는 경향이 있었습니다. (이는 전반적으로 더 적은 stop codon 의 수가 reverse scoring 을 수행하는 데에 어려움을 주고 spurious 한 ORF (잠재적인 start codon 의 후보가 많음) 가 많기 때문이라고 합니다.)
Prodigal (trial and error approach) 알고리즘을 통해 translation initiation site 를 더욱 정확하게 예측하고 false positive 한 예측을 줄임으로써 성능을 높였다고 합니다.
RASTtk 에 대해 알아보기 위해 Glimmer3, Prodigal 에 대해 간단하게만 확인해 보았는데 역시 기저에 있는 원리를 완벽하게 파악하려면 많은 시간을 할애해야 할 것 같습니다. 다만, 그 과정이 무조건 필요하다고 생각하지는 않아서 나중에 필요하다고 생각되면 다시 돌아오면 되지 않을까 합니다.
# reference
1) Brettin, Thomas, et al. "RASTtk: a modular and extensible implementation of the RAST algorithm for building custom annotation pipelines and annotating batches of genomes." Scientific reports 5.1 (2015): 8365.
2) Delcher, Arthur L., et al. "Identifying bacterial genes and endosymbiont DNA with Glimmer." Bioinformatics 23.6 (2007): 673-679.
3) Hyatt, Doug, et al. "Prodigal: prokaryotic gene recognition and translation initiation site identification." BMC bioinformatics 11 (2010): 1-11.
'bioinfo' 카테고리의 다른 글
DNA Methylation 탐지를 위한 시퀀싱 기법 (0) | 2024.04.07 |
---|---|
phylogeny for diversity analysis (qiime2 align-to-tree-mafft-fasttree) (0) | 2024.01.15 |
Unifrac distance (microbiome) (0) | 2023.12.16 |
PERMANOVA in Beta-diversity (microbiome) (1) | 2023.11.27 |
ANCOM-BC (Analysis of Composition of Microbiomes with Bias Correction) (2) | 2023.11.05 |