bioinfo

Sequencing quality (Illumina Miseq) : 1

" " 2023. 9. 1. 18:03

오늘은 실제 NGS 데이터의 QC를 수행하면서, 궁금했던 부분에 대해 공부한 것을 작성하기 위해 포스팅합니다.

 

 

Sequencing quality (Phred quality score) : 1 (microbiome)

시퀀싱이 완료된 후 파일을 전달받아서 demux 를 하면 해당 sequencing run 에서의 seqeuncing quality 를 확인할 수 있습니다. 퀄리티를 확인한 뒤 quality control tools 를 사용해서 300 bp 의 foward, reverse read 의

hiimgood.tistory.com

 

제가 실제 NGS 를 수행한 데이터는 아니지만, 일반적으로 위와 유사한 특징을 같고 있습니다. 그래서 일반적으로 보이는 특징 중에서, 궁금했던 것들에 대해 작성해 보겠습니다.

 

 

1. 5'에서 3'으로 진행되면서 quality 가 낮아지는 이유

 

2. 5'의 5~6 정도의 nucleotide sequence의 퀄리티가 낮게 시작하는 이유 (+ QC 수행할 때 앞부분도 잘라야 하는지)

 

3. forward read의 퀄리티가 reverse read 의 퀄리티보다 좋은 것 같았는데 일반적인 현상인지 + 왜?

 


 

1. 5'에서 3'으로 진행되면서 quality 가 낮아지는 이유

 

먼저 3'으로 진행되면서 퀄리티가 낮아지는 것은 극히 정상입니다. 해당 현상은 illumina의 시퀀싱 방식과 관련되어 있습니다. illumina 의 시퀀싱은 flowcell에 결합한 adapter로부터 염기가 하나씩 추가되면서 형광 신호를 감지하면서 진행됩니다. 이 과정에서 필수적으로 마주칠 수밖에 없는 phasing, prephasing 현상들이 3' end로 갈수록 퀄리티가 낮아지는 주요 원인입니다.

 

각 nucleotide sequence 별로 한 개의 염기가 붙고 나서 terminator cap 이다음 염기가 붙지 못하도록 막아줍니다. 그 상태에서 형광을 확인하고 terminator cap 이 떨어져 나가고, 다음 염기가 붙는 것이 illumina의 시퀀싱 방식입니다. “phasing” 이란, 이 상황에서 terminator cap 이 정상적으로 제거되지 않아 다음 단계에서 새로운 염기가 붙지 못하고, 이전 단계에서 감지된 염기의 형광이 한번 더 탐지되고 이것은 다른 증폭되는 시퀀스에 비해 한 차례 밀리게 되는 것을 말합니다. 그 말은, 서열 별로 발광하는 형광의 색이 달라지는 것을 의미하고, cluster의 형광 신호에 영향을 줄 수 있어 detector의 판단을 어렵게 할 수 있습니다. 이것은 시퀀싱이 종료될 때까지 계속해서 영향을 주기에, 오류가 누적되어 갈수록 퀄리티가 낮아지게 됩니다.

 

그에 반해, “prephasing” 은 정상적이지 않은 terminator cap 이 붙어있는 경우 한 번에 두 개의 염기가 결합할 수 있게 되는 경우가 있는데, 이때에는 한 차례 앞서 가게 되고 그 결과 위의 phasing과 유사한 결과가 나타나게 됩니다.

Phasing 의 시각화

 

 

flow cell에서 수천 개의 동일한 DNA 서열이 함께 합성되기 때문에, 염기가 합성되는 것이 몇 개의 DNA 서열에서 빠르거나, 느릴 때 신호에 대한 노이즈가 증가하게 됩니다.

 

 

다음 포스팅에서 2, 3번에 대한 내용을 알아보겠습니다.

 

# reference

1. https://www.ecseq.com/support/ngs/why-does-the-sequence-quality-decrease-over-the-read-in-illumina 

 

2. Fuller, C., Middendorf, L., Benner, S. et al. The challenges of sequencing by synthesis. Nat Biotechnol 27, 1013–1023 (2009). https://doi.org/10.1038/nbt.1585