bioinfo

Sequencing quality : Phred quality score (illumina Miseq)

" " 2023. 8. 28. 10:35

시퀀싱이 완료된 후 파일을 전달받아서 demux 를 하면 해당 sequencing run 에서의 seqeuncing quality 를 확인할 수 있습니다. 

 

퀄리티를 확인한 뒤 quality control tools 를 사용해서 300 bp 의 foward, reverse read 의 어느 정도를 자르고, 어느 정도를 가지고 분석할것인지를 선택할 수 있습니다. (저의 경우에는 qiime2 에서 DADA2 를 사용합니다.)

 

이 과정에서 quanlity score 에 대한 것은 illumina 홈페이지에서 확인할 수 있습니다.

 

 

sequencing quality score 란, 각각의 염기가 잘못 호출될 가능성을 나타내는 지표로 각각의 염기에 대해 phred-like algorithm 을 사용하여 가능성을 측정합니다.

 

 

.qzv 파일을 qiime2 view 로 확인하면 다음과 같은 그래프를 확인할 수 있는데 y 축의 quality score 가 phred-like algorithm 으로 계산된 것입니다. 

Q (quality score) 와 P (염기의 호출 (base call) 이 잘못될 확률) 의 관계는 위와 같고 조금 더 직관적으로는 아래 표에서의 관계와 같습니다.

 

 

Q 가 10 일때, 염기 호출에 대한 정확도는 90%

Q 가 20 일때, 염기 호출에 대한 정확도는 99%

.

.

.

 

로 나타나며 어느 정도까지 허용할지는 사용자에 따라 다르지만, illumina 에서는 30 정도를 허용가능하다고 보고 있습니다.

 

이렇게 오류에 대한 가능성이 있는 이유는, flow cell 에서 시퀀싱을 하는 과정에서 나타나는 chemical reactions 이 불완전할 수 있기 때문입니다.

 

예를 들어, 뉴클레오타이드에 따라 다르게 나타나는 fluorescent signal 을 탐지하는 과정에서 noies, artifacts 등으로 인한 불확실함 등이 있을 수 있습니다.

 


실제 dada2 를 통하여 퀄리티가 낮은 부분들을 자를 수 있습니다. 아래와 같은 코드로 실행하며, trim 은 5', truncate 는 3'  의 부분을 자른다는 의미입니다.

 

qiime dada2 denoise-paired 
	--i-demultiplexed-seqs 'demux_seq' 
    --p-trim-left-f 5 
    --p-trim-left-r 5 
    --p-trunc-len-f 250 
    --p-trunc-len-r 230 
    --output-dir "output_dir"

 

 

각 reads 는 PCR 에 의해 합성되므로, 5' 부분이 일반적으로 quality score 가 더 높아 조금만 자르게 되고,

경험적으로 forward 보다는 reverse 가 quality score 가 낮습니다.

 

 

# reference

1) Ewing, Brent, and Phil Green. "Base-calling of automated sequencer traces using phred. II. Error probabilities." Genome research 8.3 (1998): 186-194.

 

2) https://www.illumina.com/content/dam/illumina-marketing/documents/products/technotes/technote_understanding_quality_scores.pdf

 

3) https://en.wikipedia.org/wiki/Phred_quality_score