bioinfo

Sequencing quality (Illumina Miseq) : 3

" " 2023. 9. 3. 09:54

해당 주제에 대한 마지막 포스팅입니다.

 

 

 

Sequencing quality (궁금했던 것들) : 2 (illumina Miseq)

지난 번 포스팅에 이어서 작성합니다. Sequencing quality (궁금했던 것들) : 1 (illumina Miseq) 오늘은 실제 NGS 데이터의 QC를 수행하면서, 궁금했던 부분에 대해 공부한 것을 작성하기 위해 포스팅합니다.

hiimgood.tistory.com

 

1. 5'에서 3'으로 진행되면서 quality 가 낮아지는 이유

 

2. 5'의 5~6 정도의 nucleotide sequence의 퀄리티가 낮게 시작하는 이유 (+ QC 수행할 때 앞부분도 잘라야 하는지)

 

3. forward read의 퀄리티가 reverse read의 퀄리티보다 좋은 것 같았는데 일반적인 현상인지 + 왜?

 


 

3. forward read의 퀄리티가 reverse read의 퀄리티보다 좋은 것 같았는데 일반적인 현상인지 + 왜?

 

paired-end로 진행하면 위의 사진처럼 대체로 R2 read 퀄리티가 더 좋지 않은 것을 확인할 수 있습니다. 이는 illumina 시퀀싱 기술의 특성상 일반적인 현상입니다. 

 

이에 대한 해답을 두 군데에서 찾을 수 있었습니다.

 

1) 

 

HiSeq vs MiSeq read-length and quality - SEQanswers

Bridged amplification & clustering followed by sequencing by synthesis. (Genome Analyzer / HiSeq / MiSeq)

www.seqanswers.com

이전 포스팅에서와 동일한 어느 포럼의 질답입니다. 이번에 자료를 찾으면서 느낀 건데, 이 사이트의 질답들이 퀄리티가 좋은 것들이 많더라고요. 사이트 UI 가 고전적이면서도 전문적인 느낌도 동시에 주는 것 같아요. 신기했습니다.

 

GenoMax.. 이분 고수입니다

 

답변을 정리하면,

시간이 갈수록 cluster 가 커지고 (cluster 를 이루고 있는 copy의 수가 많아진다는 의미 같습니다.) 이는 과부하 등의 문제를 일으켜 basecalling의 퀄리티가 떨어짐 + 들어간 시약이 시간이 지날수록 상태가 안 좋아진다.

입니다.

 

정리하면, r1 seqeucning 이후에 r2 sequencing 이 수행되는데, 갈수록 기계에 과부하 등이 걸려서 품질이 떨어진다 정도인 것 같습니다.

 

 

그러나 이걸로는 확실하지 않다고 생각해서 추가적으로 찾아봤습니다.

 

2)

 

Why has the reverse read 2 a worse quality than the forward read 1 in Illumina sequencing?

We explain why the reverse read in Illumina has worse quality.

www.ecseq.com

 

설명하기 전에, 해당 문서에서 paired end turnaround라는 용어가 나옵니다. 해당 용어가 자주 사용되는 것 같진 않습니다. 조금 찾아본 결과

 

paired-end turnaround : R1 시퀀싱이 마무리되면, flow cell 상의 추가된 염기들은 모두 제거되고 flow cell 은 R1 시퀀싱이 시작되기 전의 상태로 돌아가게 되고 R2 시퀀싱을 위해 flow cell에 R2 read 합성을 위한 adaptor를 결합하는 등의 과정인 것 같습니다.                                                                                                     (정확하지 않은 정보라면 수정 부탁드립니다.)

 

paired-end turnaround

 

 

다시 돌아와서, 이 paired-end turnaround를 수행하는 과정에서 (nucleobases 가 화학적 처리에 의해 씻겨져 나가기 때문에) cluster의 크기가 줄어들게 되고 이를 해결하기 위해 Miseq 기준 12 사이클의 bridge amplification을 추가로 수행하게 됩니다. 이것이 R2의 quality 가 더 빨리 감소하기 시작하는 것에 대한 원인이라고 합니다. 

 

2) 에 대한 그림입니다.

 

 

요약하면 다음과 같습니다. 

 

시퀀싱 진행 단계 (illumina) : R1 sequencing  -> paired-end turnaround -> R2 sequencing에서

 

1) 은 R1 이 먼저 시퀀싱 되기 때문에 시약의 수명, 기계의 과부하 등으로 나중에 시퀀싱 되는 R2의 품질이 더 빨리 낮아지기 시작할 수밖에 없다.

 

2 )는 paired-end turnaround에서 flow cell을 씻어 내린 후에 감소한 cluster를 채우기 위해 추가적인 12 cycles의 bridge amplification을 수행하는데 이는 R2의 품질이 더 빠르게 감소하게 되는 원인이 된다.

(결국 cycle을 더 돌리면 시약의 품질 저하, 기계의 과부하 등이 온다는 1번과 동일한 맥락입니다.)

 

-> 결국 먼저 하는 R1 sequencing 보다 나중에 하는 R2 sequencing의 품질이 더 안 좋을 수밖에 없다.

 

 

 

 


정보가 많지 않아서 다소 틀린 부분이 많을 수 있는 내용인 것 같습니다. 사실과 다른 정보가 있다면 댓글로 알려주세요. 수정하겠습니다.


 

 

 


# 이번 시리즈에서 해당 사이트가 많은 도움이 되었습니다.

ecSeq이라는 bioinfo, NGS 등에 대해 솔루션을 제공하는 회사인 것 같습니다. 참고하시면 좋을 것 같아요.

 

Support

 

www.ecseq.com