bioinfo

ECTyper - E. coli serotype identification

" " 2024. 4. 27. 11:39

안녕하세요, 오늘은 E. coli 의 serotype prediction 을 간단하게 수행할 수 있는 리눅스 기반 프로그램을 소개해드리려 합니다.

 

최근에 많은 수의 대장균의 항원형을 확인해야할 일이 있어 많은 파일을 간단하게 처리해 주는 프로그램이 없나 찾아보다가 ECTyper 라는 프로그램을 알게 되어 수행해 본 결과 실행코드도 간단하고 많은 파일을 빠르게 처리해 줘서 공유해드릴만 하다고 생각되었습니다.

 

 

 

ECTyper: in silico Escherichia coli serotype and species prediction from raw and assembled whole-genome sequence data

is a priority foodborne pathogen of public health concern and phenotypic serotyping provides critical information for surveillance and outbreak detection activities. Public health and food safety laboratories are increasingly adopting whole-genome ...

www.ncbi.nlm.nih.gov

 

해당 프로그램에 관한 논문이고 아래는 워크플로우입니다. 단순하게 O antigen, H antigen 과 관련된 데이터베이스에 대해서 alignment 수행하고 (Bowtie2 사용) 검출된 유전자 서열을 BLASTn 수행하여 어떤 유전자인지 확인하는 절차를 따릅니다. 따라서 가장 중요한 것은 O, H antigen 데이터베이스의 신뢰도입니다. 기존에 많이 사용되던 SerotypeFinder 와 높은 일치율을 보였다고 하니 성능은 어느 정도 입증되었다고 볼 수 있습니다. 

 

ECTyper workflow


 

ECTyper 는 리눅스에서 간단하게 설치, 실행할 수 있습니다. 아래의 링크로 들어가면 해당 프로그램에 대한 설치 방법과 사용 방법이 자세하게 나타나 있습니다.

 

 

GitHub - phac-nml/ecoli_serotyping: In silico prediction of E. coli serotype

In silico prediction of E. coli serotype. Contribute to phac-nml/ecoli_serotyping development by creating an account on GitHub.

github.com

 

 

(참고로, 두 개의 설치 옵션이 있는데 첫 번째 방법으로 설치했을 때는 실행이 안돼서 두 번째 방법으로 설치, 실행했습니다.) + python 은 3.8 이상 버전이면 충동하니 'conda install python=3.8' 로 버전 바꾼 후 설치하시는 게 좋습니다.

 

실행 코드도 아주 단순합니다. fasta file 들을 넣은 input 폴더와 output 폴더를 준비한 뒤

 

 

ectyper -i input -o output

 

 

을 입력해주면 input 폴더 안에 있는 모든 fasta file 에 대해 serotype prediction 을 자동으로 수행해 주고 그 결과를 output 폴더에 넣어줍니다. 아래와 같이 O, H antigen type 을 확인해 주고 어떤 유전자가 잡히는지까지 보여줍니다.

 

 

ECTyper 실행 결과

 

 

 

# reference

 

1) Bessonov, Kyrylo, et al. "ECTyper: in silico Escherichia coli serotype and species prediction from raw and assembled whole-genome sequence data." Microbial genomics 7.12 (2021): 000728.