bioinfo

Unifrac distance (microbiome)

" " 2023. 12. 16. 21:37

마이크로바이옴 데이터를 분석하다 보면 '거리' 의 개념을 자주 필요로 합니다. 마이크로바이옴 데이터의 특성상, 일반적인 숫자 데이터가 아닌 서로 다른 미생물로 구성되어 있기 때문에 새로운 개념을 도입합니다.

 

'거리' 라고 하면 가장 먼저 생각나는 것은 당연히 유클리드 거리입니다. 이것을 사용해서 우리는 (1,2) 와 (4,6) 사이의 거리를 계산하여 5 라는 것을 알 수 있습니다.

 

https://en.wikipedia.org/wiki/Euclidean_distance

 

 

그러나 우리가 알고 싶어하는 것을 단순하게 나타내보면 아래와 같습니다. 아래의 A, B 샘플 간의 거리는 어떻게 될까요?

이러한 미생물 간의 거리를 나타내기 위해서 'Unifrac distance' 라는 개념을 도입하게 됩니다. 해당 개념은 위의 예시에서 알 수 있듯이 샘플 간의 미생물 구성에 대한 차이를 계산하는데 이는 미생물 군집의 구조적인 형태를 비교할 때 사용하는 베타 다양성과 그 목적이 동일합니다. 하여, 베타 다양성을 계산하는 데에 있어서 Unifrac 을 사용합니다.

 

Unifrac 이라는 단어가 어디서 왔는지 먼저 알고 시작하면 조금 더 수월한 부분이 있습니다.

Unifrac = unique fraction 이며, phylogenetic-based beta diversity 입니다.

 

기본적으로 미생물 간의 관계를 확보하기 위해서 계통학의 개념을 가지고 와야 합니다. 계통학적 거리를 수학적으로 변환만 할 수 있다면 샘플 간의 거리를 쉽게 비교할 수 있겠죠.

 

https://journals.asm.org/doi/full/10.1128/aem.71.12.8228-8235.2005

 

 

샘플 간의 계통학적인 거리를 숫자로 나타내기 위해서 다음의 개념을 사용합니다.

'관찰된 전체 가지 중에서 고유한 가지의 비율"  -> 여기서 '고유한' 의 반대는 '공유하는' 이라고 생각해야 이해가 쉽습니다.

 

위의 그림에 동그라미와 네모가 있습니다. 쉬운 이해를 위해서 동그라미는 각각 손에서 채취한 마이크로바이옴 샘플이고 네모는 발에서 채취한 마이크로바이옴 샘플이라고 가정하겠습니다.

 

또한 회색 가지는 공유하는 가지, 강조되지 않은 검은색 가지는 고유한 가지입니다. 다시 말하면, 회색 가지에서는 손과 발에 존재하는 미생물이 둘 다 나온다는 의미이고 검은 가지에서는 둘 중 하나에 존재하는 미생물만 나온다는 의미입니다.

 

A 나무를 먼저 보면, 회색 가지가 많이 보입니다. 그 말은, 손과 발에서 공유하는 미생물들이 많이 있고 두 환경의 unifrac distance 는 작습니다. (가깝습니다.)

 

그러나, B 나무를 보면 회색 가지가 아예 없습니다. 그러므로, 손에 존재하는 미생물과 발에 존재하는 미생물이 아예 겹치지 않아 unifrac distance 가 크고 멀다고 할 수 있습니다.

 

https://www.youtube.com/watch?v=M8ylvsS0MHg

 

동일한 설명을 하는 그림인데요, 저는 이 그림으로 이해가 어려웠지만 사람에 따라 다를 수 있기에 혹시 몰라 남겨두겠습니다.

 

 

이러한 계산을 각 모든 샘플 간에 수행하게 됩니다. 그러니까, 위와 같이 빨간색, 노란색, 파란색 샘플이 있다고 했을 때, 각 샘플끼리의 계산을 통해 distance matrix 를 작성할 수 있고, 이를 사용하여 시각화 (주로 베타다양성을 위함) 하게 됩니다.

 

 

+ 추가로, weighted unifrac distance / unweighted unifrac distance 의 개념도 존재합니다.

weighted 는 말 그대로 가중치를 두겠다는 말인데 각 미생물이 존재하는 풍부도에 가중치를 두겠다는 의미입니다.

다시 이 그림을 가지고 unweighted unifrac distance 를 계산해보면, 값은 0 입니다. unweighted unifrac distance 은 해당 미생물이 존재하는지, 존재하지 않는지만 따지고 얼마나 많이 존재하는지는 생각하지 않습니다. 그러므로 A, B 샘플 둘다 동일하게 2 개의 미생물로 구성되어 있으므로 거리가 0 이라고 할 수 있습니다.

 

다만, weighted unifrac distance 로 계산한다면 거리가 멀지는 않아도 0 은 아닐 것 입니다. 구성하는 미생물의 상대적 풍부도에 차이가 있기 때문입니다. 

 

이러한 특성 때문에 일반적으로 weighted unifrac distance 는 major taxa 를 강조하고, unweighted unifrac distance 는 minor taxa 를 강조한다 라고 말합니다.

 

 

 

# reference

 

1) https://www.youtube.com/watch?v=M8ylvsS0MHg

 

2) Lozupone, Catherine, and Rob Knight. "UniFrac: a new phylogenetic method for comparing microbial communities." Applied and environmental microbiology 71.12 (2005): 8228-8235.