[머신러닝] 9

마이크로바이옴을 사용한 대사체 예측 - LOCATE

요즘 기계학습의 성능이 얼마나 올라왔는지 chatgpt 를 보면 체감이 되는 부분이 있습니다. 4.0 버전이 성능이 정말 좋고 특히 코딩이 필요할 때 전공자가 아닌 입장에서 시간을 꽤나 절약할 수 있게 해 주고 이런 흐름은 나중에는 코딩으로 단순히 데이터를 시각화하는 데에 그치는 것이 아니라 모델을 만들고 데이터를 학습시키는 것이 어렵지 않은 작업이 될 것이라고 생각합니다. 그래서 대용량의 유전체 데이터를 다루는 이쪽 분야에서도 움직임을 꾸준하게 쫓아보는 것도 이후에 많은 도움이 될 것이라 생각하고 있습니다. 이전에도 관련해서 포스팅을 올렸던적이 있었는데 일단 마이크로바이옴 데이터를 학습시키는 과정에서 가장 먼저 표준화되어야 하는 것은 어떻게 전처리해서 학습시킬 것인가라고 생각하고 있습니다. 물론 많은 ..

[머신러닝] 2024.07.13

마이크로바이옴 + 대사체 데이터 기계학습

마이크로바이옴 데이터를 가지고 기계학습 모델에 학습시켰을 때 경험상 나타나는 가장 큰 문제는 과적합입니다. 샘플의 수가 충분하지 않은 점 (사람의 분변에서 데이터를 얻는데 백 명, 천명 단위의 데이터를 얻는 게 쉽지 않습니다.) + 데이터 특성상 feature 의 수가 상당히 많은 것 그중 대부분이 0 또는 그에 가까운 아주 작은 값을 갖는다는 점 등이 주요한 이유라고 생각됩니다. 그래서 마이크로바이옴 데이터만으로는 성능 좋은 모델을 만들기 어렵다고 생각하였고 mass spec 사용해서 확보한 대사체 데이터를 함께 사용했을때 조금 더 좋은 예측모델을 만들 수 있지 않을까 생각하여해 보기로 했습니다. 일단 데이터를 전처리 하는 과정에서 몇개의 분기점들이 있었는데 그것들을 중심으로 결과를 보여드리겠습니다. ..

[머신러닝] 2024.01.21

[머신러닝] q2-sample classifier

머신러닝 하면 가장 흔히 사용되는 것은 python 의 sklearn 입니다. 만약 더욱 복잡한 모델을 만들고 싶다면 tenserflow 등의 사용도 고려해 봐야겠지만 그 단계에서는 요구하는 컴퓨터의 사양 (GPU) 도 증가하고 학습시키는데 사긴도 상당히 오래 걸립니다. 따라서 초기 단계에서는 sklearn 으로 해당 데이터셋이 머신러닝을 수행하기에 적합한지 알아보는 것도 좋은 방법입니다. 마이크로바이옴 데이터를 기계학습 모델에 적용하고자 하는 시도는 지속적으로 이루어지고 있습니다. 실제 마이크로바이옴 데이터를 분석하는데에 자주 사용되는 QIIME2 에서도 머신 러닝을 수행할 수 있는 플러그인을 제공하고 있습니다. q2-sample-classifer 플러그인은 sklearn 을 기반으로 작성된 머신 러닝..

[머신러닝] 2023.12.17

[머신러닝] 모델에 학습시키기 위한 마이크로바이옴 데이터의 형식

-- 논문보다는 개인적인 생각을 바탕으로 서술하였습니다-- 어떤 학습을 목표로 하는지에 따라서 다르겠지만 마이크로바이옴 데이터를 학습시키기 위해서 무조건 포함되어야 하는 것은 균주의 정량 또는 유무에 대한 정보입니다. 16s rRNA gene 을 증폭시켜 해당 부분을 시퀀싱한 데이터를 얻었다고 가정할 때 해당 데이터를 처리하는 방법은 생각보다 다양할 수 있습니다. 그리고 머신러닝 학습의 특성상 최소 백명 또는 천명 단위의 데이터를 필요로 하는데 동일한 조건으로 해당 데이터를 생산하는 것은 쉽지 않습니다. 이전에 마이크로바이옴 데이터를 사용하여 조산을 예측하고자 머신러닝 경진대회와 비슷한 것이 열렸었습니다. Microbiome Preterm Birth DREAM Challenge: Crowdsourcing..

[머신러닝] 2023.11.29

[머신러닝] CNN 을 사용한 마이크로바이옴 데이터의 분류 (T2D vs healthy)

오늘은 마이크로바이옴 데이터를 CNN 을 사용하여 학습, T2D 환자를 분류하는 논문이 있어서 해당 아이디어를 소개하고자 가져왔습니다. Classification of Microbiome Data from Type 2 Diabetes Mellitus Individuals with Deep Learning Image RecognitionMicrobiomic analysis of human gut samples is a beneficial tool to examine the general well-being and various health conditions. The balance of the intestinal flora is important to prevent chronic gut infections..

[머신러닝] 2023.11.26

실제 데이터로 머신러닝 모델 만들기 : 2

실제 데이터로 머신러닝 모델 만들기 : 1 안녕하세요. 빅데이터분석기사 취득 이후에, 실제 데이터를 가지고 꼭 한번 분석하는 시간을 가져야겠다는 생각을 했었는데요. 시중에 나와있는 머신러닝 모델을 학습시키기에 최적화된 데이 hiimgood.tistory.com 이전 글에 이어서 포스팅합니다. 3. 분류모형 이전 글에서 말씀드렸던 것처럼 회귀모형으로 예측하기에는 데이터의 구조가 특이한 부분이 었어 어렵고 분류 모델로 학습하는 것이 조금 더 효율적이면서 과제의 기존 목적도 어느 정도 달성할 수 있는 방법이라고 생각하였습니다. 균이 검출되지 않은 것 : 0 균이 검출된 것 : 1 로 다시 라벨링하여 데이터의 분포를 확인하였습니다. 이렇게 보니 확연하게 불균형 데이터라는 것을 볼 수 있었습니다. counter ..

[머신러닝] 2023.09.17

실제 데이터로 머신러닝 모델 만들기 : 1

안녕하세요. 빅데이터분석기사 취득 이후에, 실제 데이터를 가지고 꼭 한번 분석하는 시간을 가져야겠다는 생각을 했었는데요. 시중에 나와있는 머신러닝 모델을 학습시키기에 최적화된 데이터들이 아닌 실제 발생하는 데이터를 가지고 해보고 싶다는 생각이 있었습니다. 다만, 제가 개인적으로 몇천개의 데이터를 모을 수는 없기에 연구실에서 맡고 있는 과제들에서 해볼만한 데이터가 있나 살펴보던 중 괜찮은 데이터셋이 있어서 그걸 가지고 머신러닝 모델을 만들고 있습니다. 국가과제 데이터여서 데이터에 대한 세부사항을 설명하기보다는, 전체적인 데이터의 특성만 설명하고 실제 어떻게 모델을 만들었으며 모델의 성능과 성능을 향상시키기 위해 어떻게 하고 있는지 기록하면서 아직 이 분야에 초보자이기에 고수분들의 피드백도 받고자 포스팅합니..

[머신러닝] 2023.09.16

microbiome data 에서 explainable AI 의 사용 (SHAP)

오늘은 마이크로바이옴 데이터를 머신러닝 모델에 적용한 논문을 가져왔습니다. 간단하게 리뷰해 보겠습니다. Explainable AI reveals changes in skin microbiome composition linked to phenotypic differences  위 논문에서 강조하는 것은 제목에도 나와있듯이 Explainable AI (이하, XAI)를 사용했다는 것입니다. XAI 란, 말 그대로 설명가능한 인공지능 이란 뜻으로, 머신러닝의 특징 중 하나인 블랙박스 모델에서 벗어나 모델이 결론을 도출하는 과정을 사람이 이해할 수 있도록 하는 것을 말합니다.  머신러닝은 기본적으로 엄청나게 많은 양의 데이터 속에서 사람이 보지 못하는 인사이트를 도출해 내는 것에 강점이 있습니다. 위 논문에서의..

[머신러닝] 2023.09.04

제 6회 빅데이터분석기사 자격증 취득 후기

안녕하세요. 뒤늦게 작성하는 빅데이터분석기사 자격증 취득 후기입니다. 저는 빅데이터분석기사 취득을 목표로 관련 자격증인 ADSP를 먼저 취득하고 빅데이터분석기사를 준비하였는데요, 기본적으로 빅데이터분석기사 필기와 ADSP는 상당 부분 겹치는 것들이 많아 어떻게 보면 ADSP를 취득하면 빅데이터분석기사 필기를 상대적으로 수월하게 취득할 수 있다는 이점이 있지만 지금 생각하면 굳이?라는 생각이 들긴 합니다. ADSP 가 ADP 를 취득하기 위한 요건이기 때문에 ADP를 최종목표로 하신다면 ADSP -> 빅분기 -> ADP 순이 맞겠지만 ADP 취득을 목표하지 않으시는 분들이라면 굳이 ADSP를 먼저 공부할 필요가 있을까 싶습니다. 개인적으로 ADSP 는 의미가 그렇게 크지도 않고 시험의 퀄리티 자체도 높지 ..

[머신러닝] 2023.08.24