Prediction of type 2 diabetes using genome-wide polygenic risk score and metabolic profiles: A machine learning analysis of population-based 10-year prospective cohort study


Seok-Ju Hahn, Suhyeon Kim, Young Sik Choi, 이정혜, Jihun Kang (2022) · ebiomedicine

이정혜의료 AI 대표작 — 58 회 인용. 제 2 형 당뇨 (T2D) 의 10 년 종단 예측genome-wide Polygenic Risk Score (gPRS, 239,062 변이) + 대사체 (serum metabolites) + 임상 지표다중 모달 통합. Random Forest AUC 0.844 (임상만 0.779) — 다중 모달 +0.065. 아시아 특이적 gPRS 의 유효성 입증. KoGES 코호트 10 년 추적.

  • RQ: Genome-wide PRS (239k 변이) + 대사체 + 임상 지표 의 다중 모달 결합이 T2D 10 년 예측 의 성능 한계를 어떻게 개선하는가? 아시아 특이적 gPRS 의 유효성은?
  • 방법론: multi-modal-integration — gPRS (genome-wide) + serum metabolites + clinical indicators + random-forest / 다른 ML
  • 데이터: KoGES (Korean Genome and Epidemiology Study) — 10 년 prospective cohort
  • 주요 발견: (1) Random Forest AUC 0.844 (다중 모달) vs 0.779 (clinical only) — +0.065 향상. (2) gPRS (239,062 SNPs) 가 아시아 인구에서 유효. (3) 대사체 추가가 추가 예측력. (4) 10 년 종단 추적실용적 임상 시나리오.
  • 시사점: T2D 의 조기 식별 에 PRS + 대사체 + 임상 의 통합 사용. 한국·아시아 인구의 특이적 gPRS 의 임상 활용 가능성.

gPRS·대사체·임상 지표 다중 모달 통합 기반 제 2 형 당뇨 10 년 예측 파이프라인 개요.

요약

이 paper 는 이정혜 의 *2 기 UNIST 후반 의 의료 AI 대표작eBioMedicine (Lancet 계열 영향력 있는 medical journal) 발표, 58 회 인용. Seok-Ju Hahn (SuPerFed 의 같은 제 1 저자) + Suhyeon Kim + 가정의학 + 의학통계학 동료의 학제간 협업.

방법론적 핵심: 3 modal 통합:

  1. gPRS (genome-wide PRS) — 239,062 SNP variants 의 가중합. T2D 관련 GWAS 결과를 기반으로 아시아 인구 calibration.
  2. Serum metabolites — 혈청 대사체 (lipids, amino acids 등). LC-MS/MS 정량.
  3. Clinical indicators — 혈압, BMI, 공복혈당, 가족력 등.

세 modal 을 concatenaterandom-forest (또는 XGBoost 등) 학습. KoGES 의 10 년 종단 코호트 사용 — baseline 측정 + 10 년 후 T2D 발생 확인. Train/test split 으로 generalization 평가.

핵심 발견:

  • AUC 0.844 (다중 모달) vs 0.779 (clinical only) — +0.065 향상. 10% 가까운 relative improvement.
  • gPRS alone 도 유의한 예측력 (AUC ~0.65-0.70), clinical alone 보다 추가적 정보 제공.
  • Metabolites alone 도 유의 — 대사체 가 임상 + 유전 사이의 layer.
  • 다중 모달의 시너지 — single modal 단독 합보다 우월.

이정혜연구 궤적 안에서 이 paper 는 실타래 3 (Healthcare AI) 의 정점. Prediction of Hypertension Complications Risk Using Classification Techniques (단순 분류기) → Risk assessment for hypertension and hypertension complications incidences using a Bayesian network (BN) → 본 paper (다중 모달 ML) 의 의료 AI 진화. 또 Risk score-embedded deep learning for biological age estimation: Development and validation2022 동시기 의료 AI 작업.

핵심 결과

모형AUC
Clinical only0.779
Clinical + gPRS~0.81
Clinical + Metabolites~0.82
Clinical + gPRS + Metabolites (Full)0.844
향상 (vs clinical)+0.065
gPRS SNP 수239,062
CohortKoGES (10 년 prospective)
인용 수58

방법론 노트

polygenic-risk-score (PRS):

PRSi=j=1SβjXij\text{PRS}_i = \sum_{j=1}^{S} \beta_j \cdot X_{ij}

XijX_{ij} = individual ii 의 SNP jj allele 수 (0/1/2), βj\beta_j = GWAS effect size. Genome-wide → S=239,062.

다중 모달 학습:

y^i=f(Clinicali,PRSi,Metabolitesi)\hat{y}_i = f(\text{Clinical}_i, \text{PRS}_i, \text{Metabolites}_i)

ff = Random Forest (또는 XGBoost, neural network). 모든 features concatenate 후 RF.

식별 가정: (i) gPRS 의 아시아 인구 calibration, (ii) 대사체 measurement 의 정확성, (iii) 10 년 추적의 완전성 (low attrition), (iv) RF 의 non-linear interaction 포착.

연구 계보

이 paper 는 (i) International Schizophrenia Consortium (2009) 의 PRS 본가, (ii) Khera et al. (2018) genome-wide PRS for T2D 정통, (iii) Risk assessment for hypertension and hypertension complications incidences using a Bayesian network · Risk score-embedded deep learning for biological age estimation: Development and validation 등 의료 AI 라인 — 의 결합. 이정혜연구 궤적 실타래 3 의 정점.

See also

인접 그래프

1-hop 이웃 8
  • 인물 5
  • 논문 3
이정혜Jihun KangSeok-Ju HahnSuhyeon KimYoung Sik Choi Prediction of type 2 …
휠 = 확대/축소 · 드래그 = 이동 · hover = 라벨 · 클릭 = 페이지 이동