Prediction of type 2 diabetes using genome-wide polygenic risk score and metabolic profiles: A machine learning analysis of population-based 10-year prospective cohort study
Seok-Ju Hahn, Suhyeon Kim, Young Sik Choi, 이정혜, Jihun Kang (2022) · ebiomedicine
이정혜 의 의료 AI 대표작 — 58 회 인용. 제 2 형 당뇨 (T2D) 의 10 년 종단 예측 — genome-wide Polygenic Risk Score (gPRS, 239,062 변이) + 대사체 (serum metabolites) + 임상 지표 의 다중 모달 통합. Random Forest AUC 0.844 (임상만 0.779) — 다중 모달 +0.065. 아시아 특이적 gPRS 의 유효성 입증. KoGES 코호트 10 년 추적.
- RQ: Genome-wide PRS (239k 변이) + 대사체 + 임상 지표 의 다중 모달 결합이 T2D 10 년 예측 의 성능 한계를 어떻게 개선하는가? 아시아 특이적 gPRS 의 유효성은?
- 방법론: multi-modal-integration — gPRS (genome-wide) + serum metabolites + clinical indicators + random-forest / 다른 ML
- 데이터: KoGES (Korean Genome and Epidemiology Study) — 10 년 prospective cohort
- 주요 발견: (1) Random Forest AUC 0.844 (다중 모달) vs 0.779 (clinical only) — +0.065 향상. (2) gPRS (239,062 SNPs) 가 아시아 인구에서 유효. (3) 대사체 추가가 추가 예측력. (4) 10 년 종단 추적 의 실용적 임상 시나리오.
- 시사점: T2D 의 조기 식별 에 PRS + 대사체 + 임상 의 통합 사용. 한국·아시아 인구의 특이적 gPRS 의 임상 활용 가능성.

요약
이 paper 는 이정혜 의 *2 기 UNIST 후반 의 의료 AI 대표작 — eBioMedicine (Lancet 계열 영향력 있는 medical journal) 발표, 58 회 인용. Seok-Ju Hahn (SuPerFed 의 같은 제 1 저자) + Suhyeon Kim + 가정의학 + 의학통계학 동료의 학제간 협업.
방법론적 핵심: 3 modal 통합:
- gPRS (genome-wide PRS) — 239,062 SNP variants 의 가중합. T2D 관련 GWAS 결과를 기반으로 아시아 인구 calibration.
- Serum metabolites — 혈청 대사체 (lipids, amino acids 등). LC-MS/MS 정량.
- Clinical indicators — 혈압, BMI, 공복혈당, 가족력 등.
세 modal 을 concatenate 후 random-forest (또는 XGBoost 등) 학습. KoGES 의 10 년 종단 코호트 사용 — baseline 측정 + 10 년 후 T2D 발생 확인. Train/test split 으로 generalization 평가.
핵심 발견:
- AUC 0.844 (다중 모달) vs 0.779 (clinical only) — +0.065 향상. 10% 가까운 relative improvement.
- gPRS alone 도 유의한 예측력 (AUC ~0.65-0.70), clinical alone 보다 추가적 정보 제공.
- Metabolites alone 도 유의 — 대사체 가 임상 + 유전 사이의 layer.
- 다중 모달의 시너지 — single modal 단독 합보다 우월.
이정혜 의 연구 궤적 안에서 이 paper 는 실타래 3 (Healthcare AI) 의 정점. Prediction of Hypertension Complications Risk Using Classification Techniques (단순 분류기) → Risk assessment for hypertension and hypertension complications incidences using a Bayesian network (BN) → 본 paper (다중 모달 ML) 의 의료 AI 진화. 또 Risk score-embedded deep learning for biological age estimation: Development and validation 와 2022 동시기 의료 AI 작업.
핵심 결과
| 모형 | AUC |
|---|---|
| Clinical only | 0.779 |
| Clinical + gPRS | ~0.81 |
| Clinical + Metabolites | ~0.82 |
| Clinical + gPRS + Metabolites (Full) | 0.844 |
| 향상 (vs clinical) | +0.065 |
| gPRS SNP 수 | 239,062 |
| Cohort | KoGES (10 년 prospective) |
| 인용 수 | 58 |
방법론 노트
polygenic-risk-score (PRS):
= individual 의 SNP allele 수 (0/1/2), = GWAS effect size. Genome-wide → S=239,062.
다중 모달 학습:
= Random Forest (또는 XGBoost, neural network). 모든 features concatenate 후 RF.
식별 가정: (i) gPRS 의 아시아 인구 calibration, (ii) 대사체 measurement 의 정확성, (iii) 10 년 추적의 완전성 (low attrition), (iv) RF 의 non-linear interaction 포착.
연구 계보
이 paper 는 (i) International Schizophrenia Consortium (2009) 의 PRS 본가, (ii) Khera et al. (2018) genome-wide PRS for T2D 정통, (iii) Risk assessment for hypertension and hypertension complications incidences using a Bayesian network · Risk score-embedded deep learning for biological age estimation: Development and validation 등 의료 AI 라인 — 의 결합. 이정혜 의 연구 궤적 실타래 3 의 정점.
See also
- 이정혜
- Seok-Ju Hahn
- Suhyeon Kim
- polygenic-risk-score
- random-forest
- multi-modal-integration
- type-2-diabetes-prediction
- medical-ai
- ebiomedicine
인접 그래프
- 인물 5
- 논문 3