Machine learning for disease-specific prediction of high-cost patients
Inwoo Tae, 이정혜 (2025) · engineering-applications-of-artificial-intelligence 161:112200 · DOI ↗
질병 별 (disease-specific) 고비용 환자 예측 — aggregate (질병 무관) 접근 대비 AUC 개선 (DMS 근골격계 +0.090, DCS 순환계 +0.025). 한국 NHIS 880,000 명 (2015-2019). 핵심 발견: 질병 별 임상 지표 (BMI for 근골격계, hemoglobin for 순환계) 가 historical cost 보다 더 예측력 우월. 이정혜 의 실타래 3 (Healthcare AI) 의 2025 작업 — pre-COVID 데이터 tiered 접근 제안.
- RQ: Aggregate 고비용 환자 예측 vs disease-specific 예측의 정확도 차이는? 어떤 질병이 predictable 한가?
- 방법론: Disease-specific ML models + aggregate baseline 비교. 질병 별 clinical indicator 의 importance 분석
- 데이터: 한국 NHIS 880,000 명 (2015-2019, pre-COVID)
- 주요 발견: (1) Disease-specific > aggregate: DMS (근골격계) AUC +0.090, DCS (순환계) +0.025. (2) 질병 별 clinical indicator 가 historical cost pattern 보다 우월 — BMI (근골격계), hemoglobin (순환계). (3) DDS, DRS 등 일부 질병은 predictability 낮음 — diagnostic protocol 우선. (4) Tiered approach 권장.
- 시사점: Healthcare resource allocation 의 differentiated 전략. Predictable 질병 (DMS, DCS) 은 disease-specific model, predictable 낮은 질병은 diagnostic enhancement 우선.
요약
이 paper 는 이정혜 의 *3 기 SNU TEMEP 의 의료 AI + 정책 분석. Inwoo Tae (제 1 저자) 와의 협업. A Data-Driven Procedure of Providing a Health Promotion Program for Hypertension Prevention (data-driven hypertension) 의 고비용 환자 예측 확장.
방법론적 핵심: Disease-specific vs Aggregate 비교 framework. 5 질병 categories — DMS (근골격), DCS (순환), DDS (소화), DRS (호흡), 기타. 각 disease 별 별도 ML model 학습 vs aggregate (질병 무관) baseline.
핵심 발견 (정량):
- DMS (근골격계 — 디스크, 관절염 등): AUC +0.090 (disease-specific > aggregate)
- DCS (순환계 — 고혈압, 뇌졸중 등): AUC +0.025
- 핵심 predictor — 질병 별 clinical indicator: BMI (DMS), hemoglobin (DCS). Historical cost pattern (지속성 가정) 보다 우월.
- DDS, DRS: predictability 자체가 낮음 — 진단 강화 우선
Conventional assumption challenge: 기존 cost persistence (이전 고비용 → 다음 고비용) 가정이 모든 질병에 통하지 않음. 일부 질병 (DMS) 은 현재 임상 지표 가 더 정확.
정책 함의: Tiered approach:
- DMS, DCS (predictable + improvable): disease-specific model 배포
- DDS, DRS (less predictable): diagnostic enhancement
이정혜 의 연구 궤적 안에서 이 paper 는 실타래 3 (Healthcare AI) 의 2025 작업 — pre-COVID 데이터 + tiered allocation.
핵심 결과
| 질병 | AUC 개선 (disease-specific vs aggregate) | 핵심 indicator |
|---|---|---|
| DMS (근골격) | +0.090 | BMI |
| DCS (순환) | +0.025 | hemoglobin |
| DDS (소화) | 작음 | — (predictability 낮음) |
| DRS (호흡) | 작음 | — |
- N=880,000 (한국 NHIS, 2015-2019 pre-COVID)
- Tiered approach 권장
방법론 노트
Disease-specific ML:
For each disease d in {DMS, DCS, DDS, DRS, ...}:
Train ML model M_d on disease-d patients
Predict high-cost label
Aggregate baseline:
Train single M_aggregate on all patients
Predict high-cost regardless of disease
비교 metric: AUC, precision, recall.
식별 가정: (i) Disease label 의 명확한 정의, (ii) Sample size per disease 충분, (iii) Pre-COVID 패턴의 현재 적용성.
연구 계보
이 paper 는 (i) A Data-Driven Procedure of Providing a Health Promotion Program for Hypertension Prevention 직접 선행, (ii) Healthcare cost prediction literature, (iii) Disease heterogeneity 의 ML 응용 — 의 결합. 이정혜 의 연구 궤적 실타래 3 의 2025 작업.
See also
- 이정혜
- Inwoo Tae
- disease-specific-ml
- high-cost-patient-prediction
- medical-ai
- engineering-applications-of-artificial-intelligence
- A Data-Driven Procedure of Providing a Health Promotion Program for Hypertension Prevention
인접 그래프
- 인물 2
- 논문 1