Machine learning for disease-specific prediction of high-cost patients


Inwoo Tae, 이정혜 (2025) · engineering-applications-of-artificial-intelligence 161:112200 · DOI ↗

질병 별 (disease-specific) 고비용 환자 예측aggregate (질병 무관) 접근 대비 AUC 개선 (DMS 근골격계 +0.090, DCS 순환계 +0.025). 한국 NHIS 880,000 명 (2015-2019). 핵심 발견: 질병 별 임상 지표 (BMI for 근골격계, hemoglobin for 순환계) 가 historical cost 보다 더 예측력 우월. 이정혜실타래 3 (Healthcare AI) 의 2025 작업 — pre-COVID 데이터 tiered 접근 제안.

  • RQ: Aggregate 고비용 환자 예측 vs disease-specific 예측의 정확도 차이는? 어떤 질병이 predictable 한가?
  • 방법론: Disease-specific ML models + aggregate baseline 비교. 질병 별 clinical indicator 의 importance 분석
  • 데이터: 한국 NHIS 880,000 명 (2015-2019, pre-COVID)
  • 주요 발견: (1) Disease-specific > aggregate: DMS (근골격계) AUC +0.090, DCS (순환계) +0.025. (2) 질병 별 clinical indicator 가 historical cost pattern 보다 우월 — BMI (근골격계), hemoglobin (순환계). (3) DDS, DRS 등 일부 질병은 predictability 낮음 — diagnostic protocol 우선. (4) Tiered approach 권장.
  • 시사점: Healthcare resource allocationdifferentiated 전략. Predictable 질병 (DMS, DCS) 은 disease-specific model, predictable 낮은 질병은 diagnostic enhancement 우선.

요약

이 paper 는 이정혜 의 *3 기 SNU TEMEP 의 의료 AI + 정책 분석. Inwoo Tae (제 1 저자) 와의 협업. A Data-Driven Procedure of Providing a Health Promotion Program for Hypertension Prevention (data-driven hypertension) 의 고비용 환자 예측 확장.

방법론적 핵심: Disease-specific vs Aggregate 비교 framework. 5 질병 categories — DMS (근골격), DCS (순환), DDS (소화), DRS (호흡), 기타. 각 disease 별 별도 ML model 학습 vs aggregate (질병 무관) baseline.

핵심 발견 (정량):

  • DMS (근골격계 — 디스크, 관절염 등): AUC +0.090 (disease-specific > aggregate)
  • DCS (순환계 — 고혈압, 뇌졸중 등): AUC +0.025
  • 핵심 predictor — 질병 별 clinical indicator: BMI (DMS), hemoglobin (DCS). Historical cost pattern (지속성 가정) 보다 우월.
  • DDS, DRS: predictability 자체가 낮음 — 진단 강화 우선

Conventional assumption challenge: 기존 cost persistence (이전 고비용 → 다음 고비용) 가정이 모든 질병에 통하지 않음. 일부 질병 (DMS) 은 현재 임상 지표 가 더 정확.

정책 함의: Tiered approach:

  • DMS, DCS (predictable + improvable): disease-specific model 배포
  • DDS, DRS (less predictable): diagnostic enhancement

이정혜연구 궤적 안에서 이 paper 는 실타래 3 (Healthcare AI) 의 2025 작업 — pre-COVID 데이터 + tiered allocation.

핵심 결과

질병AUC 개선 (disease-specific vs aggregate)핵심 indicator
DMS (근골격)+0.090BMI
DCS (순환)+0.025hemoglobin
DDS (소화)작음— (predictability 낮음)
DRS (호흡)작음
  • N=880,000 (한국 NHIS, 2015-2019 pre-COVID)
  • Tiered approach 권장

방법론 노트

Disease-specific ML:

For each disease d in {DMS, DCS, DDS, DRS, ...}:
  Train ML model M_d on disease-d patients
  Predict high-cost label
  
Aggregate baseline:
  Train single M_aggregate on all patients
  Predict high-cost regardless of disease

비교 metric: AUC, precision, recall.

식별 가정: (i) Disease label 의 명확한 정의, (ii) Sample size per disease 충분, (iii) Pre-COVID 패턴의 현재 적용성.

연구 계보

이 paper 는 (i) A Data-Driven Procedure of Providing a Health Promotion Program for Hypertension Prevention 직접 선행, (ii) Healthcare cost prediction literature, (iii) Disease heterogeneity 의 ML 응용 — 의 결합. 이정혜연구 궤적 실타래 3 의 2025 작업.

See also

인접 그래프

1-hop 이웃 3
  • 인물 2
  • 논문 1
이정혜Inwoo Tae Machine learning for …
휠 = 확대/축소 · 드래그 = 이동 · hover = 라벨 · 클릭 = 페이지 이동