Prediction of Hypertension Complications Risk Using Classification Techniques

Wonji Lee, 이정혜, Hyeseon Lee, Chi-Hyuck Jun, Il-su Park, Sung-Hong Kang (2014) · industrial-engineering-and-management-systems 13(4):449-453 · DOI ↗

한국 국민건강보험공단의 표본 코호트 (전 인구의 2%, 약 100 만 명) 에서 추출한 고혈압 환자 10,814 명 (그 중 합병증 발생 1,739 명, 16.08%) 의 follow-up 2008-2010 데이터로 심혈관 합병증 발생 위험 을 로지스틱 회귀 · linear-discriminant-analysis · classification-and-regression-tree 세 기법으로 예측. Under-sampling 5 회 × 5-fold CV (총 25 회) 평균에서 LR/LDA 가 거의 동일 (LR test AUC 0.6072 vs LDA 0.6068), CART 가 training 우월 (AUC 0.7061) 하지만 test 열위 (0.5704) — overfitting. LR 이 marginal 우위.

RQ: 한국 국민건강보험 sample DB 의 인구통계·건강검진·생활습관·가족력 28 변수로 고혈압 환자의 심혈관 합병증 발생 을 예측할 수 있는가, 그리고 LR · LDA · CART 중 어느 기법이 우월한가?
방법론: 로지스틱 회귀 (logit link), linear-discriminant-analysis (공통 공분산 Gaussian 가정), classification-and-regression-tree (Gini index split + cost-complexity pruning), under-sampling (소수 class 1,739 명에 다수 class 1,739 명 매칭, 5 회 반복), cross-validation (5-fold × 5 sample = 25 회 평균), roc-auc
데이터: 한국 국민건강보험공단 표본 DB (2002-2010, N=100 만, 2% 표본), 2008 reference year 의 고혈압 진단 환자 10,814 명, follow-up 2008-2010 합병증 발생 추적. 독립변수: 인구통계 3 (age, sex, income 20 class) + 의료이용 4 + 건강검진 10 (BMI · 혈압 · 공복혈당 · 콜레스테롤 등) + 생활습관 5 (흡연/음주) + 가족력 5 + 본인 당뇨력
주요 발견: (1) Test AUC: LR 0.6072 > LDA 0.6068 > CART 0.5704. Test accuracy: LR 0.5782 > LDA 0.5779 > CART 0.5533. (2) CART training AUC 0.7061 vs test 0.5704 = 심한 generalization 격차. (3) 합병증 발생률은 여성 16.79% > 남성 15.45%, 60대 17.89% > 50대 11.80% > 40대 8.51%, 가족력 심장질환 보유 20.73% vs 무보유 15.91%, 뇌졸중 19.14% vs 15.80% (가족력이 가장 강한 risk factor)
시사점: 만성질환 위험 예측에서 단순 선형 모형 (LR) 이 비선형 tree (CART) 와 동등하거나 우월. CART 의 데이터 구조 sensitivity 가 generalization 발목. 한국 건강보험 표본 DB 의 정책 활용 잠재력 — 향후 다른 만성질환 (당뇨 합병증 등) 으로 확장 가능

요약

본 paper 는 이정혜 의 1 기 (POSTECH 박사 2014-2018) 시기 healthcare ML 라인 의 출발점. 동료 Wonji Lee 가 제 1 저자, 지도교수 Chi-Hyuck Jun (POSTECH 산업경영공학) 와 inje 의대 Sung-Hong Kang (corresponding author) 의 공동. 한국 국민건강보험공단이 2012 년 표본 national healthcare DB (인구의 2%, age/sex/income strata 비례 표본 약 100 만 명) 를 정부 open data 정책으로 공개한 직후, 고혈압 합병증 을 그 데이터로 예측한 한국 최초 의 시도. 기존 국가별 고혈압 위험 예측 문헌 (Echouffo-Tcheugui et al. 2013 systematic review) 은 고혈압 onset 자체에 집중했고 합병증 onset 의 risk model 은 한국 context 가 부재.

방법론은 3 기법 head-to-head 비교. (i) 로지스틱 회귀 (LR): logit link $\ln(P/(1-P)) = \beta_0 + \beta'X$ , $k$ 개 독립변수의 선형 결합 + sigmoid, 해석 가능성 + 추정 안정성. (ii) linear-discriminant-analysis (LDA): class-conditional density 가 공통 공분산 multivariate Gaussian 이라는 가정 하 Bayes 분류기, discriminant function $U_i = \mu_i^\top \Sigma^{-1} x - \frac{1}{2}\mu_i^\top\Sigma^{-1}\mu_i + \ln\pi_i$ . (iii) classification-and-regression-tree (CART): Gini index 기반 binary split + cost-complexity pruning + CV 로 best pruned tree 선택, leaf 의 onset proportion 이 위험 예측치. 평가는 5-fold CV + AUC + accuracy + sensitivity + specificity, cutoff = 0.5 (under-sampling 으로 class balance 후이므로 합리).

데이터 처리에 두 단계 핵심 결정. 첫째, 합병증 onset 정의 — 2008 시점 고혈압 진단 + 합병증 미발생 환자만 cohort 에 포함, follow-up 2008-2010 의 의료기록에서 합병증 발생 여부를 binary outcome 으로. 사망자는 제외. 둘째, class imbalance (16.08% minority) 해결을 위해 majority class 를 minority 와 동수 (1,739 명) 로 under-sampling 을 5 회 반복, 각 sample 에서 5-fold CV = 총 25 회 평균. 결과 (Table 3): LR test AUC 0.6072 / accuracy 0.5782 / sensitivity 0.5738 / specificity 0.5841, LDA 거의 동일 (LR 과 0.001 미만 차), CART training AUC 0.7061 → test 0.5704 로 13.6%p drop (overfitting 의 전형). 합병증 발생률 (Table 2): 가족력 심장질환 20.73% (없는 그룹 15.91% 대비 +30%), 뇌졸중 19.14% (+21%), 본인 당뇨력 18.40% (없는 그룹 16.05% 대비 +15%). 연령 효과 직선적 — 40대 8.51%, 50대 11.80%, 60대 17.89%. 본 paper 의 한계는 (i) 건강검진이 2 년 1 회 (biyearly) 라 세밀한 의료기록 부재 — Srinivas et al. (2010) 의 상세 의료데이터 기반 예측보다 정확도 낮음, (ii) 합병증 발생의 복잡 mechanism — Echouffo-Tcheugui et al. (2013) 의 hypertension onset 예측보다 본 paper 의 complications onset 예측이 본질적으로 어려움, (iii) 위험인자의 상호작용 미모델링.

이정혜 의 연구 궤적 안에서 본 paper 는 실타래 3 (Healthcare ML) 의 출발점. 같은 시기 박사학위 주 주제 (Markov Blanket 기반 변수 선택) 와는 직접 연결되지 않지만 한국 건강보험 데이터의 정책 활용 라인의 anchor 로 향후 Risk assessment for hypertension and hypertension complications incidences using a Bayesian network (베이지안 네트워크 + 동일 데이터) 등의 출발 기반. POSTECH 박사 시기 Chi-Hyuck Jun 의 biomedical data mining 연구실 mentorship 의 산물.

핵심 결과

Table 3 — 세 기법의 train/test 성능 (5-sample × 5-fold CV = 25 회 평균)

Model	AUC Train	AUC Test	Acc Train	Acc Test	Sens Test	Spec Test
LR	0.6307	0.6072	0.5957	0.5782	0.5738	0.5841
LDA	0.6304	0.6068	0.5955	0.5779	0.5740	0.5832
CART	0.7061	0.5704	0.6497	0.5533	0.5659	0.5406

합병증 발생률 (Table 2): 전체 평균 16.08%. 가족력 심장질환 보유 20.73% (가장 강한 risk factor), 가족력 뇌졸중 19.14%, 본인 당뇨력 18.40%, 60대 17.89% (vs 40대 8.51%), 여성 16.79% (vs 남성 15.45%).

핵심 정량 차이: LR test AUC 0.6072 vs CART 0.5704 = +6.4% relative gain. CART training-test gap 13.6%p (overfitting), LR/LDA gap 약 2.4%p. 본 paper 의 모든 metric 에서 LR ≈ LDA, CART 만 test 에서 열위.

방법론 노트

로지스틱 회귀 의 logit 식 (식 1-2):

\text{logit}(P) = \ln \frac{P}{1-P} = \beta_0 + \beta_1 X_1 + \cdots + \beta_k X_k

P = \frac{\exp(\beta_0 + \beta'X)}{1 + \exp(\beta_0 + \beta'X)}

linear-discriminant-analysis 의 discriminant function:

U_i = \mu_i^\top \Sigma^{-1} x - \frac{1}{2}\mu_i^\top \Sigma^{-1} \mu_i + \ln \pi_i

여기서 $\mu_i$ 는 class $i$ 의 평균 벡터, $\Sigma$ 는 공통 공분산 (가정), $\pi_i$ 는 prior. 두 class 비교는 $U_1 > U_2$ 면 class 1. Bayes posterior:

P(\text{class } i | x) = \frac{\pi_i f_i(x)}{\pi_1 f_1(x) + \pi_2 f_2(x)}

classification-and-regression-tree 는 recursive partitioning — 각 internal node 에서 한 변수의 split 으로 children Gini impurity 감소를 최대화. Fully grown tree 에 cost-complexity pruning + CV best 선택. Leaf 의 onset proportion 이 위험 예측치. CART 의 데이터 sensitivity 문제 — tree 구조가 sample 마다 달라져 generalization 약함, 본 paper 의 test 열위의 원인.

평가 protocol 의 핵심 두 결정: (i) class balance 를 위한 under-sampling 5 회 × 5-fold CV, (ii) cutoff = 0.5 (balance 후 합리), AUC 추가 (cutoff-free). Identification 의 가정은 (a) 표본 코호트의 한국 인구 strata 대표성, (b) 합병증 onset 의 의료기록 완전성 (follow-up 동안 의료기록 없으면 무발생으로 처리 — 측정 가정), (c) 결측치 처리 (questionnaire 무응답 → 부정 응답으로 imputation).

연구 계보

직접 predecessor: Echouffo-Tcheugui et al. (2013, PLoS One) 의 hypertension onset risk model systematic review — 본 paper 는 complications 측면으로 확장. Hypertension complication risk 의 일본 선행 Hozawa et al. (2009) — 본 paper 는 한국 첫 시도. Korean Healthcare DB 정책 context: Korea Ministry of Health and Welfare (2011, 2013), Korea National Health Insurance Corporation (2012). 방법론 building blocks: Hosmer-Lemeshow (2004) Applied Logistic Regression, Press-Wilson (1978) LR vs LDA 비교, Izenman (2008) LDA, Breiman et al. (1983) CART, Loh (2011) CART review. LR vs CART 비교의 인접 선행: Kurt et al. (2008, Expert Systems with Applications) 의 coronary artery disease 비교 — 본 paper 와 같은 LR marginal best 결과. Dreiseitl-Ohno-Machado (2002) 의 LR vs ANN 비교도 같은 라인. 자세한 cardiovascular data mining 으로는 Srinivas et al. (2010) 의 coal mining region heart attack 예측.

이정혜 author page 분류상 실타래 3 (Healthcare ML) 의 anchor. 학위 시기 (POSTECH 2014-2018) 의 두 연구 stream — Markov Blanket 변수 선택 과 Korean Healthcare DB analytics — 중 후자의 출발점. 후속 Risk assessment for hypertension and hypertension complications incidences using a Bayesian network 가 같은 데이터를 Bayesian network 로 더 정교화. Chi-Hyuck Jun (POSTECH 산업경영공학) 의 biomedical data mining 라인 mentorship 의 첫 결실. Inje 의대 + Uiduk 보건학 의 inter-institutional 협업이 paper 의 의료-통계 균형을 만든 구성.

인접 그래프

1-hop 이웃 12개

인물 6
방법론 1
주제 2
논문 3

휠 = 확대/축소 · 드래그 = 이동 · hover = 강조 · 클릭 = 페이지 이동

이 문서를 가리키는 페이지

논문 (3)

인물 (1)

이정혜