Risk score-embedded deep learning for biological age estimation: Development and validation
Suhyeon Kim, Hangyeol Kim, Eun-Sol Lee, Chiehyeon Lim, 이정혜 (2022) · information-sciences 586:628-643
RSAE-BA (Risk Score-Embedded Autoencoder for Biological Age) — 개인의 health risk 를 autoencoder 의 embedding 에 명시적으로 통합 한 생물학적 나이 추정 방법. 기존 BA 추정이 연령학적 (chronological) age prediction 또는 basic latent feature 에 집중한 한계 극복. Risk Score notion 정의 + RS-embedded autoencoder 로 BA 산출. 85,490-140,867 명 대규모 검증 + 질병 incidence 예측 적용성. 이정혜 의 3 기 SNU TEMEP 시기 의료 AI 정점.
- RQ: Biological Age (BA) 추정에 health risk 정보를 deep learning embedding 에 통합할 수 있는가? Chronological age prediction 또는 latent feature extraction 의 한계는?
- 방법론: Risk Score (RS) calculation + RS-embedded autoencoder + BA generation. 새 BA validation 방법 (RS 활용, labeled / unlabeled 모두 적용)
- 데이터: 한국 NHIS 데이터 (85,490 - 140,867 명) — 다양한 sample size 시나리오
- 주요 발견: (1) RSAE-BA > 기존 방법 — chronological prediction 보다 health risk 정량적으로 더 잘 반영. (2) Disease incidence 예측 적용성 — BA 가 건강 위험 예측 도구 역할. (3) RS-embedded 가 generic latent feature 보다 health-relevant.
- 시사점: BA 가 useful health index alternative — 일상 건강 관리 + 예방 의학에 직접 활용. Risk Score 정의 + Embedding 패턴이 다른 health index 에도 일반화.

요약
이 paper 는 이정혜 의 3 기 SNU TEMEP 초기 (2023-2026) 의 의료 AI 정점. Suhyeon Kim (W2V-LSA, LBC 시리즈 제 1 저자) + UNIST 동료 + UNIST Chiehyeon Lim 의 협업.
방법론적 핵심: Risk Score embedding. 기존 autoencoder 가 재구성 오류 최소화 만 추구하는데, 본 paper 는:
- Risk Score (RS) 계산 — 개인의 건강 위험 을 질병 발생 확률 또는 위험 가중치 합 으로 정량화
- RS-embedded autoencoder: encoder loss = reconstruction + RS prediction (multi-task)
- Bottleneck representation 이 generic latent feature + RS 둘 다 포함
- BA = bottleneck representation 의 적절한 transformation
새 BA validation 방법: RS 와 BA 의 대응 관계 를 labeled (질병 발생 데이터) + unlabeled (raw 건강 데이터) 모두에서 평가.
핵심 발견: 한국 NHIS 데이터 (sample size 85k-140k) 에서 RSAE-BA 가 기존 BA 추정 방법 outperform. 질병 incidence 예측 시 RSAE-BA 가 chronological age 또는 basic AE 대비 우수한 discriminative power. BA 가 단순 나이 추정 이 아니라 health risk indicator 로 작용.
이정혜 의 연구 궤적 안에서 이 paper 는 실타래 3 (Healthcare AI) + 실타래 4 (Representation Learning) 의 합류. 3 기 TEMEP 초기 의료 AI 라인의 정점. suhyeon-kim-2023-household-financial-rihae (RI-HAE 금융 버전) 의 직접 선행.
핵심 결과
| 항목 | 값 |
|---|---|
| 메타-아키텍처 | RS-embedded Autoencoder |
| Sample size | 85,490 - 140,867 |
| 비교 우월 | chronological prediction, basic latent feature |
| 응용 | 질병 incidence 예측 |
| 데이터 | 한국 NHIS |
| BA validation | RS-based (labeled + unlabeled) |
방법론 노트
RSAE-BA architecture:
Encoder: x → z (bottleneck embedding)
Decoder: z → x̂ (reconstruction)
RS predictor: z → R̂S
Total loss = α * ||x - x̂||² + β * (RS - R̂S)²
BA = f(z) (transformation, e.g., projection)
multi-task learning 이 z 를 health-relevant + reconstructive 동시 만족.
식별 가정: (i) RS 가 true health risk 의 good proxy, (ii) AE 의 bottleneck capacity, (iii) BA - RS 의 monotone correspondence.
연구 계보
이 paper 는 (i) Hinton & Salakhutdinov (2006) AE 본가, (ii) Hannum et al. (2013) DNA methylation BA 라인, (iii) Levine et al. (2018) PhenoAge — 의 결합. 이정혜 의 연구 궤적 3 기 의료 AI 정점, suhyeon-kim-2023-household-financial-rihae 의 직접 선행.
See also
- 이정혜
- Suhyeon Kim
- Chiehyeon Lim
- autoencoder
- representation-learning
- biological-age
- medical-ai
- information-sciences
인접 그래프
- 인물 5
- 방법론 1
- 논문 3
이 문서를 가리키는 페이지
논문 (3)
- Developing a novel Temporal Air-quality Risk Index using LSTM autoencoder: A case study with South Korean air quality data
- Household financial health: a machine learning approach for data-driven diagnosis and prescription
- Prediction of type 2 diabetes using genome-wide polygenic risk score and metabolic profiles: A machine learning analysis of population-based 10-year prospective cohort study