Privacy-Preserving Patient Similarity Learning in a Federated Environment: Development and Analysis
이정혜, Jimeng Sun, Fei Wang, Shuang Wang, Chi-Hyuck Jun, Xiaoqian Jiang (2018) · jmir-medical-informatics 6(2):e20 · DOI ↗
이정혜 의 시그니처 영역 (privacy-preserving ML) 의 출발점 — UCSD 포닥 시기 발표, 189 회 인용. 분산된 의료 데이터베이스에서 원시 데이터 공유 없이 병원 간 유사 환자 검색. Federated patient hashing 프레임워크 + context-specific hash codes + homomorphic-encryption 으로 reverse engineering 방어. MIMIC-III 데이터로 5 개 질병 예측 평가 — k=3 NN 으로 AUC 0.9154 (balanced), 0.8012 (imbalanced). “데이터가 이동할 수 없다면, 모델이 이동해야 한다.”
- RQ: 분산된 의료 데이터에서 프라이버시 보존 하며 환자 유사도 를 어떻게 학습할 것인가? Cross-institution cohort 구성, 질병 감시, 임상시험 모집에 어떻게 활용?
- 방법론: Federated patient hashing — context-specific hash codes 학습 + homomorphic-encryption 으로 similarity search 보호 + k-nearest-neighbor (k=3) classification
- 데이터: MIMIC-III (Multiparameter Intelligent Monitoring in Intensive Care) — 5 개 질병 예측 평가
- 주요 발견: (1) 균형 데이터에서 AUC 0.9154, 불균형 0.8012 (k-NN with k=3). (2) Homomorphic encryption 으로 reverse engineering 방어 확인. (3) 환자 시퀀스 의료 이벤트 → context-specific hash codes → 효율적 유사도 계산. (4) Cross-institution 분석을 원시 데이터 이동 없이 가능.
- 시사점: Federated 의료 분석 의 가장 본격적인 작업. Cohort construction, 질병 감시, 임상시험 모집의 프라이버시 보존 기술적 기반. 이정혜 의 연구 방향 의 결정적 전환점.

요약
이 paper 는 이정혜 의 1 기 → 2 기 전환점 — UC San Diego 의 Xiaoqian Jiang 지도하에서 박사후 연구원으로 발표. 189 회 인용 — 가장 영향력 있는 작업 중 하나. 이정혜 author page 의 전환점 1 (UCSD 포닥) 의 핵심 paper.
방법론적 핵심: Federated patient hashing. (i) Hash code 학습 — 각 병원이 자신의 환자 시퀀스 의료 이벤트 를 context-specific binary hash code 로 변환. 학습 과정에서 raw data 공유 없이 모델 파라미터만 교환. (ii) 유사도 계산 — Hash code 간 Hamming distance 로 환자 유사도 효율적 계산. 데이터 이동 없이 model 이 이동. (iii) homomorphic-encryption — Hash similarity 계산 자체도 암호화 — reverse engineering 으로부터 모델 보호.
핵심 발견: MIMIC-III 의 5 개 질병 (heart failure, kidney failure, sepsis, pneumonia, ARDS 등) 예측. k=3 nearest neighbor: AUC 0.9154 (balanced) / 0.8012 (imbalanced). 불균형 데이터에서 성능 저하는 희귀 질병의 sample 부족 의 일반적 한계. Homomorphic encryption 적용 후에도 성능 유지 — 프라이버시-유용성 trade-off 가 합리적 수준.
이 paper 의 역사적 위치: 의료 정보학에서 federated learning 의 가장 본격적인 초기 작업 중 하나 (Google 의 federated learning 이 2016-2017 등장한 직후). 임상 환경의 cross-institution cohort 구성, 다국가 임상시험 모집, 희귀질환 감시 등에 직접 응용 가능.
이정혜 의 연구 궤적 안에서 이 paper 는 시그니처 영역 (privacy-preserving ML) 의 출발점 — 실타래 2 의 모든 작업의 시조. 후속 ming-jun-kim-2020-secure-dp-logistic (2020 동형 암호 + DP), junghye-lee-2021-harmoae (2021 HarmoAE), seokjoon-hahn-2022-superfed (2022 SuPerFed) 등 모든 federated / privacy 연구의 시조.
핵심 결과
| 항목 | 값 |
|---|---|
| AUC (균형, k=3 NN) | 0.9154 |
| AUC (불균형, k=3 NN) | 0.8012 |
| 평가 데이터 | MIMIC-III |
| 평가 질병 수 | 5 |
| 인용 수 (현재) | 189 |
| Privacy 보장 방식 | Homomorphic encryption |
- Raw data 이동 없이 cross-institution 유사도 계산
- Reverse engineering 방어 + 성능 유지
- Federated 의료 분석 의 본격적 출발
방법론 노트
Context-specific hash code learning:
= 환자 의 의료 이벤트 시퀀스 임베딩, = 학습되는 projection matrix. 병원별 local update + 글로벌 합집 의 federated averaging 패턴.
homomorphic-encryption: 암호화된 hash code 에 대한 Hamming distance 계산:
연산이 암호 공간에서 가능 → 평문 노출 없이 유사도 산출.
식별 가정: (i) Hash code 의 context preservation (의료 의미 유지), (ii) homomorphic encryption 의 연산 효율, (iii) MIMIC-III 의 일반화 가능성.
연구 계보
이 paper 는 (i) McMahan et al. (2017) federated learning 본가, (ii) Brakerski et al. (2014) homomorphic encryption 정통, (iii) Salakhutdinov & Hinton (2009) semantic hashing — 의 결합. 이정혜 의 연구 궤적 전환점 1 (UCSD 포닥) 의 핵심, 시그니처 영역 (privacy-preserving ML) 의 시조. 후속 모든 federated / privacy 작업의 기반.
See also
- 이정혜
- Xiaoqian Jiang
- Jimeng Sun
- Fei Wang
- federated-learning
- homomorphic-encryption
- patient-similarity
- privacy-preserving-ml
- medical-ai
- jmir-medical-informatics
인접 그래프
- 인물 6
- 방법론 1
- 논문 5
이 문서를 가리키는 페이지
논문 (5)
- Bilingual autoencoder-based efficient harmonization of multi-source private data for accurate predictive modeling
- Connecting Low-Loss Subspace for Personalized Federated Learning
- Privacy-Preserving Predictive Modeling: Harmonization of Contextual Embeddings From Different Sources
- Risk assessment for hypertension and hypertension complications incidences using a Bayesian network
- Secure and Differentially Private Logistic Regression for Horizontally Distributed Data