Privacy-Preserving Patient Similarity Learning in a Federated Environment: Development and Analysis

이정혜, Jimeng Sun, Fei Wang, Shuang Wang, Chi-Hyuck Jun, Xiaoqian Jiang (2018) · jmir-medical-informatics 6(2):e20 · DOI ↗

이정혜 의 시그니처 영역 (privacy-preserving ML) 의 출발점 — UCSD 포닥 시기 발표, 189 회 인용. 분산된 의료 데이터베이스에서 원시 데이터 공유 없이 병원 간 유사 환자 검색. Federated patient hashing 프레임워크 + context-specific hash codes + 동형암호 으로 reverse engineering 방어. MIMIC-III 데이터로 5 개 질병 예측 평가 — k=3 NN 으로 AUC 0.9154 (balanced), 0.8012 (imbalanced). “데이터가 이동할 수 없다면, 모델이 이동해야 한다.”

RQ: 분산된 의료 데이터에서 프라이버시 보존 하며 환자 유사도 를 어떻게 학습할 것인가? Cross-institution cohort 구성, 질병 감시, 임상시험 모집에 어떻게 활용?
방법론: Federated patient hashing — context-specific hash codes 학습 + 동형암호 으로 similarity search 보호 + k-nearest-neighbor (k=3) classification
데이터: MIMIC-III (Multiparameter Intelligent Monitoring in Intensive Care) — 5 개 질병 예측 평가
주요 발견: (1) 균형 데이터에서 AUC 0.9154, 불균형 0.8012 (k-NN with k=3). (2) Homomorphic encryption 으로 reverse engineering 방어 확인. (3) 환자 시퀀스 의료 이벤트 → context-specific hash codes → 효율적 유사도 계산. (4) Cross-institution 분석을 원시 데이터 이동 없이 가능.
시사점: Federated 의료 분석 의 가장 본격적인 작업. Cohort construction, 질병 감시, 임상시험 모집의 프라이버시 보존 기술적 기반. 이정혜 의 연구 방향 의 결정적 전환점.

분산 의료 데이터에서 동형 암호와 해싱 기반 federated patient similarity 학습 구조.

요약

이 paper 는 이정혜 의 1 기 → 2 기 전환점 — UC San Diego 의 Xiaoqian Jiang 지도하에서 박사후 연구원으로 발표. 189 회 인용 — 가장 영향력 있는 작업 중 하나. 이정혜 author page 의 전환점 1 (UCSD 포닥) 의 핵심 paper.

방법론적 핵심: Federated patient hashing. (i) Hash code 학습 — 각 병원이 자신의 환자 시퀀스 의료 이벤트 를 context-specific binary hash code 로 변환. 학습 과정에서 raw data 공유 없이 모델 파라미터만 교환. (ii) 유사도 계산 — Hash code 간 Hamming distance 로 환자 유사도 효율적 계산. 데이터 이동 없이 model 이 이동. (iii) 동형암호 — Hash similarity 계산 자체도 암호화 — reverse engineering 으로부터 모델 보호.

핵심 발견: MIMIC-III 의 5 개 질병 (heart failure, kidney failure, sepsis, pneumonia, ARDS 등) 예측. k=3 nearest neighbor: AUC 0.9154 (balanced) / 0.8012 (imbalanced). 불균형 데이터에서 성능 저하는 희귀 질병의 sample 부족 의 일반적 한계. Homomorphic encryption 적용 후에도 성능 유지 — 프라이버시-유용성 trade-off 가 합리적 수준.

이 paper 의 역사적 위치: 의료 정보학에서 federated learning 의 가장 본격적인 초기 작업 중 하나 (Google 의 federated learning 이 2016-2017 등장한 직후). 임상 환경의 cross-institution cohort 구성, 다국가 임상시험 모집, 희귀질환 감시 등에 직접 응용 가능.

이정혜 의 연구 궤적 안에서 이 paper 는 시그니처 영역 (privacy-preserving ML) 의 출발점 — 실타래 2 의 모든 작업의 시조. 후속 ming-jun-kim-2020-secure-dp-logistic (2020 동형 암호 + DP), junghye-lee-2021-harmoae (2021 HarmoAE), seokjoon-hahn-2022-superfed (2022 SuPerFed) 등 모든 federated / privacy 연구의 시조.

핵심 결과

항목	값
AUC (균형, k=3 NN)	0.9154
AUC (불균형, k=3 NN)	0.8012
평가 데이터	MIMIC-III
평가 질병 수	5
인용 수 (현재)	189
Privacy 보장 방식	Homomorphic encryption

Raw data 이동 없이 cross-institution 유사도 계산
Reverse engineering 방어 + 성능 유지
Federated 의료 분석 의 본격적 출발

방법론 노트

Context-specific hash code learning:

h(x) = \text{sign}(W^\top \phi(x))

$\phi(x)$ = 환자 $x$ 의 의료 이벤트 시퀀스 임베딩, $W$ = 학습되는 projection matrix. 병원별 local update + 글로벌 합집 의 federated averaging 패턴.

동형암호: 암호화된 hash code 에 대한 Hamming distance 계산:

d_{\text{Ham}}(\text{Enc}(h_1), \text{Enc}(h_2)) = \text{Enc}(d_{\text{Ham}}(h_1, h_2))

연산이 암호 공간에서 가능 → 평문 노출 없이 유사도 산출.

식별 가정: (i) Hash code 의 context preservation (의료 의미 유지), (ii) homomorphic encryption 의 연산 효율, (iii) MIMIC-III 의 일반화 가능성.

연구 계보

이 paper 는 (i) McMahan et al. (2017) federated learning 본가, (ii) Brakerski et al. (2014) homomorphic encryption 정통, (iii) Salakhutdinov & Hinton (2009) semantic hashing — 의 결합. 이정혜 의 연구 궤적 전환점 1 (UCSD 포닥) 의 핵심, 시그니처 영역 (privacy-preserving ML) 의 시조. 후속 모든 federated / privacy 작업의 기반.

인접 그래프

1-hop 이웃 17개

인물 6
방법론 3
주제 2
논문 6

휠 = 확대/축소 · 드래그 = 이동 · hover = 강조 · 클릭 = 페이지 이동

이 문서를 가리키는 페이지

논문 (6)

인물 (1)

이정혜