Privacy-Preserving Predictive Modeling: Harmonization of Contextual Embeddings From Different Sources
Yingxiang Huang, 이정혜, Shuang Wang, Jimeng Sun, Hongfang Liu, Xiaoqian Jiang (2018) · jmir-medical-informatics 6(2):e33 · DOI ↗
이정혜 author page 의 “맥락적 임베딩의 조화 (Huang & Lee 2018): 다소스 임베딩 조화의 씨앗. HarmoAE의 전신” — HarmoAE 의 직접 선행 paper. 병원별로 Word2Vec contextual embedding 학습 → procrustes-analysis 으로 anchor pair 통한 공유 공간 정렬. MIMIC-III 의 구조화 + 비구조화 데이터 모두 검증. Naive pooling 또는 local-only 보다 우수한 prediction. “공유 데이터 없이 공유 표현” 의 핵심 idea — Junghye Lee 와 Yingxiang Huang 공동 저자 (* equal contribution).
- RQ: 다기관 contextual embedding (Word2Vec) 이 서로 다른 공간 에 학습되어 naive pooling 불가능 한 한계를 어떻게 극복할 것인가? Raw data 공유 없이 모델 공유 로 global model 구축 가능한가?
- 방법론: Word2Vec (skip-gram, CBOW, GloVe 비교) + procrustes-analysis (orthogonal alignment with anchor pairs) + federated framework
- 데이터: MIMIC-III (Medical Information Mart for Intensive Care III) — structured (lab tests, diagnoses, prescriptions, etc.) + unstructured (clinical notes via Metamap)
- 주요 발견: (1) Local Word2Vec → Procrustes 정렬 → global harmonized model. (2) Harmonized model 이 naive pooling + local-only 모두 outperform. (3) Skip-gram > CBOW > GloVe. (4) Anchor pair 가 정렬의 핵심 — common medical events 활용. (5) Privacy 보호 — patient-level data 미공유, embedding (집계) 만 공유.
- 시사점: 공유 데이터 없이 공유 표현 — 의료 federated learning 의 new paradigm. HIPAA deidentification (5000+ hours, $500k for MIMIC-III) 의 비싼 대안 제공. 다기관 다른 specialty 의 heterogeneous EHR 환경에 적용 가능.

Fig. 2 — Contextual embedding + Procrustes harmonization 의 architecture.
요약
이 paper 는 이정혜 의 1 기 UCSD 포닥 시기 의 대표 작업 — HarmoAE 직접 전신. Yingxiang Huang (UCSD 학부) 와 이정혜 의 공동 제 1 저자 (* equal contribution). Xiaoqian Jiang (UCSD 지도) + Jimeng Sun (Georgia Tech) + Shuang Wang (UCSD) + Hongfang Liu (Mayo Clinic) — 국제 + 다기관 collaboration. 이정혜 author page 의 전환점 1 (UCSD 포닥) 의 핵심 paper 중 하나.
방법론적 핵심: 3 단계 framework.
(i) Local Word2Vec: 각 병원이 자체 EHR 에서 Word2Vec contextual embedding 학습. Skip-gram (선호) / CBOW / GloVe 비교. Structured data 는 prefix-added codes (l_=lab, c_=condition, s_=symptom, d_=diagnosis, p_=prescription) 의 시간 순서 sequence. Unstructured data 는 Metamap 으로 의료 concepts 추출.
(ii) Procrustes harmonization: 각 embedding 의 방향 차이 (random sampling 때문) 가 naive pooling 의 한계 — 한 embedding 의 “heart attack” 이 다른 embedding 의 “elephantiasis” 와 closest 가능. procrustes-analysis 으로 orthogonal transformation 추정 → 공유 공간 정렬. Anchor pair (common medical events across hospitals) 가 정렬의 reference.
(iii) Predictive modeling: Harmonized embeddings 사용 → 환자 다음 진단 예측.
핵심 발견: MIMIC-III 의 next diagnosis prediction 에서:
- Local-only: 자기 병원 데이터만 — 작은 sample.
- Naive pooling: 정렬 안 된 embedding 합산 — 오히려 성능 저하.
- Harmonized (Procrustes): 최고 성능.
Skip-gram > CBOW > GloVe 일관 우위. Code embedding (structured) 와 concept embedding (unstructured) 모두 작동.
이정혜 의 연구 궤적 안에서 이 paper 는 Privacy-Preserving Patient Similarity Learning in a Federated Environment: Development and Analysis (federated patient hashing) 의 자매 + HarmoAE (2021) 의 직접 전신. 전환점 1 UCSD 포닥 시기 의 2 paper duo — 동시기 시작된 privacy-preserving ML 시그니처 영역의 두 출발점.
특히 Word2Vec + Procrustes 결합이 Word2vec-based latent semantic analysis (W2V-LSA) for topic modeling: A study on blockchain technology trend analysis (2020 W2V-LSA), Technology Opportunity Discovery using Deep Learning-based Text Mining and a Knowledge Graph (2022 Doc2Vec + KG), Bilingual autoencoder-based efficient harmonization of multi-source private data for accurate predictive modeling (2021 HarmoAE — autoencoder 로 Procrustes 대체), Word2Vec-based efficient privacy-preserving shared representation learning for federated recommendation system in a cross-device setting (2023 Federated Word2Vec) 의 모든 Word2Vec / 임베딩 라인의 시조.
핵심 결과
| 방법 | Prediction 성능 |
|---|---|
| Local-only (per hospital) | 작은 sample 한계 |
| Naive pooling | 저하 (방향 misalignment) |
| Harmonized (Procrustes) | 최고 |
| Embedding 비교 | 우열 |
|---|---|
| Skip-gram | 최고 |
| CBOW | 중간 |
| GloVe | 낮음 |
- MIMIC-III, structured + unstructured 모두 검증
- Patient-level data 미공유 — privacy 보호
- HIPAA deidentification (5000+ hours, $500k) 의 비싼 대안
방법론 노트
Word2Vec skip-gram loss:
procrustes-analysis orthogonal alignment: 두 embedding 에서 anchor pair (공통 events) 가 대응 rows.
적용으로 가 의 공간으로 정렬. SVD 로 closed-form 해.
식별 가정: (i) Anchor pair 의 충분한 수 + 의미 일관성, (ii) Word2Vec 임베딩의 orthogonal transformation 으로 정렬 가능 (linear isometry 가정), (iii) MIMIC-III 의 다른 병원 모방 (실제로는 단일 source).
연구 계보
이 paper 는 (i) Mikolov et al. (2013) Word2Vec 본가, (ii) Schönemann (1966) Procrustes 정통, (iii) Choi et al. (2016) Med2Vec — medical Word2Vec — 의 결합. 이정혜 의 연구 궤적 전환점 1 (UCSD 포닥) 의 핵심, HarmoAE (2021) 의 직접 전신.
See also
- 이정혜
- Yingxiang Huang
- Xiaoqian Jiang
- Word2Vec
- procrustes-analysis
- contextual-embedding
- harmonization
- medical-ai
- jmir-medical-informatics
- Privacy-Preserving Patient Similarity Learning in a Federated Environment: Development and Analysis
- Bilingual autoencoder-based efficient harmonization of multi-source private data for accurate predictive modeling
인접 그래프
- 인물 6
- 방법론 1
- 논문 5