Privacy-Preserving Predictive Modeling: Harmonization of Contextual Embeddings From Different Sources

Yingxiang Huang, 이정혜, Shuang Wang, Jimeng Sun, Hongfang Liu, Xiaoqian Jiang (2018) · jmir-medical-informatics 6(2):e33 · DOI ↗

이정혜 author page 의 “맥락적 임베딩의 조화 (Huang & Lee 2018): 다소스 임베딩 조화의 씨앗. HarmoAE의 전신” — HarmoAE 의 직접 선행 paper. 병원별로 Word2Vec contextual embedding 학습 → procrustes-analysis 으로 anchor pair 통한 공유 공간 정렬. MIMIC-III 의 구조화 + 비구조화 데이터 모두 검증. Naive pooling 또는 local-only 보다 우수한 prediction. “공유 데이터 없이 공유 표현” 의 핵심 idea — Junghye Lee 와 Yingxiang Huang 공동 저자 (* equal contribution).

RQ: 다기관 contextual embedding (Word2Vec) 이 서로 다른 공간 에 학습되어 naive pooling 불가능 한 한계를 어떻게 극복할 것인가? Raw data 공유 없이 모델 공유 로 global model 구축 가능한가?
방법론: Word2Vec (skip-gram, CBOW, GloVe 비교) + procrustes-analysis (orthogonal alignment with anchor pairs) + federated framework
데이터: MIMIC-III (Medical Information Mart for Intensive Care III) — structured (lab tests, diagnoses, prescriptions, etc.) + unstructured (clinical notes via Metamap)
주요 발견: (1) Local Word2Vec → Procrustes 정렬 → global harmonized model. (2) Harmonized model 이 naive pooling + local-only 모두 outperform. (3) Skip-gram > CBOW > GloVe. (4) Anchor pair 가 정렬의 핵심 — common medical events 활용. (5) Privacy 보호 — patient-level data 미공유, embedding (집계) 만 공유.
시사점: 공유 데이터 없이 공유 표현 — 의료 federated learning 의 new paradigm. HIPAA deidentification (5000+ hours, $500k for MIMIC-III) 의 비싼 대안 제공. 다기관 다른 specialty 의 heterogeneous EHR 환경에 적용 가능.

Fig. 2 — Contextual embedding + Procrustes harmonization 의 architecture.

요약

이 paper 는 이정혜 의 1 기 UCSD 포닥 시기 의 대표 작업 — HarmoAE 직접 전신. Yingxiang Huang (UCSD 학부) 와 이정혜 의 공동 제 1 저자 (* equal contribution). Xiaoqian Jiang (UCSD 지도) + Jimeng Sun (Georgia Tech) + Shuang Wang (UCSD) + Hongfang Liu (Mayo Clinic) — 국제 + 다기관 collaboration. 이정혜 author page 의 전환점 1 (UCSD 포닥) 의 핵심 paper 중 하나.

방법론적 핵심: 3 단계 framework.

(i) Local Word2Vec: 각 병원이 자체 EHR 에서 Word2Vec contextual embedding 학습. Skip-gram (선호) / CBOW / GloVe 비교. Structured data 는 prefix-added codes (l_=lab, c_=condition, s_=symptom, d_=diagnosis, p_=prescription) 의 시간 순서 sequence. Unstructured data 는 Metamap 으로 의료 concepts 추출.

(ii) Procrustes harmonization: 각 embedding 의 방향 차이 (random sampling 때문) 가 naive pooling 의 한계 — 한 embedding 의 “heart attack” 이 다른 embedding 의 “elephantiasis” 와 closest 가능. procrustes-analysis 으로 orthogonal transformation 추정 → 공유 공간 정렬. Anchor pair (common medical events across hospitals) 가 정렬의 reference.

(iii) Predictive modeling: Harmonized embeddings 사용 → 환자 다음 진단 예측.

핵심 발견: MIMIC-III 의 next diagnosis prediction 에서:

Local-only: 자기 병원 데이터만 — 작은 sample.
Naive pooling: 정렬 안 된 embedding 합산 — 오히려 성능 저하.
Harmonized (Procrustes): 최고 성능.

Skip-gram > CBOW > GloVe 일관 우위. Code embedding (structured) 와 concept embedding (unstructured) 모두 작동.

이정혜 의 연구 궤적 안에서 이 paper 는 Privacy-Preserving Patient Similarity Learning in a Federated Environment: Development and Analysis (federated patient hashing) 의 자매 + HarmoAE (2021) 의 직접 전신. 전환점 1 UCSD 포닥 시기 의 2 paper duo — 동시기 시작된 privacy-preserving ML 시그니처 영역의 두 출발점.

특히 Word2Vec + Procrustes 결합이 Word2vec-based latent semantic analysis (W2V-LSA) for topic modeling: A study on blockchain technology trend analysis (2020 W2V-LSA), Technology Opportunity Discovery using Deep Learning-based Text Mining and a Knowledge Graph (2022 Doc2Vec + KG), Bilingual autoencoder-based efficient harmonization of multi-source private data for accurate predictive modeling (2021 HarmoAE — autoencoder 로 Procrustes 대체), Word2Vec-based efficient privacy-preserving shared representation learning for federated recommendation system in a cross-device setting (2023 Federated Word2Vec) 의 모든 Word2Vec / 임베딩 라인의 시조.

핵심 결과

방법	Prediction 성능
Local-only (per hospital)	작은 sample 한계
Naive pooling	저하 (방향 misalignment)
Harmonized (Procrustes)	최고

Embedding 비교	우열
Skip-gram	최고
CBOW	중간
GloVe	낮음

MIMIC-III, structured + unstructured 모두 검증
Patient-level data 미공유 — privacy 보호
HIPAA deidentification (5000+ hours, $500k) 의 비싼 대안

방법론 노트

Word2Vec skip-gram loss:

\mathcal{L} = -\sum_{(w_c, w_o)} \log \sigma(v_{w_o}^\top v_{w_c}) - \sum_n \log \sigma(-v_{w_n}^\top v_{w_c})

procrustes-analysis orthogonal alignment: 두 embedding $A, B \in \mathbb{R}^{N \times d}$ 에서 anchor pair (공통 events) 가 대응 rows.

R^* = \arg\min_{R: R^\top R = I} \|AR - B\|_F^2 = UV^\top, \quad \text{where } A^\top B = U\Sigma V^\top

$R^*$ 적용으로 $A$ 가 $B$ 의 공간으로 정렬. SVD 로 closed-form 해.

식별 가정: (i) Anchor pair 의 충분한 수 + 의미 일관성, (ii) Word2Vec 임베딩의 orthogonal transformation 으로 정렬 가능 (linear isometry 가정), (iii) MIMIC-III 의 다른 병원 모방 (실제로는 단일 source).

연구 계보

이 paper 는 (i) Mikolov et al. (2013) Word2Vec 본가, (ii) Schönemann (1966) Procrustes 정통, (iii) Choi et al. (2016) Med2Vec — medical Word2Vec — 의 결합. 이정혜 의 연구 궤적 전환점 1 (UCSD 포닥) 의 핵심, HarmoAE (2021) 의 직접 전신.

인접 그래프

1-hop 이웃 16개

인물 6
방법론 2
개념 1
주제 2
논문 5

휠 = 확대/축소 · 드래그 = 이동 · hover = 강조 · 클릭 = 페이지 이동

이 문서를 가리키는 페이지

인물 (1)

이정혜