Bilingual autoencoder-based efficient harmonization of multi-source private data for accurate predictive modeling

Taek-Ho Lee, 이정혜, Chi-Hyuck Jun (2021) · information-sciences 568:403-426 · DOI ↗

이정혜 의 “소스별 분리 + 공유 표현” 메타-아키텍처 의 첫 명시적 구현 — HarmoAE (Bilingual Autoencoder). 다기관 EHR contextual embedding 을 공유 hidden space 로 align. 2 단계 학습 (사전 학습 → 합동 학습) 으로 biased 병원 의 distortion 방지. PDPS (Patient Diagnosis Projection Similarity) 메트릭 + MIMIC-III 3-5 병원 시나리오 검증. DP/HE/MPC 비싼 기술 없이 임베딩 공유로 privacy 보호.

RQ: 다기관 EHR 의 contextual embedding (개별 학습) 을 어떻게 align 하여 cross-hospital 예측 모형 을 구축할 수 있는가?
방법론: bilingual-autoencoder — 소스별 encoder + 공유 hidden space + cross-hospital reconstruction loss + 2-phase training
데이터: MIMIC-III, 3-5 병원 시뮬레이션 (medical event sequences)
주요 발견: (1) 소스별 분리 처리 + 공유 표현 alignment — HarmoAE 의 핵심 패턴. (2) Cross-hospital reconstruction loss 가 spontaneous alignment 유도. (3) 2-phase training — biased 병원 의 distortion 방지. (4) PDPS 메트릭으로 정렬 품질 정량. (5) 다양한 병원 size 시나리오 (large + small) 에서 both 개선.
시사점: DP, HE, MPC 의 비싼 보안 기법 없이 embedding 공유 만으로 prediction modeling 가능. Patient-level data 노출 X — 자연스러운 privacy 보호. 신규 병원 추가의 유연성.

HarmoAE 의 bilingual autoencoder 기반 다기관 EHR contextual embedding 공유 표현 정렬 구조도.

요약

이 paper 는 이정혜 의 2 기 UNIST 시기 의 시그니처 작업 — “소스별 분리 + 공유 표현” 메타-아키텍처 의 첫 명시적 구현. Taek-Ho Lee (제 1 저자, UNIST 박사) 의 후속 paper 들 (HarmoSATE: Harmonized embedding-based self-attentive encoder to improve accuracy of privacy-preserving federated predictive analysis, taek-ho-lee-2023-w2v-fed-recommendation) 의 출발점.

방법론적 핵심: HarmoAE (Bilingual Autoencoder) — 자연어 처리의 bilingual word embedding alignment 에서 영감. 각 병원이 자신의 EHR 에서 contextual embedding 학습 (Word2Vec 또는 similar). 각 병원의 embedding 공간이 다르므로 직접 사용 불가능. HarmoAE 는:

병원별 encoder (자기 임베딩 → 공유 hidden space)
공유 hidden space 에서 cross-hospital reconstruction: 병원 $i$ 의 임베딩을 hidden 으로 보낸 후 병원 $j$ 의 decoder 로 reconstruct
Reconstruction loss 가 encoder 들을 같은 hidden space 에 align 강제

2-phase training: (i) Phase 1: 동일 데이터로 pre-training (모든 encoder 가 합리적 시작점). (ii) Phase 2: joint training (cross-hospital reconstruction loss). Biased 병원 (e.g. small or unusual) 의 distortion 방지.

PDPS (Patient Diagnosis Projection Similarity): 두 병원의 환자 임베딩이 진단 동질성 에 따라 유사한지 측정.

핵심 발견: MIMIC-III 시뮬레이션 (3-5 병원) 에서 HarmoAE 가 기존 alignment 방법 (canonical correlation 등) outperform. 특히 크기 불균형 병원 (large + small) 에서 2-phase training 이 both 병원 prediction 개선. Privacy 측면에서 patient-level data 노출 없이 embedding (집계 통계) 만 공유 — DP/HE/MPC 같은 비싼 보안 불필요.

이정혜 의 연구 궤적 안에서 이 paper 는 실타래 2 (Privacy-preserving / FL) 의 중심 + 실타래 4 (Representation Learning) 의 발전. 후속 HarmoSATE: Harmonized embedding-based self-attentive encoder to improve accuracy of privacy-preserving federated predictive analysis (2024 self-attention 추가), taek-ho-lee-2023-w2v-fed-recommendation (federated recommendation) 으로 확장.

핵심 결과

항목	값
메타-아키텍처	소스별 분리 + 공유 표현
2-phase training	biased 병원 distortion 방지
정렬 메트릭	PDPS (Patient Diagnosis Projection Similarity)
데이터	MIMIC-III, 3-5 병원 시뮬레이션
Privacy 방식	Embedding 공유 (patient-level 미공유)
DP/HE/MPC 필요?	No

방법론 노트

bilingual-autoencoder 구조:

For each hospital k ∈ {1,...,K}:
  Encoder E_k: Embedding_k → SharedHidden  (병원 k 의 임베딩 공간 → 공유 공간)
  Decoder D_k: SharedHidden → Embedding_k  (공유 공간 → 병원 k 의 임베딩)

Loss = ∑_{k,k'} ||D_{k'}(E_k(x_k)) - x_{k'}_aligned||²
     + reconstruction loss within hospital

Cross-hospital reconstruction: 병원 $k$ 의 embedding 을 $k'$ 의 decoder 로 reconstruct → 두 encoder 가 같은 hidden space 로 mapping 하도록 강제.

식별 가정: (i) Contextual embedding 의 non-patient-level 보호, (ii) Cross-hospital corresponding patients 또는 events 존재, (iii) Autoencoder 의 충분한 capacity.

연구 계보

이 paper 는 (i) Bahdanau et al. (2014) 의 bilingual seq2seq, (ii) Mikolov et al. (2013) Word2Vec 본가, (iii) Privacy-Preserving Patient Similarity Learning in a Federated Environment: Development and Analysis (federated patient matching) 직접 선행 — 의 결합. 이정혜 의 연구 궤적 실타래 2 + 4 의 중심, 후속 HarmoSATE 의 직접 선행.

인접 그래프

1-hop 이웃 7개

인물 3
논문 4

휠 = 확대/축소 · 드래그 = 이동 · hover = 라벨 · 클릭 = 페이지 이동

이 문서를 가리키는 페이지

논문 (3)

인물 (1)

이정혜