HarmoSATE: Harmonized embedding-based self-attentive encoder to improve accuracy of privacy-preserving federated predictive analysis

Taek-Ho Lee, 이정혜 (2024) · information-sciences 662:120265 · DOI ↗

Bilingual autoencoder-based efficient harmonization of multi-source private data for accurate predictive modeling (HarmoAE) 의 발전형 — HarmoSATE (Self-Attentive Encoder). Word2Vec + HarmoAE 의 조화된 contextual embedding 을 initial value 로, self-attention 으로 patient dynamic context 까지 반영. MIMIC-III 의 질병 예측 에서 baseline 대비 3-8% 정확도 향상. 이정혜 의 실타래 2 (Privacy-preserving / FL) 의 2024 성숙형.

RQ: HarmoAE 의 고정 임베딩 에 self-attention 을 추가하면 patient dynamic context (시간적 의료 event sequence) 를 어떻게 반영해 예측 정확도를 개선하는가?
방법론: HarmoSATE = Word2Vec local embedding + HarmoAE 조화 (initial value) + SATE (Self-Attentive Encoder) local training + federated framework
데이터: MIMIC-III (다양한 질병 예측 task)
주요 발견: (1) HarmoSATE > baseline 3-8% 정확도 (실험별). (2) Self-attention 이 patient dynamic context (시간적 의료 event interactions) 포착. (3) 조화된 contextual embedding 을 initial value 로 사용 — local fine-tuning 으로 hospital-specific 정밀화.
시사점: HarmoAE → HarmoSATE 의 2024 성숙. Self-attention 의 medical concept relationships 모델링.

요약

이 paper 는 이정혜 의 *3 기 SNU TEMEP 의 조화 (Harmonization) 라인 성숙. Bilingual autoencoder-based efficient harmonization of multi-source private data for accurate predictive modeling (3 년 후) 의 방법론 확장 — self-attention 추가.

방법론적 핵심: 3 단계 framework. (i) Local Word2Vec — 각 병원이 자체 EHR 에서 contextual embedding 학습. (ii) HarmoAE — bilingual autoencoder 로 cross-hospital 정렬 (initial value). (iii) SATE (Self-Attentive Encoder) — patient event sequence 에 self-attention 적용. Dynamic context (시간적 medical event 간 attention) 포착. Local training.

핵심 발견: MIMIC-III 다양한 질병 예측 (다음 admission 진단, 사망률, etc.) 에서 HarmoSATE 가 baseline (HarmoAE 단독, federated CF 등) 보다 3-8% 정확도 향상. Self-attention 의 medical concept 간 관계 학습 이 핵심.

이정혜 의 연구 궤적 안에서 이 paper 는 실타래 2 의 2024 성숙. Bilingual autoencoder-based efficient harmonization of multi-source private data for accurate predictive modeling · Word2Vec-based efficient privacy-preserving shared representation learning for federated recommendation system in a cross-device setting 의 직접 후속.

핵심 결과

항목	값
Architecture	Word2Vec + HarmoAE + SATE
정확도 향상	3-8% (vs baselines)
데이터	MIMIC-III
Self-attention 역할	dynamic patient context
Privacy 보호	embedding 공유 (DP/HE 없이)

방법론 노트

SATE = Transformer encoder 적용:

\text{Attention}(Q, K, V) = \text{softmax}(QK^\top / \sqrt{d_k}) V

Patient $i$ 의 event sequence $\{e_{i,1}, \ldots, e_{i,T_i}\}$ → embedded (HarmoAE 출력) → self-attention layers → patient representation → classifier.

Federation: local SATE 학습 + parameters 공유 (server aggregation).

식별 가정: (i) HarmoAE 의 cross-hospital alignment, (ii) Self-attention 의 medical context 포착, (iii) MIMIC-III 의 시간적 정보 풍부성.

연구 계보

이 paper 는 (i) Vaswani et al. (2017) Transformer 본가, (ii) Bilingual autoencoder-based efficient harmonization of multi-source private data for accurate predictive modeling (HarmoAE) 직접 선행, (iii) Choi et al. (2016) RETAIN (medical attention) 라인 — 의 결합. 이정혜 의 연구 궤적 실타래 2 의 2024 성숙.

인접 그래프

1-hop 이웃 4개

인물 2
논문 2

휠 = 확대/축소 · 드래그 = 이동 · hover = 라벨 · 클릭 = 페이지 이동

이 문서를 가리키는 페이지

논문 (1)

Bilingual autoencoder-based efficient harmonization of multi-source private data for accurate predictive modeling

인물 (1)

이정혜