Secure and Differentially Private Logistic Regression for Horizontally Distributed Data
Miran Kim, 이정혜, Lucila Ohno-Machado, Xiaoqian Jiang (2020) · ieee-tifs 15 · DOI ↗
이정혜 의 프라이버시 보존 ML 의 수학적 기반 — 55 회 인용. DP (Differential Privacy) + HE (Homomorphic Encryption) 의 최초 결합 으로 분산 로지스틱 회귀 구현 (F-SPLR, U-SPLR). 3 분 이내 학습 + 글로벌 모형 대비 AUC 차이 <1%. 의생명 데이터의 저장-계산-결과 3 단계 프라이버시 모두 보호.
- RQ: 수평적 분산 데이터 (horizontal partitioning) 에서 DP + HE 결합 으로 데이터 보호 + 분석 결과 보호 모두 가능한가?
- 방법론: differential-privacy (state-of-the-art privacy protection) + homomorphic-encryption (HEAAN) 결합 분산 로지스틱 회귀 — F-SPLR (Full Secure Private LR), U-SPLR (Updated)
- 데이터: PhysioNet, Diabetes 실데이터 셋
- 주요 발견: (1) DP + HE 결합이 처음 시도. (2) 학습 시간 < 3 분, AUC 차이 < 1% (분산 vs 글로벌 모델). (3) F-SPLR vs U-SPLR — 효율 vs 정확도 trade-off. (4) 의생명 데이터의 저장-계산-결과 3 단계 보호.
- 시사점: Privacy + Security 양쪽 모두 보호 의 실용적 첫 입증. 기존 DP-only 또는 HE-only 의 한계 (DP 는 결과 보호 X, HE 는 결과 보호 O 하나 분산 시나리오 미지원) 극복.

요약
이 paper 는 이정혜 의 2 기 UNIST 초기 의 프라이버시 보존 ML 수학적 기반. Miran Kim (제 1 저자, MD Anderson 박사후) + Xiaoqian Jiang (UCSD/UTHealth 지도교수) + Lucila Ohno-Machado (UCSD) 의 국제 협업. Privacy-Preserving Patient Similarity Learning in a Federated Environment: Development and Analysis 의 수학적 정밀화. 55 회 인용.
방법론적 핵심: DP + HE 의 상보성 활용. (i) homomorphic-encryption (HEAAN — Cheon et al. 의 approximate HE) — 암호화된 데이터에 대한 연산 가능. 저장 + 계산 단계 보호. (ii) differential-privacy — 결과에 수학적 노이즈 추가. 결과 분석 단계 보호. 결합: 데이터, 모델, 결과 모두 보호.
로지스틱 회귀 iterative update (Newton-Raphson 또는 gradient descent):
(i) HE 단계: 각 병원이 암호화된 gradient 계산 후 중앙 서버에 전송. 중앙 서버가 암호 공간에서 합산. (ii) DP 단계: 최종 추정치에 Laplace 또는 Gaussian noise 추가.
핵심 발견: PhysioNet, Diabetes 데이터에서 AUC 차이 1% 미만, 학습 시간 3 분 이내. F-SPLR (전체 secure 버전) 은 안전성 최대, U-SPLR (업데이트 효율적) 은 수렴 가속. Privacy budget ε 와 모델 정확도 trade-off 정량화.
이정혜 의 연구 궤적 안에서 이 paper 는 2 기 UNIST 시기 프라이버시 ML 의 수학적 기반. 실타래 2 (Privacy-preserving / FL) 의 핵심.
핵심 결과
| 항목 | 값 |
|---|---|
| DP + HE 결합 | 최초 시도 |
| 학습 시간 | < 3 분 |
| 글로벌 모델 대비 AUC 차이 | < 1% |
| 검증 데이터 | PhysioNet, Diabetes |
| 인용 수 | 55 |
| 알고리즘 변종 | F-SPLR (full secure), U-SPLR (updated) |
방법론 노트
분산 SGD with HE + DP:
For each iteration t:
Each site k:
Compute local gradient g_k = -∇L(β_t; data_k)
Encrypt g_k → HE(g_k)
Send HE(g_k) to server
Server:
Aggregate: HE(g) = ∑_k HE(g_k) (homomorphic addition)
Send HE(g) back
Each site k:
Decrypt → g
Update β_{t+1} = β_t + α*g
Final β:
Add DP noise: β_final = β_T + Laplace(Δ/ε)
식별 가정: (i) HEAAN 의 approximate HE 가 LR 의 numerical 정확도 충분 보존, (ii) DP 노이즈 calibration 의 sensitivity Δ 정확, (iii) horizontal partitioning (동일 features, 다른 samples).
연구 계보
이 paper 는 (i) Dwork (2006) DP 본가, (ii) Cheon et al. (2017) HEAAN 본가, (iii) Privacy-Preserving Patient Similarity Learning in a Federated Environment: Development and Analysis 직접 선행 — 의 결합. 이정혜 의 연구 궤적 실타래 2 의 수학적 기반.
See also
- 이정혜
- Miran Kim
- Xiaoqian Jiang
- differential-privacy
- homomorphic-encryption
- 로지스틱 회귀
- federated-learning
- ieee-tifs
- Privacy-Preserving Patient Similarity Learning in a Federated Environment: Development and Analysis
인접 그래프
- 인물 4
- 방법론 1
- 논문 1