Secure and Differentially Private Logistic Regression for Horizontally Distributed Data


Miran Kim, 이정혜, Lucila Ohno-Machado, Xiaoqian Jiang (2020) · ieee-tifs 15 · DOI ↗

이정혜프라이버시 보존 ML수학적 기반55 회 인용. DP (Differential Privacy) + HE (Homomorphic Encryption) 의 최초 결합 으로 분산 로지스틱 회귀 구현 (F-SPLR, U-SPLR). 3 분 이내 학습 + 글로벌 모형 대비 AUC 차이 <1%. 의생명 데이터의 저장-계산-결과 3 단계 프라이버시 모두 보호.

  • RQ: 수평적 분산 데이터 (horizontal partitioning) 에서 DP + HE 결합 으로 데이터 보호 + 분석 결과 보호 모두 가능한가?
  • 방법론: differential-privacy (state-of-the-art privacy protection) + homomorphic-encryption (HEAAN) 결합 분산 로지스틱 회귀 — F-SPLR (Full Secure Private LR), U-SPLR (Updated)
  • 데이터: PhysioNet, Diabetes 실데이터 셋
  • 주요 발견: (1) DP + HE 결합이 처음 시도. (2) 학습 시간 < 3 분, AUC 차이 < 1% (분산 vs 글로벌 모델). (3) F-SPLR vs U-SPLR — 효율 vs 정확도 trade-off. (4) 의생명 데이터의 저장-계산-결과 3 단계 보호.
  • 시사점: Privacy + Security 양쪽 모두 보호실용적 첫 입증. 기존 DP-only 또는 HE-only 의 한계 (DP 는 결과 보호 X, HE 는 결과 보호 O 하나 분산 시나리오 미지원) 극복.

DP + HE 결합 분산 로지스틱 회귀 프로토콜 구조.

요약

이 paper 는 이정혜2 기 UNIST 초기프라이버시 보존 ML 수학적 기반. Miran Kim (제 1 저자, MD Anderson 박사후) + Xiaoqian Jiang (UCSD/UTHealth 지도교수) + Lucila Ohno-Machado (UCSD) 의 국제 협업. Privacy-Preserving Patient Similarity Learning in a Federated Environment: Development and Analysis수학적 정밀화. 55 회 인용.

방법론적 핵심: DP + HE 의 상보성 활용. (i) homomorphic-encryption (HEAAN — Cheon et al. 의 approximate HE) — 암호화된 데이터에 대한 연산 가능. 저장 + 계산 단계 보호. (ii) differential-privacy — 결과에 수학적 노이즈 추가. 결과 분석 단계 보호. 결합: 데이터, 모델, 결과 모두 보호.

로지스틱 회귀 iterative update (Newton-Raphson 또는 gradient descent):

βt+1=βtαL(βt;data)\beta_{t+1} = \beta_t - \alpha \nabla L(\beta_t; \text{data})

(i) HE 단계: 각 병원이 암호화된 gradient 계산 후 중앙 서버에 전송. 중앙 서버가 암호 공간에서 합산. (ii) DP 단계: 최종 추정치에 Laplace 또는 Gaussian noise 추가.

핵심 발견: PhysioNet, Diabetes 데이터에서 AUC 차이 1% 미만, 학습 시간 3 분 이내. F-SPLR (전체 secure 버전) 은 안전성 최대, U-SPLR (업데이트 효율적) 은 수렴 가속. Privacy budget ε모델 정확도 trade-off 정량화.

이정혜연구 궤적 안에서 이 paper 는 2 기 UNIST 시기 프라이버시 ML 의 수학적 기반. 실타래 2 (Privacy-preserving / FL) 의 핵심.

핵심 결과

항목
DP + HE 결합최초 시도
학습 시간< 3 분
글로벌 모델 대비 AUC 차이< 1%
검증 데이터PhysioNet, Diabetes
인용 수55
알고리즘 변종F-SPLR (full secure), U-SPLR (updated)

방법론 노트

분산 SGD with HE + DP:

For each iteration t:
  Each site k:
    Compute local gradient g_k = -∇L(β_t; data_k)
    Encrypt g_k → HE(g_k)
    Send HE(g_k) to server
  Server:
    Aggregate: HE(g) = ∑_k HE(g_k)  (homomorphic addition)
    Send HE(g) back
  Each site k:
    Decrypt → g
    Update β_{t+1} = β_t + α*g
Final β:
  Add DP noise: β_final = β_T + Laplace(Δ/ε)

식별 가정: (i) HEAAN 의 approximate HE 가 LR 의 numerical 정확도 충분 보존, (ii) DP 노이즈 calibration 의 sensitivity Δ 정확, (iii) horizontal partitioning (동일 features, 다른 samples).

연구 계보

이 paper 는 (i) Dwork (2006) DP 본가, (ii) Cheon et al. (2017) HEAAN 본가, (iii) Privacy-Preserving Patient Similarity Learning in a Federated Environment: Development and Analysis 직접 선행 — 의 결합. 이정혜연구 궤적 실타래 2 의 수학적 기반.

See also

인접 그래프

1-hop 이웃 6
  • 인물 4
  • 방법론 1
  • 논문 1
이정혜Lucila Ohno-Macha…Miran KimXiaoqian Jiang로지스틱 회귀 Secure and Differenti…
휠 = 확대/축소 · 드래그 = 이동 · hover = 라벨 · 클릭 = 페이지 이동