Secure and Differentially Private Logistic Regression for Horizontally Distributed Data

Miran Kim, 이정혜, Lucila Ohno-Machado, Xiaoqian Jiang (2020) · ieee-tifs 15 · DOI ↗

이정혜 의 프라이버시 보존 ML 의 수학적 기반 — 55 회 인용. DP (Differential Privacy) + HE (Homomorphic Encryption) 의 최초 결합 으로 분산 로지스틱 회귀 구현 (F-SPLR, U-SPLR). 3 분 이내 학습 + 글로벌 모형 대비 AUC 차이 <1%. 의생명 데이터의 저장-계산-결과 3 단계 프라이버시 모두 보호.

RQ: 수평적 분산 데이터 (horizontal partitioning) 에서 DP + HE 결합 으로 데이터 보호 + 분석 결과 보호 모두 가능한가?
방법론: differential-privacy (state-of-the-art privacy protection) + homomorphic-encryption (HEAAN) 결합 분산 로지스틱 회귀 — F-SPLR (Full Secure Private LR), U-SPLR (Updated)
데이터: PhysioNet, Diabetes 실데이터 셋
주요 발견: (1) DP + HE 결합이 처음 시도. (2) 학습 시간 < 3 분, AUC 차이 < 1% (분산 vs 글로벌 모델). (3) F-SPLR vs U-SPLR — 효율 vs 정확도 trade-off. (4) 의생명 데이터의 저장-계산-결과 3 단계 보호.
시사점: Privacy + Security 양쪽 모두 보호 의 실용적 첫 입증. 기존 DP-only 또는 HE-only 의 한계 (DP 는 결과 보호 X, HE 는 결과 보호 O 하나 분산 시나리오 미지원) 극복.

DP + HE 결합 분산 로지스틱 회귀 프로토콜 구조.

요약

이 paper 는 이정혜 의 2 기 UNIST 초기 의 프라이버시 보존 ML 수학적 기반. Miran Kim (제 1 저자, MD Anderson 박사후) + Xiaoqian Jiang (UCSD/UTHealth 지도교수) + Lucila Ohno-Machado (UCSD) 의 국제 협업. Privacy-Preserving Patient Similarity Learning in a Federated Environment: Development and Analysis 의 수학적 정밀화. 55 회 인용.

방법론적 핵심: DP + HE 의 상보성 활용. (i) homomorphic-encryption (HEAAN — Cheon et al. 의 approximate HE) — 암호화된 데이터에 대한 연산 가능. 저장 + 계산 단계 보호. (ii) differential-privacy — 결과에 수학적 노이즈 추가. 결과 분석 단계 보호. 결합: 데이터, 모델, 결과 모두 보호.

로지스틱 회귀 iterative update (Newton-Raphson 또는 gradient descent):

\beta_{t+1} = \beta_t - \alpha \nabla L(\beta_t; \text{data})

(i) HE 단계: 각 병원이 암호화된 gradient 계산 후 중앙 서버에 전송. 중앙 서버가 암호 공간에서 합산. (ii) DP 단계: 최종 추정치에 Laplace 또는 Gaussian noise 추가.

핵심 발견: PhysioNet, Diabetes 데이터에서 AUC 차이 1% 미만, 학습 시간 3 분 이내. F-SPLR (전체 secure 버전) 은 안전성 최대, U-SPLR (업데이트 효율적) 은 수렴 가속. Privacy budget ε 와 모델 정확도 trade-off 정량화.

이정혜 의 연구 궤적 안에서 이 paper 는 2 기 UNIST 시기 프라이버시 ML 의 수학적 기반. 실타래 2 (Privacy-preserving / FL) 의 핵심.

핵심 결과

항목	값
DP + HE 결합	최초 시도
학습 시간	< 3 분
글로벌 모델 대비 AUC 차이	< 1%
검증 데이터	PhysioNet, Diabetes
인용 수	55
알고리즘 변종	F-SPLR (full secure), U-SPLR (updated)

방법론 노트

분산 SGD with HE + DP:

For each iteration t:
  Each site k:
    Compute local gradient g_k = -∇L(β_t; data_k)
    Encrypt g_k → HE(g_k)
    Send HE(g_k) to server
  Server:
    Aggregate: HE(g) = ∑_k HE(g_k)  (homomorphic addition)
    Send HE(g) back
  Each site k:
    Decrypt → g
    Update β_{t+1} = β_t + α*g
Final β:
  Add DP noise: β_final = β_T + Laplace(Δ/ε)

식별 가정: (i) HEAAN 의 approximate HE 가 LR 의 numerical 정확도 충분 보존, (ii) DP 노이즈 calibration 의 sensitivity Δ 정확, (iii) horizontal partitioning (동일 features, 다른 samples).

연구 계보

이 paper 는 (i) Dwork (2006) DP 본가, (ii) Cheon et al. (2017) HEAAN 본가, (iii) Privacy-Preserving Patient Similarity Learning in a Federated Environment: Development and Analysis 직접 선행 — 의 결합. 이정혜 의 연구 궤적 실타래 2 의 수학적 기반.

인접 그래프

1-hop 이웃 6개

인물 4
방법론 1
논문 1

휠 = 확대/축소 · 드래그 = 이동 · hover = 라벨 · 클릭 = 페이지 이동

이 문서를 가리키는 페이지

인물 (1)

이정혜