Federated Gradient Boosting for Financial Fraud Detection: An Empirical Study in the Banking Sector
Dae-Young Park, In-Young Ko, Taek-Ho Lee, 이정혜 (2025) · cikm · DOI ↗
금융 사기 탐지의 최초 federated gradient boosting 실증 연구 — CIKM 2025. Banking 부문 real-world fraud type + 고객·계좌·거래 detail data. 4 representative federated GBM 비교. FedXGBBagging 이 가장 우수 + data quantity skew vulnerability + bank dropout instability + 지역화 fraud (ATM skimming) 의 탐지 한계 도 발견. 이정혜 의 실타래 2 (FL) 의 금융 도메인 확장.
- RQ: 의료에 집중되었던 federated learning 연구의 금융 사기 탐지 응용 의 empirical 평가 는? Gradient boosting (tabular data 우월) 의 federated 변종 중 무엇이 최적?
- 방법론: 4 representative federated gradient-boosting models 비교 — FedXGBBagging, FedXGB, FedGBDT, etc.
- 데이터: FSI (Financial Security Institute) private banking dataset + 공개 banking dataset. 다양한 시나리오.
- 주요 발견: (1) FedXGBBagging 일관 우수. (2) Data quantity skew 에 일반 취약. (3) Bank dropout 시 instability. (4) 지역화 fraud (ATM skimming) 탐지 한계 — institutional behavioral patterns 가 글로벌 model aggregation 시 희석.
- 시사점: Banking sector 의 FL-based FDS 배포 시 challenges + design considerations. Future work: privacy-preserving data augmentation 으로 underrepresented fraud 개선.
요약
이 paper 는 이정혜 의 *3 기 SNU TEMEP 의 금융 도메인 FL 응용 — CIKM 2025. Dae-Young Park (제 1 저자) + In-Young Ko + Taek-Ho Lee (FL 시리즈 같은 저자) 의 협업. 실타래 2 (FL) 의 금융 확장 — Connecting Low-Loss Subspace for Personalized Federated Learning (의료) + Pursuing Overall Welfare in Federated Learning through Sequential Decision Making (이론) 의 실제 산업 응용.
방법론적 핵심: 4 federated gradient boosting 변종 비교. Tabular fraud 데이터는 deep learning 보다 GBM 우월 — 작은 sample + 비균형 + categorical feature 多. 4 변종:
- FedXGBBagging: bagging-based ensemble 의 federated 버전
- FedXGB: standard XGBoost FL
- FedGBDT: gradient boosting decision tree FL
- 기타
Empirical 평가: 다양한 시나리오 (data partition, dropout, fraud type) 에서 비교 분석.
핵심 발견:
- FedXGBBagging 일관 우수 — bagging 의 aggregation robustness.
- Data quantity skew vulnerability — bank 별 데이터 양 차이가 모형 편향 유발.
- Bank dropout instability — 학습 중 bank 가 빠지면 성능 불안정.
- Localized fraud 한계 — ATM skimming 같은 institution-specific pattern 은 global aggregation 으로 희석. 글로벌 vs 지역적 trade-off.
이정혜 의 연구 궤적 안에서 이 paper 는 실타래 2 (FL) 의 금융 도메인 응용 — 의료 → 금융 transfer. CIKM 2025 발표.
핵심 결과
| 발견 | 함의 |
|---|---|
| FedXGBBagging 일관 우수 | Bagging aggregation robust |
| Data quantity skew 취약 | Bank 데이터 양 차이 영향 |
| Bank dropout instability | 동적 환경 한계 |
| Localized fraud 탐지 한계 | Global aggregation 의 희석 효과 |
방법론 노트
gradient-boosting sequential ensemble:
= weak learner (decision tree), = step size.
Federated 변종:
- FedXGBBagging: 각 client 가 bagged ensemble 학습 → server 가 concat
- FedXGB: gradient + Hessian 교환
- Tree-based aggregation with split histograms
식별 가정: (i) Tabular fraud data 의 GBM 적합성, (ii) Privacy 보호 (raw data 미공유), (iii) Bank 간 feature schema 일치.
연구 계보
이 paper 는 (i) Chen & Guestrin (2016) XGBoost 본가, (ii) Connecting Low-Loss Subspace for Personalized Federated Learning (FL 의료) 직접 선행, (iii) Financial fraud detection literature — 의 결합. 이정혜 의 연구 궤적 실타래 2 의 금융 확장.
See also
- 이정혜
- Dae-Young Park
- Taek-Ho Lee
- federated-learning
- gradient-boosting
- financial-fraud-detection
- cikm
- Connecting Low-Loss Subspace for Personalized Federated Learning
인접 그래프
- 인물 4
- 논문 2