Federated Gradient Boosting for Financial Fraud Detection: An Empirical Study in the Banking Sector

Dae-Young Park, In-Young Ko, Taek-Ho Lee, 이정혜 (2025) · cikm ‘25 (Article 4, 5 pages) · DOI ↗

한국 금융 보안원 (FSI) 의 private 다중 사기 banking dataset (767,550 거래, 12 fraud class ‘a’~‘l’, fraud 비율 4.3%) + 공개 simulated banking dataset (594,643 거래, 6 개월, 16 merchant 카테고리, fraud 1.21%) 으로 4 federated gradient boosting model (SimFedXGB, FedXGBllr, FedXGBBagging, FedXGBCyclic) 의 최초 banking 부문 실증 비교 연구 (의료 FL 위주의 기존 연구 gap 보완). 3/5/7 institution + 100 communication rounds + decentralized evaluation. 핵심 발견: (1) FedXGBBagging 가장 우수 (ensemble local model 보존으로 non-IID robust), (2) data quantity skew 시 모두 취약 (FR dataset SimFedXGB 88.9 → 86.1, FedXGBCyclic 91.6 → 88.8% drop), (3) SimFedXGB + FedXGBCyclic 가 dropout 시 불안정 (FSI dataset SimFedXGB dropout 후 0.895 → 0.722, −19.33% drop; FedXGBCyclic −4.95% dropout / −3.66% join), (4) ATM skimming 등 지역화 fraud 는 local model 보다 못함 (global aggregation 이 institution-specific 패턴 희석). 예비 실험: XGBoost 가 TabNet/TabTransformer/SVM 보다 F1 +5.3%p (2 번째 best 인 TabTransformer 대비). 이정혜 의 2 기 (2019-2025) 연합학습·의료AI·그래프 ML 라인의 금융 도메인 확장.

RQ: 의료 도메인에 집중되었던 federated learning 연구를 banking 부문 실제 사기 탐지 (customer + account + transaction 의 detail data + 복잡한 fraud type 인 ATM skimming 등) 에 적용 시, 4 representative federated gradient boosting model 중 어느 것이 우수한가? Non-IID + dynamic participation 시 robustness 는?
방법론: 연합학습 + 그래디언트 부스팅 (XGBoost, Chen-Guestrin 2016) 4 변종 — simfedxgb (Li-Wen-He 2020, locality-sensitive hashing similarity), fedxgbllr (Mu 등 2023, adaptive learning rate via CNN), fedxgbbagging (Breiman 1996 bagging 의 FL 확장, Flower 라이브러리), fedxgbcyclic (Freund-Schapire 1997 sequential update). dirichlet-partition (α=1.0 mild skew, α=0.1 severe skew) 으로 IID / class label skew / data quantity skew / pathological partitioning 4 시나리오. Dynamic participation: dropout rounds 5-15, join rounds 10-20. Decentralized evaluation (한국 규제 상 centralized test 불가).
데이터: (i) FSI private dataset — 한국 Financial Security Institute, 767,550 거래 (training 614,040 + validation 153,510), 33,037 fraud (4.3%), 12 fraud class ‘a’~‘l’. 분포: ‘h’ 25.21%, ‘d’ 24.4% (major); ‘k’ 0.25%, ‘l’ 0.44% (rare). Preprocessing: time → 초 변환, negative time-diff → 0, one-hot 범주, 고-cardinality quasi-id → integer encoding. (ii) SimBank public dataset (Lopez-Rojas & Axelsson 2014) — 594,643 거래 (6 개월), 16 merchant 카테고리, fraud 1.21%, binary classification. 3/5/7 institution scenario.
주요 발견: (i) 예비 실험: XGBoost > TabTransformer > TabNet ≈ SVM, XGBoost 가 2 위 (TabTransformer) 대비 F1 +5.3%p. → gradient boosting 채택 정당화. (ii) FedXGBBagging 일관 우수 — bagging 의 local-model preservation 이 non-IID 에 robust, cyclic 의 sequential learning 보다 underrepresented client distribution 보호. (iii) Data quantity skew (Dirichlet α=1.0 → 0.1) 모든 model 취약: FR dataset SimFedXGB 88.9% → 86.1%, FedXGBCyclic 91.6% → 88.8%, 통계량 (gradient + Hessian) reliability 저하 → suboptimal tree. (iv) Dynamic participation (FSI dataset, IID, 5 institution): SimFedXGB dropout 후 0.895 → 0.722 (−19.33%) (가장 큰 drop), join 후 −1.67%; FedXGBCyclic dropout 후 −4.95%, join 후 −3.66%. FedXGBBagging + FedXGBllr 은 ensemble 으로 stable. (v) ATM 관련 fraud (‘X’ compromised device, ‘I’ 비정상 large amount) 는 federated model 이 local model 보다 못함 — institution-specific temporal/geographic/behavioral pattern 이 global aggregation 시 희석, GBDT 의 recursive feature split 이 temporal dependency 캡처 어려움.
시사점: (a) Banking FL deployment 시 FedXGBBagging 권장 + data quantity balancing 필수. (b) Dynamic participation environment 에서는 SimFedXGB + FedXGBCyclic 회피. (c) Localized fraud (ATM, 지역 특화) 는 hybrid 접근 필요 — federated + temporal modeling 또는 task-specific personalization. (d) GDPR / GLBA 의 strict privacy regulation 우회 가능한 FL 의 잠재력, 단 (b)(c) 의 design consideration 필요. (e) 후속 연구: privacy-preserving data augmentation 으로 underrepresented fraud (rare class) 개선.

요약

이정혜 의 2 기 (2019-2025) 연합학습·의료AI·그래프 ML 라인의 금융 도메인 확장 — CIKM 2025 short paper. Dae-Young Park (KAIST + FSI AI Innovation Center) + In-Young Ko (KAIST) + Taek-Ho Lee (SeoulTech, FL 시리즈 동일 저자) + 이정혜 (SNU TEMEP) 의 협업. 의료 FL 위주였던 기존 이정혜 라인 (Connecting Low-Loss Subspace for Personalized Federated Learning 등) 이 실제 banking 산업 데이터 로 확장된 첫 작업.

기존 FL fraud detection 문헌이 credit card binary classification 중심 (Yang 등 2019, Zheng 등 2021, Tang-Liang 2024 등) 이고 banking 의 customer + account + transaction detail + 복잡한 fraud type (ATM skimming, phishing fund transfer 등) 은 미답이었음. 본 paper 가 그 gap 보완 — 한국 FSI 의 private 다중 사기 dataset (767,550 거래, 12 fraud class ‘a’~‘l’, 4.3% fraud) + 공개 SimBank dataset (594,643 거래, 1.21% fraud) 으로 4 federated gradient boosting model (SimFedXGB Li-Wen-He 2020 + FedXGBllr Mu 등 2023 + FedXGBBagging Breiman 1996 + FedXGBCyclic Freund-Schapire 1997) 의 최초 banking 부문 실증 비교.

방법론 핵심: 예비 실험으로 4 model (SVM, XGBoost, TabNet, TabTransformer) 비교 → XGBoost 가 2 위 TabTransformer 대비 F1 +5.3%p → gradient boosting 채택. 3/5/7 institution (한국 주요 은행 수 반영) + 100 communication rounds + decentralized evaluation (한국 금융 규제상 중앙 test 불가). dirichlet-partition (α=1.0 mild → α=0.1 severe) 으로 data heterogeneity scenario 4 가지 (IID, class label skew, data quantity skew, pathological), dynamic participation (dropout rounds 5-15, join rounds 10-20) 시뮬레이션.

핵심 결과 4 가지: (1) FedXGBBagging 일관 우수 — bagging 의 local-model preservation 이 non-IID robust, cyclic 의 sequential learning 보다 underrepresented client distribution 보호. (2) Data quantity skew (α=1.0 → 0.1) 모든 model 취약 — FR dataset SimFedXGB 88.9 → 86.1%, FedXGBCyclic 91.6 → 88.8% drop. 작은 local data 가 gradient + Hessian 통계량 reliability 저하 → suboptimal tree construction. (3) Dynamic participation 으로 SimFedXGB + FedXGBCyclic 불안정 — FSI dataset SimFedXGB dropout 후 0.895 → 0.722 (−19.33%, similarity-aware weighted gradient 가 high-similarity client 이탈 시 왜곡), FedXGBCyclic dropout −4.95% / join −3.66% (sequential update flow 가 model initialization mismatch). FedXGBBagging + FedXGBllr 은 ensemble 으로 stable. (4) ATM 관련 fraud (‘X’ compromised device, ‘I’ 비정상 large amount) 에서 federated model 이 local 보다 못함 — institution-specific temporal/geographic/behavioral pattern 이 global aggregation 시 희석, GBDT 의 recursive feature split 이 time-of-day · withdrawal sequence 같은 temporal dependency 캡처 어려움 (explicit feature engineering 필요).

정책 / 산업 함의: Banking FL deployment 시 FedXGBBagging 권장 + data quantity balancing 필수, dynamic participation environment 에서 SimFedXGB + FedXGBCyclic 회피, localized fraud 는 hybrid (federated + temporal modeling + task-specific personalization) 필요. GDPR/GLBA 의 strict privacy regulation 우회 가능한 FL 의 잠재력이 banking 산업에서 실증됨. caveat: 한국 banking 특수 환경 (3/5/7 institution scale, 단일 규제 환경), private FSI dataset 의 generalizability 한계, 5 페이지 short paper 의 ablation 제한.

핵심 결과

시나리오	결과 (F1)	해석
모델 비교 (4 federated GBM)	FedXGBBagging > FedXGBllr > FedXGBCyclic > SimFedXGB	Bagging 의 local model preservation robust
Data quantity skew (Dirichlet α=1.0 → 0.1, FR dataset, 5 institution)	SimFedXGB 88.9 → 86.1%, FedXGBCyclic 91.6 → 88.8%	모든 model 취약
Dropout (FSI dataset, IID, 5 institution)	SimFedXGB 0.895 → 0.722 (−19.33%), FedXGBCyclic −4.95%, FedXGBBagging/FedXGBllr stable	Similarity-aware + sequential 불안정
Join (FSI dataset)	SimFedXGB −1.67%, FedXGBCyclic −3.66%	Cyclic 의 sequential 영향 큼
ATM 관련 fraud (‘X’, ‘I’)	Federated < local model	Global aggregation 이 institution-specific pattern 희석
예비 (centralized): XGBoost vs TabTransformer	XGBoost +5.3%p F1	GBM 이 tabular fraud 에 우월

FSI dataset: 767,550 거래, 12 fraud class ‘a’~‘l’, 4.3% fraud, 분포 ‘h’ 25.21% / ‘d’ 24.4% major, ‘k’ 0.25% / ‘l’ 0.44% rare. SimBank: 594,643 거래, 16 merchant, 1.21% fraud, binary.

방법론 노트

연합학습 의 일반 형식 — 각 client $c$ 가 local data $D_c$ 로 model $\theta_c$ 학습, server 가 aggregation $\theta_g = \text{Agg}(\theta_1, ..., \theta_C)$ . 그래디언트 부스팅 (Chen-Guestrin 2016 XGBoost):

F_M(x) = \sum_{m=1}^M \gamma_m h_m(x)

$h_m$ = decision tree weak learner, $\gamma_m$ = step size. 4 federated 변종:

simfedxgb (Li-Wen-He 2020): locality-sensitive hashing similarity 기반 weighted XGBoost
fedxgbllr (Mu 등 2023): external CNN 으로 tree-wise learning rate 동적 조정, gradient 교환 없음
fedxgbbagging (Breiman 1996 bagging 의 FL): 독립 client ensemble, prediction 평균 aggregation
fedxgbcyclic (Freund-Schapire 1997 boosting 의 FL): sequential client 별 global model incremental update

dirichlet-partition for data heterogeneity: concentration α → balanced (α=1.0) or skewed (α=0.1). Performance Decrease (%) = ((Baseline − After Drop/Join) / Baseline) × 100. Identification: 3/5/7 institution scenario (한국 주요 은행 수), 100 communication rounds, decentralized evaluation (각 institution 의 local data + threshold), institution-wise precision/recall/F1 평균.

연구 계보

이정혜 의 2 기 (2019-2025) 연합학습·의료AI·그래프 ML 라인의 금융 도메인 확장 첫 작업. Direct method predecessor: Chen-Guestrin (2016, XGBoost), Breiman (1996, bagging), Freund-Schapire (1997, boosting), Li-Wen-He (2020, SimFedXGB), Mu 등 (2023, FedXGBllr), Lopez-Rojas & Axelsson (2014, SimBank dataset). Direct FL predecessor: Junghye Lee 등 (2018, JMIR Medical Informatics, privacy-preserving patient learning — 본인의 의료 FL 시초), Taek-Ho Lee 등 (2023, Word2Vec privacy-preserving cross-device FL), Taek-Ho Lee 등 (2024, HarmoSATE harmonized embedding), Hahn-Jeong-Lee (2022, low-loss subspace personalized FL, Connecting Low-Loss Subspace for Personalized Federated Learning). FL fraud predecessor (credit card 위주): Yang 등 (2019, FFD), Zheng 등 (2021, federated meta-learning), Abdul Salam 등 (2024, SMOTE + Tomek), Tang-Liang (2024, federated graph learning). Sibling: 이정혜 의 다른 의료 FL / 그래프 ML 작업, Connecting Low-Loss Subspace for Personalized Federated Learning (FL 의료 personalization, 본 paper 의 가장 가까운 sibling).

인접 그래프

1-hop 이웃 8개

인물 4
방법론 2
주제 1
논문 1

휠 = 확대/축소 · 드래그 = 이동 · hover = 강조 · 클릭 = 페이지 이동

이 문서를 가리키는 페이지

인물 (1)

이정혜