이정혜
Jung-hye Lee · 기술경영경제정책전공, Seoul National University
핵심 개념
1. 개념 지도
마스터 개념: Data-Driven Decision Making (데이터 기반 의사결정)
flowchart TD
M["Data-Driven Decision Making<br/>[마스터 개념]"]
FS["Feature Selection<br/>[데이터 정제]"]
RL["Representation Learning<br/>[데이터 표현]"]
PP["Privacy-Preserving Computation<br/>[데이터 보호]"]
M --> FS
M --> RL
M --> PP
FS --> MB["Markov Blanket"]
RL --> EMB["Embeddings (W2V, AE)"]
RL --> KG["Knowledge Graph"]
KG --> GNN["GNN"]
PP --> FL["Federated Learning"]
FL --> PH["Personalization & Harmonization"]
PP --> DP["Differential Privacy"]
classDef master fill:#fff3b0,stroke:#333,stroke-width:2px
class M master
응용 도메인:
- Healthcare AI → 질병 위험 예측, 생물학적 나이, 환자 유사도
- Technology Management → 기술 기회 발견, 트렌드 분석
- Smart Manufacturing → 다단계 공정 예측, 품질 관리
- Financial Analytics → 사기 탐지, 가계 재정 건전성
- Time Series → 시계열 분류/예측/설명
2. 개별 개념 정의
2.1 Markov Blanket (마르코프 블랭킷)
정의: 타겟 변수 T에 대해, 조건부로 다른 모든 변수가 T와 독립이 되게 하는 최소 변수 집합. 베이지안 네트워크에서 부모(parents), 자식(children), 자식의 부모(parents of children)의 합집합. 특성 선택의 이론적으로 최적인 기초. (Classification of High Dimensionality Data through Feature Selection Using Markov Blanket, IEMS)
주요 알고리즘:
- IAMB (Incremental Association MB): grow-and-shrink 방식. 종속 노드를 추가한 뒤 false positive를 제거. 가장 robust한 성능. (Classification of High Dimensionality Data through Feature Selection Using Markov Blanket)
- MMMB (Max-Min MB): divide-and-conquer. 부모-자식 먼저 찾고, 배우자 노드 탐색. (Classification of High Dimensionality Data through Feature Selection Using Markov Blanket)
- HITON-MB: 하이브리드. 추가/제거를 단일 루프에서 수행하여 조기 false positive 제거. (Classification of High Dimensionality Data through Feature Selection Using Markov Blanket)
- Inter-IAMB: 혼합형 데이터(continuous + categorical)에서의 MB 탐색. 우도비 검정 기반 일반화된 조건부 독립성 검정. (Markov blanket-based universal feature selection for classification and regression of mixed-type data, ESWA)
핵심 발견: 8개 데이터셋(고차원 마이크로어레이 포함)에서 IAMB이 필터 방법(CFS, MRMR)과 비교하여 경쟁적 성능을 보이면서 극적 차원 축소. MB 기반 멀티변량 순위화가 단변량 순위화보다 6개 암 분류 데이터셋에서 우월. (An efficient multivariate feature ranking method for gene selection in high-dimensional microarray data, ESWA)
사용 맥락: “어떤 변수가 정말 필요한가?”의 질문에 이론적 근거 제공. 고차원 데이터(유전체, 스펙트로스코피)에서 특히 중요.
2.2 Feature Selection (특성 선택)
정의: 고차원 데이터에서 정보를 보존하면서 차원을 축소하는 과정. 세 가지 접근: (1) Filter (분류기 독립, 계산 효율적), (2) Wrapper (분류기 의존, 계산 비용 높음), (3) Embedded (학습 과정에 내장). (Classification of High Dimensionality Data through Feature Selection Using Markov Blanket; Feature selection based on geometric distance for high-dimensional data)
방법론적 도구:
- VIP Score (Variable Importance in Projection): PLS에서 각 변수의 기여도 측정. (Classification of High Dimensionality Data through Feature Selection Using Markov Blanket, Chemometrics)
- Weight Vector Coefficients: SVR 기반 순위화. 최적 초평면에서의 크기가 중요도 지표. (Classification of High Dimensionality Data through Feature Selection Using Markov Blanket)
- 기하학적 거리 기반: 고차원 공간에서의 기하학적 거리로 특성 중요도 측정. (Feature selection based on geometric distance for high-dimensional data, Electronics Letters)
- CAFO (Feature-Centric Explanation): 시계열 분류에서 특성 중심 설명. KDD 2024. (CAFO: Feature-Centric Explanation on Time Series Classification)
사용 맥락: “데이터의 차원이 높은데 어떤 변수를 선택할 것인가?”에 대한 체계적 답변.
2.3 Federated Learning (연합학습)
정의: 원시 데이터를 공유하지 않고, 모델 파라미터나 집계 결과만을 교환하여 분산 학습하는 프레임워크. 프라이버시 보존과 데이터 거버넌스의 핵심 기술. (Privacy-Preserving Patient Similarity Learning in a Federated Environment: Development and Analysis, JMIR Medical Informatics)
핵심 연구 기여:
- SuPerFed (Connecting Low-Loss Subspace): 하이퍼네트워크 기반 모델 혼합. 로컬-글로벌 모델 간 low-loss subspace에서의 연결성(코사인 유사도)을 정규화하여 개인화. SuPerFed-MM(모델 혼합)과 SuPerFed-LM(레이어 혼합) 변종. KDD 2022. (Connecting Low-Loss Subspace for Personalized Federated Learning)
- AAgFFL (Pursuing Overall Welfare): 순차적 의사결정을 통한 연합학습에서의 공정성 추구. ICML 2024. (Pursuing Overall Welfare in Federated Learning through Sequential Decision Making)
- Federated Gradient Boosting: 금융 사기 탐지를 위한 연합 GBM. 은행 부문 실증. CIKM 2025. (Federated Gradient Boosting for Financial Fraud Detection: An Empirical Study in the Banking Sector)
핵심 발견: 비IID(non-identical and independently distributed) 데이터 환경에서, 파라미터 공간이 아닌 low-loss subspace에서의 모델 혼합이 개인화에 효과적. 공정성과 성능의 트레이드오프는 순차적 의사결정으로 관리 가능. (Connecting Low-Loss Subspace for Personalized Federated Learning, 2024)
사용 맥락: “데이터를 한곳에 모을 수 없는 상황에서 어떻게 학습하나?“
2.4 Differential Privacy (차분 프라이버시)
정의: 데이터베이스 쿼리 결과에 수학적 노이즈를 추가하여, 개별 데이터 포인트의 포함 여부를 구별 불가능하게 만드는 프라이버시 보장 메커니즘. 프라이버시 예산(ε)으로 보호 수준 정량화. (Secure and Differentially Private Logistic Regression for Horizontally Distributed Data, IEEE TIFS)
핵심 발견: 동형 암호(HEAAN)와 차분 프라이버시를 결합한 분산 로지스틱 회귀(F-SPLR, U-SPLR). PhysioNet, Diabetes 데이터셋에서 실현 가능성 검증. 프라이버시 예산과 모델 정확도 사이의 트레이드오프 정량화. (Word2vec-based latent semantic analysis (W2V-LSA) for topic modeling: A study on blockchain technology trend analysis)
사용 맥락: “프라이버시 보호의 수학적 보장은?”에 대한 답변.
2.5 Harmonization (조화/정렬)
정의: 서로 다른 소스(예: 다른 병원, 다른 기관)에서 수집된 이질적 데이터를 공유 표현 공간으로 정렬하는 과정. 데이터 분포, 변수 정의, 품질 수준이 다른 소스를 통합 가능하게 만듦. (Bilingual autoencoder-based efficient harmonization of multi-source private data for accurate predictive modeling, Information Sciences; HarmoSATE: Harmonized embedding-based self-attentive encoder to improve accuracy of privacy-preserving federated predictive analysis, Information Sciences)
핵심 프레임워크:
- HarmoAE (Bilingual Autoencoder): 소스별 분리 인코더가 공유 히든 공간으로 매핑. 2단계 학습(사전 학습 → 합동 학습). PDPS(Patient Diagnosis Projection Similarity) 메트릭으로 정렬 품질 측정. 3-5개 병원 시나리오에서 검증. (Bilingual autoencoder-based efficient harmonization of multi-source private data for accurate predictive modeling)
- HarmoSATE (Harmonized Self-Attentive Encoder): HarmoAE의 확장. Self-attention 메커니즘으로 임베딩 품질 향상. 연합학습 환경에서의 프라이버시 보존 예측 정확도 개선. (HarmoSATE: Harmonized embedding-based self-attentive encoder to improve accuracy of privacy-preserving federated predictive analysis)
통합 패턴: “소스별 분리 처리(separate per-source processing) + 공유 표현 공간에서의 통합(integration in shared representation space).” 이 패턴이 이정혜 연구의 메타-방법론.
사용 맥락: “여러 병원/기관의 데이터를 어떻게 통합하나?“
2.6 Representation Learning (표현 학습)
정의: 원시 데이터를 의사결정에 유용한 표현(임베딩)으로 변환하는 학습. 이정혜 연구의 통합 방법론. (전 시기)
주요 도구:
- Word2Vec: 단어를 벡터 공간에 임베딩. W2V-LSA로 블록체인 트렌드 분석(Secure and Differentially Private Logistic Regression for Horizontally Distributed Data). 연합 추천 시스템에서 프라이버시 보존 공유 표현 학습(Word2Vec-based efficient privacy-preserving shared representation learning for federated recommendation system in a cross-device setting).
- Doc2Vec: 문서 수준 임베딩. 기술 기회 발견(TOD)에서 기술 분류에 사용(Technology Opportunity Discovery using Deep Learning-based Text Mining and a Knowledge Graph).
- Autoencoder: 비선형 차원 축소 + 재구성. RSAE-BA(위험 점수 내장 오토인코더)로 생물학적 나이 추정(Risk score-embedded deep learning for biological age estimation: Development and validation). HarmoAE/HarmoSATE로 다소스 데이터 조화(Bilingual autoencoder-based efficient harmonization of multi-source private data for accurate predictive modeling, 2024). LSTM 오토인코더로 대기질 위험 지수(Federated Gradient Boosting for Financial Fraud Detection: An Empirical Study in the Banking Sector).
- GNN Embeddings: 그래프 구조에서의 표현 학습. TMF-GNN(TMF-GNN: Temporal matrix factorization-based graph neural network for multivariate time series forecasting with missing values), FT-MixE(FT-MixE: Fourier transform-based efficient mixing of knowledge graph embeddings for improved link prediction).
사용 맥락: “이 데이터를 어떻게 표현할 것인가?”가 모든 연구의 출발점.
2.7 Knowledge Graph (지식 그래프)
정의: 엔티티(노드)와 관계(엣지)로 구조화된 지식 표현. 링크 예측, 추천, 기술 기회 발견 등에 활용. (Technology Opportunity Discovery using Deep Learning-based Text Mining and a Knowledge Graph, TFSC; FT-MixE: Fourier transform-based efficient mixing of knowledge graph embeddings for improved link prediction, Applied Soft Computing)
핵심 연구:
- TOD (Technology Opportunity Discovery): NTBF-기술-투자자 3종 노드의 지식 그래프. 중심성 측정으로 emerging technology index 산출. (Technology Opportunity Discovery using Deep Learning-based Text Mining and a Knowledge Graph)
- FT-MixE: 푸리에 변환 기반 효율적 지식 그래프 임베딩 혼합. Triple을 “문장”처럼 취급, 2D DFT로 비모수적 혼합. 적은 파라미터로 우수한 링크 예측. (FT-MixE: Fourier transform-based efficient mixing of knowledge graph embeddings for improved link prediction)
사용 맥락: 기술 트렌드 분석, 추천, 관계 추론이 필요할 때.
2.8 Graph Neural Network (그래프 신경망)
정의: 그래프 구조 데이터에서 노드/엣지/그래프 수준의 학습을 수행하는 신경망. 시계열, 무역 네트워크, 지식 그래프 등 다양한 도메인에 적용. (2022-2026)
핵심 연구:
- TMF-GNN: 시간적 행렬 분해 기반 GNN. 결측값이 있는 다변량 시계열 예측. (TMF-GNN: Temporal matrix factorization-based graph neural network for multivariate time series forecasting with missing values)
- GCN on Recurrence Plots: 시계열을 recurrence plot으로 변환한 뒤 GCN으로 분류. (A graph convolutional network for time series classification using recurrence plots)
- ITSG-LSTM: 국가 간 무역 유사도 그래프 + LSTM으로 항만 물동량 예측. (Inter-country trade similarity graph-based long short-term memory for port throughput prediction)
사용 맥락: “이 데이터에 관계/구조 정보가 있나?”가 GNN 적용 판단 기준.
2.9 Time Series Analysis (시계열 분석)
정의: 시간 순서로 배열된 데이터의 패턴 인식, 분류, 예측, 설명. (2024-2026)
핵심 연구:
- CAFO: 시계열 분류에서의 특성 중심 설명(Feature-Centric Explanation). KDD 2024. (CAFO: Feature-Centric Explanation on Time Series Classification)
- TMF-GNN: 결측값이 있는 다변량 시계열 예측. (TMF-GNN: Temporal matrix factorization-based graph neural network for multivariate time series forecasting with missing values)
- TARI: LSTM 오토인코더 기반 시간적 대기질 위험 지수. (Federated Gradient Boosting for Financial Fraud Detection: An Empirical Study in the Banking Sector)
- GCN-RP: Recurrence plot + GCN 시계열 분류. (A graph convolutional network for time series classification using recurrence plots)
사용 맥락: 시간적 패턴, 예측, 이상 탐지가 필요한 문제.
2.10 Healthcare AI (의료 인공지능)
정의: 의료 데이터(EHR, 유전체, 대사체, 임상 지표)에 ML/DL을 적용하여 질병 위험 예측, 진단 보조, 치료 최적화를 수행. 이정혜 연구의 가장 지속적인 응용 도메인 (2014-2025). (전 시기)
핵심 연구:
- 고혈압 합병증 예측: 국민건강보험 데이터 10,814명. LR/LDA/CART 비교. (Prediction of Hypertension Complications Risk Using Classification Techniques)
- RSAE-BA: 위험 점수 내장 오토인코더로 생물학적 나이 추정. 85,490-140,867명 검증. (Risk score-embedded deep learning for biological age estimation: Development and validation)
- 제2형 당뇨 예측: 유전체 다유전자 위험 점수(gPRS) + 대사체. AUC 0.844. (Connecting Low-Loss Subspace for Personalized Federated Learning)
- CML 분자 반응 역학: 구획 모델로 환자별 치료 최적화. (Risk score-embedded deep learning for biological age estimation: Development and validation)
- 프라이버시 보존 환자 유사도: 연합 환경에서 환자 유사도 학습. 189회 인용. (Privacy-Preserving Patient Similarity Learning in a Federated Environment: Development and Analysis)
사용 맥락: 의료 데이터의 특수성(프라이버시, 이질성, 고차원, 불균형)을 항상 고려.
2.11 Personalization (개인화)
정의: 글로벌 모델을 개별 클라이언트/사용자의 로컬 맥락에 적응시키는 과정. 연합학습에서의 핵심 과제. (Connecting Low-Loss Subspace for Personalized Federated Learning)
핵심 메커니즘: SuPerFed의 low-loss subspace에서의 모델 혼합. 하이퍼네트워크가 혼합 상수(λ)를 생성, 로컬-글로벌 모델 간 코사인 유사도로 연결성 정규화. (Connecting Low-Loss Subspace for Personalized Federated Learning)
사용 맥락: “글로벌 모델이 개별 사용자에게 얼마나 적합한가?“
2.12 Multi-modal Integration (다중 모달 통합)
정의: 서로 다른 유형의 데이터(유전체+대사체, 텍스트+그래프, 이미지+시계열)를 결합하여 단일 예측/의사결정에 활용. (전 시기)
핵심 사례: 제2형 당뇨 예측에서 gPRS(239,062 변이) + 혈청 대사체 + 임상 지표의 다중 모달 통합. 단일 모달 대비 AUC 0.065 향상. (Connecting Low-Loss Subspace for Personalized Federated Learning)
2.13 Technology Opportunity Discovery (기술 기회 발견)
정의: 텍스트 마이닝과 지식 그래프를 활용하여 신기술 기회를 체계적으로 발견하는 프레임워크. TEMEP 이동 후 기술경영 관련 연구의 핵심. (Technology Opportunity Discovery using Deep Learning-based Text Mining and a Knowledge Graph, TFSC)
TOD 4단계: (1) Doc2Vec 기술 분류 → (2) NTBF 계층적 분류 → (3) TOD-KG 생성(NTBF-기술-투자자 3종 노드) → (4) 중심성 측정으로 emerging technology index 산출. (Technology Opportunity Discovery using Deep Learning-based Text Mining and a Knowledge Graph)
W2V-LSA: Word2Vec + 구형 k-means로 주제 추출. 블록체인 기술 트렌드 분석. PLSA 대비 우수한 주제 일관성. 150회 인용. (Word2vec-based latent semantic analysis (W2V-LSA) for topic modeling: A study on blockchain technology trend analysis)
2.14 Privacy-Utility Tradeoff (프라이버시-유용성 트레이드오프)
정의: 프라이버시 보호 수준을 높이면 모델 성능(유용성)이 떨어지고, 성능을 높이면 프라이버시가 약화되는 근본적 트레이드오프. (Kim & Markov blanket-based universal feature selection for classification and regression of mixed-type data; Bilingual autoencoder-based efficient harmonization of multi-source private data for accurate predictive modeling, 2024)
관리 방법: (1) 차분 프라이버시의 ε 조정, (2) 조화(harmonization)를 통한 프라이버시 보존 하 정확도 회복, (3) 연합학습으로 원시 데이터 이동 최소화. (전 시기)
3. 개념 간 관계
3.1 전제 관계
- Feature Selection → 모든 ML 파이프라인: 고차원 데이터에서 특성 선택이 선행되어야 효과적 학습 가능
- Representation Learning → Harmonization: 공유 표현 공간이 있어야 이질적 소스 정렬 가능
- Privacy 보장 → Federated Learning 실현: 프라이버시 보장 없으면 데이터 보유자가 참여하지 않음
3.2 상호 강화 관계
- Markov Blanket ↔ Federated Learning: MB로 핵심 변수를 선택하면 연합학습의 통신 비용과 프라이버시 리스크 감소
- Harmonization ↔ Healthcare AI: 다기관 의료 데이터의 이질성을 조화가 해결하면 의료 AI 성능 향상
- Graph ML ↔ Knowledge Graph: GNN이 지식 그래프의 링크 예측과 추론을 수행
3.3 긴장 관계 (핵심 트레이드오프)
- 프라이버시 vs. 유용성: 프라이버시 예산(ε)을 줄이면 노이즈 증가, 모델 정확도 하락
- 개인화 vs. 일반화: 개인화를 강화하면 로컬 편향 증가, 일반화 능력 감소 (SuPerFed이 이 긴장을 관리)
- 공정성 vs. 효율성: 공정성 제약을 강화하면 전체 효율 감소 (AAgFFL이 이 긴장을 관리)
- 복잡한 모델 vs. 통신 비용: 모델이 복잡해지면 연합학습에서 통신 비용 증가
- 도메인 특화 vs. 범용성: 도메인에 최적화하면 다른 도메인에의 전이 어려움
4. 방법론적 도구 매핑
5. 미해결 긴장과 열린 질문
- 연합학습의 확장성: 수천 클라이언트, 극단적 비IID 환경에서 SuPerFed이 유효한가?
- 프라이버시 보장의 실질성: ε이 충분히 작을 때 실제 모델 성능이 실용적인가?
- 조화의 한계: HarmoAE/HarmoSATE가 근본적으로 다른 특성 공간(예: 유전체 vs. 임상)도 조화 가능한가?
- 설명 가능성: CAFO(시계열 설명) 너머, 연합학습/GNN 모델의 설명 가능성은?
- 도메인 전이: 의료에서 개발된 방법론이 금융, 제조, 교통에 얼마나 직접 전이 가능한가?
6. 교수의 사고 패턴
6.1 핵심 질문 시퀀스 (데이터 문제를 만나면)
- “데이터의 특성은 무엇인가?” (차원, 유형, 분포, 크기)
- “데이터가 어디에 있는가?” (중앙집중? 분산? 프라이버시 제약?)
- “이질성은 어디에 있는가?” (소스 간 분포 차이, 변수 유형 혼합, 품질 불균일)
- “어떤 표현이 적합한가?” (임베딩, 특성 선택, 그래프)
- “어떤 메트릭으로 평가할 것인가?” (AUC, F1, 프라이버시 예산, 통신 비용, 공정성)
6.2 표현 > 원시 데이터
원시 데이터를 직접 사용하는 것보다, 적절한 표현(임베딩)으로 변환하는 것이 항상 더 나은 의사결정을 이끈다는 확신.
6.3 “소스별 분리 + 공유 표현” 패턴
HarmoAE(소스별 인코더 + 공유 히든 공간), SuPerFed(클라이언트별 로컬 모델 + 글로벌 모델의 혼합), TOD(NTBF별 분류 + 통합 지식 그래프). 이 아키텍처 패턴이 거의 모든 연구에서 반복.
6.4 방법론 → 도메인 (순서)
방법론적 기여가 먼저 오고, 도메인 응용이 따른다. “이 방법론이 이 도메인에서 작동하는가?”가 기본 질문. 그러나 검증은 반드시 실제 데이터(국민건강보험, KoGES, PhysioNet)로.
6.5 프라이버시를 제약이 아닌 설계 원칙으로
프라이버시를 “극복해야 할 제약”이 아니라 “처음부터 설계에 반영해야 할 원칙”으로 취급. UCSD 포닥에서 형성된 핵심 관점.
연구 궤적
관통 질문: “이질적이고 분산된 데이터에서 어떻게 신뢰할 수 있는 의사결정을 내릴 수 있는가?“
1. 시대 구분
1기: POSTECH/UCSD (2014-2018) — 특성 선택의 이론가에서 프라이버시 공학자로
맥락: POSTECH 산업경영공학 박사(2017). 박사 연구의 핵심은 Markov Blanket 기반 특성 선택. 이후 UC San Diego 생의학정보학에서 Xiaoqian Jiang 지도하에 포닥(2017-2018). 프라이버시 보존 ML에 눈뜨는 결정적 전환기.
핵심 논문 분석:
(1) Classification of High Dimensionality Data through Feature Selection Using Markov Blanket (Classification of High Dimensionality Data through Feature Selection Using Markov Blanket, IEMS)
- 논지: 3개 MB 알고리즘(IAMB, MMMB, HITON-MB)을 8개 데이터셋에서 필터 방법(CFS, MRMR)과 체계적 비교.
- 통찰: IAMB이 가장 robust. 고차원 마이크로어레이(2,000-15,114 features, 수십-수백 samples)에서 극적 차원 축소하면서 분류 성능 유지.
- 위치: 박사 연구의 핵심. 이후 모든 특성 선택 연구의 이론적 기초.
(2) Privacy-Preserving Patient Similarity Learning in a Federated Environment (Privacy-Preserving Patient Similarity Learning in a Federated Environment: Development and Analysis, JMIR Medical Informatics)
- 논지: 분산된 의료 데이터베이스에서 원시 데이터를 공유하지 않고 환자 유사도를 학습하는 연합학습 프레임워크.
- 통찰: 다기관 코호트 연구에서 프라이버시 위반 없이 협력 학습이 가능. 189회 인용.
- 위치: 포닥에서의 전환점. 특성 선택 전문가가 프라이버시 보존 ML 연구자로 변모하는 계기. “데이터가 이동할 수 없다면, 모델이 이동해야 한다.”
(3) Kernel-Based Calibration Methods Combined with Multivariate Feature Selection (Classification of High Dimensionality Data through Feature Selection Using Markov Blanket, Chemometrics)
- 논지: 커널 PLS/SVR과 특성 선택을 결합하여 근적외선 분광 분석의 정확도 향상.
- 통찰: VIP Score, Weight Vector Coefficient로 특성 순위화 후 커널 방법 적용. K-SVR-WV가 복잡한 스펙트럼에서 최적.
- 위치: 특성 선택 방법론의 화학계량학(chemometrics) 응용. 도메인 응용 능력 입증.
추가 핵심 논문:
- 고혈압 합병증 예측 (Prediction of Hypertension Complications Risk Using Classification Techniques): 국민건강보험 데이터 10,814명. LR/LDA/CART 비교. 의료AI 연구의 출발점.
- 베이지안 네트워크 위험 평가 (Feature selection based on geometric distance for high-dimensional data): 고혈압 진행의 확률적 모델. 그래프 모델의 첫 접촉.
- 프라이버시 보존 예측 모델링: 맥락적 임베딩의 조화 (Privacy-Preserving Predictive Modeling: Harmonization of Contextual Embeddings From Different Sources): 다소스 임베딩 조화의 씨앗. HarmoAE의 전신.
- 기하학적 거리 기반 특성 선택 (Feature selection based on geometric distance for high-dimensional data): MB 너머의 특성 선택 확장.
- 건강 지출 인과성 분석 (Classification of High Dimensionality Data through Feature Selection Using Markov Blanket): 패널 Granger 인과성. 정책 분석 관점의 첫 접촉.
시기의 기여: (1) Markov Blanket 기반 특성 선택의 이론적 기초 확립, (2) 의료 데이터 분석 역량 확보, (3) UCSD 포닥에서 프라이버시 보존 ML이라는 시그니처 연구 영역 발견. “데이터의 이질성과 프라이버시”가 이후 모든 연구의 기본 전제가 됨.
2기: UNIST (2019-2022) — 세 가지 연구 축의 성장
맥락: UNIST 산업공학과 조교수에서 부교수로. 독립적 연구실(D3M Lab) 설립. 세 가지 연구 축이 병행 성장: (1) 연합학습의 이론적 심화, (2) 의료AI의 확장, (3) 기술경영 연구 시작.
핵심 논문 분석:
(4) Connecting Low-Loss Subspace for Personalized Federated Learning (Connecting Low-Loss Subspace for Personalized Federated Learning, KDD)
- 논지: 하이퍼네트워크 기반 모델 혼합으로 개인화된 연합학습. 로컬-글로벌 모델 간 low-loss subspace에서의 연결성(코사인 유사도)을 정규화.
- 통찰: 파라미터 공간이 아닌 loss landscape에서의 모델 혼합이 개인화에 효과적. 비IID 환경(pathological/Dirichlet)에서 우수.
- 위치: 연합학습 연구의 대표작. KDD 최상위 학회 발표. 25회 인용.
(5) Bilingual Autoencoder-Based Efficient Harmonization of Multi-Source Private Data (Bilingual autoencoder-based efficient harmonization of multi-source private data for accurate predictive modeling, Information Sciences)
- 논지: 소스별 분리 인코더 + 공유 히든 공간의 “bilingual” 오토인코더로 다기관 EHR 데이터 조화.
- 통찰: PDPS(Patient Diagnosis Projection Similarity) 메트릭으로 정렬 품질 측정. 3-5개 병원 시나리오에서 검증. “소스별 분리 + 공유 표현”이라는 메타-아키텍처 패턴의 첫 명시적 구현.
- 위치: HarmoAE → HarmoSATE로 이어지는 조화(harmonization) 연구의 기점.
(6) Technology Opportunity Discovery using Deep Learning-based Text Mining and a Knowledge Graph (Technology Opportunity Discovery using Deep Learning-based Text Mining and a Knowledge Graph, TFSC)
- 논지: Doc2Vec 기술 분류 → NTBF 분류 → TOD-KG 생성 → 중심성 기반 emerging technology index 산출의 4단계 프레임워크.
- 통찰: Fintech big data analysis (TOI 1.101), Human-AI collaboration (TOI 1.089)이 최상위 emerging tech으로 식별. 텍스트 마이닝에서 지식 그래프로의 전환.
- 위치: TEMEP 이동의 지적 준비. 기술경영 도메인에서의 첫 본격적 기여. 42회 인용.
(7) Prediction of Type 2 Diabetes Using Genome-Wide Polygenic Risk Score and Metabolic Profiles (Connecting Low-Loss Subspace for Personalized Federated Learning, eBioMedicine)
- 논지: 239,062 유전 변이의 gPRS + 혈청 대사체 + 임상 지표의 다중 모달 통합으로 제2형 당뇨 예측.
- 통찰: 아시아 특이적 gPRS의 유효성 입증. RF로 AUC 0.844 (임상 지표만으로는 0.779). 다중 모달 통합이 단일 모달 대비 0.065 향상.
- 위치: 의료AI의 대표작. 58회 인용. 다중 모달 통합의 실증.
추가 핵심 논문:
- Secure and Differentially Private Logistic Regression (Secure and Differentially Private Logistic Regression for Horizontally Distributed Data, IEEE TIFS): 동형 암호 + 차분 프라이버시. 55회 인용. 프라이버시의 수학적 기반.
- W2V-LSA (Kim & Markov blanket-based universal feature selection for classification and regression of mixed-type data, ESWA): Word2Vec + 구형 k-means. 블록체인 트렌드. 150회 인용. 텍스트 마이닝 방법론.
- MB-Ranking (An efficient multivariate feature ranking method for gene selection in high-dimensional microarray data, ESWA): MB 기반 멀티변량 특성 순위화. 67회 인용. 특성 선택 연구의 완성.
- Mixed-MB (Markov blanket-based universal feature selection for classification and regression of mixed-type data, ESWA): 혼합형 데이터에서의 MB. 특성 선택 범용화.
- RSAE-BA (Kim & Technology Opportunity Discovery using Deep Learning-based Text Mining and a Knowledge Graph, Information Sciences): 위험 점수 내장 오토인코더. 생물학적 나이 추정.
- CML 분자 반응 역학 (Kim & Technology Opportunity Discovery using Deep Learning-based Text Mining and a Knowledge Graph, Neoplasia): 구획 모델 기반 정밀 의학.
시기의 기여: (1) 연합학습에서 개인화 문제의 이론적 해결(SuPerFed), (2) “소스별 분리 + 공유 표현” 메타-아키텍처의 확립(HarmoAE), (3) 기술경영 도메인 진입(TOD), (4) 다중 모달 의료AI 실증(T2D), (5) 특성 선택 연구의 완성(MB-Ranking, Mixed-MB). 가장 학술적으로 생산적이고 임팩트 높은 시기.
3기: SNU TEMEP (2023-2026) — 도메인 폭발과 그래프의 부상
맥락: 2023년 3월 서울대 TEMEP & 자유전공학부 부임. 기술경영 관점이 강화되면서 응용 도메인이 급격히 다변화: 금융, 제조, 대기질, 항만 물류, IoT. 동시에 그래프 ML이 새로운 방법론적 축으로 부상.
핵심 논문 분석:
(8) HarmoSATE: Harmonized Embedding-Based Self-Attentive Encoder (HarmoSATE: Harmonized embedding-based self-attentive encoder to improve accuracy of privacy-preserving federated predictive analysis, Information Sciences)
- 논지: HarmoAE의 확장. Self-attention 메커니즘을 추가하여 연합학습 환경에서의 프라이버시 보존 예측 정확도 개선.
- 위치: 조화(harmonization) 연구선의 성숙. HarmoAE → HarmoSATE의 진화.
(9) CAFO: Feature-Centric Explanation on Time Series Classification (Kim & HarmoSATE: Harmonized embedding-based self-attentive encoder to improve accuracy of privacy-preserving federated predictive analysis, KDD)
- 논지: 시계열 분류에서 특성 중심(feature-centric) 설명 방법 제안. 기존 시점 중심(time-centric) 설명과 차별화.
- 위치: 특성 선택(1기)과 시계열 분석(3기)의 합류. KDD 최상위 학회 발표. 특성의 중요성이라는 1기의 핵심 관심사가 새로운 도메인(시계열)에서 부활.
(10) FT-MixE: Fourier Transform-Based Efficient Mixing of Knowledge Graph Embeddings (FT-MixE: Fourier transform-based efficient mixing of knowledge graph embeddings for improved link prediction, Applied Soft Computing)
- 논지: 푸리에 변환 기반 효율적 지식 그래프 임베딩 혼합. Triple을 “문장”처럼 취급, 2D DFT로 비모수적 혼합.
- 위치: 지식 그래프 연구의 최신 성과. 그래프 ML 축의 성숙.
(11) Federated Gradient Boosting for Financial Fraud Detection (Developing a novel Temporal Air-quality Risk Index using LSTM autoencoder: A case study with South Korean air quality data, CIKM)
- 논지: 은행 부문 사기 탐지를 위한 연합 GBM. 금융 도메인에서의 연합학습 실증.
- 위치: 연합학습의 도메인 확장 (의료 → 금융). 프라이버시 보존의 실무적 수요 입증.
추가 핵심 논문:
- TMF-GNN (TMF-GNN: Temporal matrix factorization-based graph neural network for multivariate time series forecasting with missing values, ESWA): 결측값 있는 다변량 시계열 예측. GNN + 시간적 행렬 분해.
- GCN on Recurrence Plots (A graph convolutional network for time series classification using recurrence plots): 시계열 → recurrence plot → GCN. 그래프 ML의 시계열 응용.
- ITSG-LSTM (Inter-country trade similarity graph-based long short-term memory for port throughput prediction): 무역 유사도 그래프 + LSTM. 항만 물동량 예측. Word2Vec으로 무역 유사도 생성.
- TARI (Federated Gradient Boosting for Financial Fraud Detection: An Empirical Study in the Banking Sector): LSTM 오토인코더 기반 대기질 위험 지수. 환경 도메인 진입.
- Household Financial Health (Kim & Word2Vec-based efficient privacy-preserving shared representation learning for federated recommendation system in a cross-device setting): RI-HAE(위험 정보 내장 오토인코더). RSAE-BA의 금융 버전.
- MMP-Net (Cho & HarmoSATE: Harmonized embedding-based self-attentive encoder to improve accuracy of privacy-preserving federated predictive analysis): 다단계 제조 공정의 피드포워드 신경망. 중간 출력 없는 연속 공정 예측.
- AAgFFL (Pursuing Overall Welfare in Federated Learning through Sequential Decision Making, ICML): 연합학습에서의 공정성. 순차적 의사결정으로 복지 극대화.
- Smart Insoles (Kim & Word2Vec-based efficient privacy-preserving shared representation learning for federated recommendation system in a cross-device setting): 다중 과제 딥러닝으로 활동/속도/체중 추정.
- Fed Recommendation (Word2Vec-based efficient privacy-preserving shared representation learning for federated recommendation system in a cross-device setting): Word2Vec 기반 프라이버시 보존 연합 추천 시스템.
시기의 기여: (1) 응용 도메인의 폭발적 확장(금융, 제조, 대기질, 항만, IoT), (2) 그래프 ML의 새로운 방법론적 축 확립(GCN, TMF-GNN, FT-MixE), (3) 연합학습의 실무 도메인 확장(금융 사기, 추천), (4) 특성 선택과 시계열의 합류(CAFO@KDD), (5) 공정성이라는 새로운 가치 축 추가(AAgFFL@ICML).
2. 지적 실타래
실타래 1: Feature Selection / Markov Blanket (2015→2024)
박사 연구(MB 특성 선택) → 커널 방법 통합(2015) → 혼합형 데이터 확장(2020) → 멀티변량 순위화 완성(2021) → 시계열 특성 설명으로 부활(CAFO 2024). “어떤 변수가 정말 중요한가?”가 일관된 질문.
실타래 2: Privacy-Preserving / Federated Learning (2018→2025)
환자 유사도(2018) → 차분 프라이버시+동형 암호(2020) → HarmoAE 조화(2021) → SuPerFed 개인화(2022) → 연합 추천(2023) → HarmoSATE(2024) → 공정성(2024) → 연합 GBM(2025). 시그니처 영역. “데이터가 이동할 수 없다면, 모델이 이동해야 한다.”
실타래 3: Healthcare AI (2014→2025)
고혈압 예측(2014) → 베이지안 네트워크(2016) → 환자 유사도(2018) → 생물학적 나이(2022) → 당뇨 예측(2022) → CML 정밀의학(2022) → 고비용 환자 예측(2025). 가장 지속적인 응용 도메인. 프라이버시와 이질성 문제의 원천.
실타래 4: Representation Learning (2020→2026)
W2V-LSA(2020) → Doc2Vec/TOD(2022) → HarmoAE/RSAE-BA(2021-2022) → HarmoSATE(2024) → FT-MixE(2026). 통합 방법론. 모든 도메인에서 “좋은 표현”을 만드는 것이 핵심.
실타래 5: Graph-based Methods (2022→2026)
TOD 지식 그래프(2022) → TMF-GNN(2025) → GCN-RP(2025) → ITSG-LSTM(2025) → FT-MixE(2026). 3기에서 급성장. 관계/구조 정보를 활용한 학습.
3. 전환점과 동기
전환점 1: POSTECH → UCSD 포닥 (2017)
특성 선택 전문가가 프라이버시 보존 ML 연구자로 변모. “의료 데이터는 민감하다”는 현실과의 조우. 이정혜 연구의 가장 결정적 전환점.
전환점 2: SuPerFed @ KDD (2022)
연합학습에서 개인화 문제의 이론적 해결. 최상위 학회 발표로 국제적 인지도 확보. “개인화”가 프라이버시와 함께 연구의 핵심 가치로 확립.
전환점 3: UNIST → SNU TEMEP (2023)
기술경영 관점이 강화. 순수 방법론 연구에서 도메인 응용의 폭을 급격히 확장. TOD(2022)가 TEMEP 이동의 지적 준비.
전환점 4: CAFO @ KDD (2024)
1기의 핵심 관심사(특성의 중요성)가 3기의 새로운 도메인(시계열)에서 부활. 10년에 걸친 연구 궤적의 원환적 발전.
4. 지적 DNA
이정혜의 지적 DNA는 “이질적이고 분산된 데이터에서 적합한 표현을 설계하여 신뢰할 수 있는 의사결정을 가능하게 한다”는 핵심 프로젝트이다.
- 현실의 데이터는 깨끗하지도, 한곳에 있지도, 동일한 분포를 따르지도 않는다
- 이 현실을 부정하지 않고, 현실 그대로에서 작동하는 방법론을 설계한다
- 핵심 설계 원칙은 “소스별 분리 처리 + 공유 표현 공간에서의 통합”
- 프라이버시는 제약이 아니라 처음부터 반영해야 할 설계 원칙
- 방법론적 기여가 먼저 오고, 도메인 검증이 따른다. 그러나 실제 데이터 없는 방법론은 불완전
다른 TEMEP 교수와의 대비:
- 이정동: “축적이 혁신에 선행한다” — 거시적, 진화론적, 시간 축
- 서은석: “아키텍처가 행동을 결정한다” — 미시적, 구조적, 공간(연결) 축
- 이정혜: “좋은 표현이 좋은 의사결정의 전제이다” — 데이터 중심, 표현 학습, 프라이버시 축
- 공통: “측정할 수 없으면 이해할 수 없다” — 정량적 지향은 공유하나, 측정 대상과 방법이 다름
See also
- 기술경영경제정책전공
- data-driven-decision-making
- federated-learning
- privacy-preserving-ml
- markov-blanket
- feature-selection
- harmonization
- representation-learning
- knowledge-graph
- graph-neural-network
- medical-ai
- technology-opportunity-discovery
- 이정동
- 서은석
인접 그래프
- 인물 2
- 개관 1
- 방법론 2
- 주제 2
- 강의 4
- 논문 43
이 문서를 가리키는 페이지
논문 (43)
- A Data-Driven Procedure of Providing a Health Promotion Program for Hypertension Prevention
- A graph convolutional network for time series classification using recurrence plots
- A Multi-stage Data Mining Approach for Liquid Bulk Cargo Volume Analysis based on Bill of Lading Data
- A product acceptance decision-making method based on process capability with considering gauge measurement errors
- Acquisition of a series of temperature-varied sample spectra to induce characteristic structural changes of components and selection of target-descriptive variables among them for multivariate analysis to improve accuracy
- An efficient multivariate feature ranking method for gene selection in high-dimensional microarray data
- An Interpersonal Dynamics Analysis Procedure with Accurate Voice Activity Detection Using Low-cost Recording Sensors
- Bilingual autoencoder-based efficient harmonization of multi-source private data for accurate predictive modeling
- CAFO: Feature-Centric Explanation on Time Series Classification
- Causality Analysis for Public and Private Expenditures on Health Using Panel Granger-Causality Test
- Chemistry-informed machine learning: Using chemical property features to improve gas classification performance
- Classification of High Dimensionality Data through Feature Selection Using Markov Blanket
- Connecting Low-Loss Subspace for Personalized Federated Learning
- Convolutional Neural Network-Based Land Cover Classification Using 2-D Spectral Reflectance Curve Graphs With Multitemporal Satellite Imagery
- Deep learning-based monitoring of overshooting cloud tops from geostationary satellite data
- Developing a novel Temporal Air-quality Risk Index using LSTM autoencoder: A case study with South Korean air quality data
- Different Spectral Domain Transformation for Land Cover Classification Using Convolutional Neural Networks with Multi-Temporal Satellite Imagery
- Feature selection based on geometric distance for high-dimensional data
- Federated Gradient Boosting for Financial Fraud Detection: An Empirical Study in the Banking Sector
- FT-MixE: Fourier transform-based efficient mixing of knowledge graph embeddings for improved link prediction
- HarmoSATE: Harmonized embedding-based self-attentive encoder to improve accuracy of privacy-preserving federated predictive analysis
- Household financial health: a machine learning approach for data-driven diagnosis and prescription
- Inter-country trade similarity graph-based long short-term memory for port throughput prediction
- Interleaved Incremental Association Markov Blanket as a Potential Feature Selection Method for Improving Accuracy in Near-Infrared Spectroscopic Analysis
- Kernel-based calibration methods combined with multivariate feature selection to improve accuracy of near-infrared spectroscopic analysis
- Machine learning for disease-specific prediction of high-cost patients
- Markov blanket-based universal feature selection for classification and regression of mixed-type data
- MMP-Net: A feedforward neural network model with sequential inputs for representing continuous multistage manufacturing processes without intermediate outputs
- Multi-task Deep Learning for Human Activity, Speed, and Body Weight Estimation using Commercial Smart Insoles
- Multichannel convolution neural network for gas mixture classification
- Prediction of Hypertension Complications Risk Using Classification Techniques
- Prediction of type 2 diabetes using genome-wide polygenic risk score and metabolic profiles: A machine learning analysis of population-based 10-year prospective cohort study
- Privacy-Preserving Patient Similarity Learning in a Federated Environment: Development and Analysis
- Privacy-Preserving Predictive Modeling: Harmonization of Contextual Embeddings From Different Sources
- Pursuing Overall Welfare in Federated Learning through Sequential Decision Making
- Risk assessment for hypertension and hypertension complications incidences using a Bayesian network
- Risk score-embedded deep learning for biological age estimation: Development and validation
- Secure and Differentially Private Logistic Regression for Horizontally Distributed Data
- Technology Opportunity Discovery using Deep Learning-based Text Mining and a Knowledge Graph
- TMF-GNN: Temporal matrix factorization-based graph neural network for multivariate time series forecasting with missing values
- Using stated-preference data to measure the inconvenience cost of spam among Korean E-mail users
- Word2Vec-based efficient privacy-preserving shared representation learning for federated recommendation system in a cross-device setting
- Word2vec-based latent semantic analysis (W2V-LSA) for topic modeling: A study on blockchain technology trend analysis