이정혜


📊 이 wiki 에 43 편의 paper · 4 개 강의 에 등장

Jung-hye Lee · 기술경영경제정책전공, Seoul National University

핵심 개념

1. 개념 지도

마스터 개념: Data-Driven Decision Making (데이터 기반 의사결정)

flowchart TD
    M["Data-Driven Decision Making<br/>[마스터 개념]"]
    FS["Feature Selection<br/>[데이터 정제]"]
    RL["Representation Learning<br/>[데이터 표현]"]
    PP["Privacy-Preserving Computation<br/>[데이터 보호]"]
    M --> FS
    M --> RL
    M --> PP
    FS --> MB["Markov Blanket"]
    RL --> EMB["Embeddings (W2V, AE)"]
    RL --> KG["Knowledge Graph"]
    KG --> GNN["GNN"]
    PP --> FL["Federated Learning"]
    FL --> PH["Personalization & Harmonization"]
    PP --> DP["Differential Privacy"]
    classDef master fill:#fff3b0,stroke:#333,stroke-width:2px
    class M master

응용 도메인:

  • Healthcare AI → 질병 위험 예측, 생물학적 나이, 환자 유사도
  • Technology Management → 기술 기회 발견, 트렌드 분석
  • Smart Manufacturing → 다단계 공정 예측, 품질 관리
  • Financial Analytics → 사기 탐지, 가계 재정 건전성
  • Time Series → 시계열 분류/예측/설명

2. 개별 개념 정의

2.1 Markov Blanket (마르코프 블랭킷)

정의: 타겟 변수 T에 대해, 조건부로 다른 모든 변수가 T와 독립이 되게 하는 최소 변수 집합. 베이지안 네트워크에서 부모(parents), 자식(children), 자식의 부모(parents of children)의 합집합. 특성 선택의 이론적으로 최적인 기초. (Classification of High Dimensionality Data through Feature Selection Using Markov Blanket, IEMS)

주요 알고리즘:

핵심 발견: 8개 데이터셋(고차원 마이크로어레이 포함)에서 IAMB이 필터 방법(CFS, MRMR)과 비교하여 경쟁적 성능을 보이면서 극적 차원 축소. MB 기반 멀티변량 순위화가 단변량 순위화보다 6개 암 분류 데이터셋에서 우월. (An efficient multivariate feature ranking method for gene selection in high-dimensional microarray data, ESWA)

사용 맥락: “어떤 변수가 정말 필요한가?”의 질문에 이론적 근거 제공. 고차원 데이터(유전체, 스펙트로스코피)에서 특히 중요.

2.2 Feature Selection (특성 선택)

정의: 고차원 데이터에서 정보를 보존하면서 차원을 축소하는 과정. 세 가지 접근: (1) Filter (분류기 독립, 계산 효율적), (2) Wrapper (분류기 의존, 계산 비용 높음), (3) Embedded (학습 과정에 내장). (Classification of High Dimensionality Data through Feature Selection Using Markov Blanket; Feature selection based on geometric distance for high-dimensional data)

방법론적 도구:

사용 맥락: “데이터의 차원이 높은데 어떤 변수를 선택할 것인가?”에 대한 체계적 답변.

2.3 Federated Learning (연합학습)

정의: 원시 데이터를 공유하지 않고, 모델 파라미터나 집계 결과만을 교환하여 분산 학습하는 프레임워크. 프라이버시 보존과 데이터 거버넌스의 핵심 기술. (Privacy-Preserving Patient Similarity Learning in a Federated Environment: Development and Analysis, JMIR Medical Informatics)

핵심 연구 기여:

핵심 발견: 비IID(non-identical and independently distributed) 데이터 환경에서, 파라미터 공간이 아닌 low-loss subspace에서의 모델 혼합이 개인화에 효과적. 공정성과 성능의 트레이드오프는 순차적 의사결정으로 관리 가능. (Connecting Low-Loss Subspace for Personalized Federated Learning, 2024)

사용 맥락: “데이터를 한곳에 모을 수 없는 상황에서 어떻게 학습하나?“

2.4 Differential Privacy (차분 프라이버시)

정의: 데이터베이스 쿼리 결과에 수학적 노이즈를 추가하여, 개별 데이터 포인트의 포함 여부를 구별 불가능하게 만드는 프라이버시 보장 메커니즘. 프라이버시 예산(ε)으로 보호 수준 정량화. (Secure and Differentially Private Logistic Regression for Horizontally Distributed Data, IEEE TIFS)

핵심 발견: 동형 암호(HEAAN)와 차분 프라이버시를 결합한 분산 로지스틱 회귀(F-SPLR, U-SPLR). PhysioNet, Diabetes 데이터셋에서 실현 가능성 검증. 프라이버시 예산과 모델 정확도 사이의 트레이드오프 정량화. (Word2vec-based latent semantic analysis (W2V-LSA) for topic modeling: A study on blockchain technology trend analysis)

사용 맥락: “프라이버시 보호의 수학적 보장은?”에 대한 답변.

2.5 Harmonization (조화/정렬)

정의: 서로 다른 소스(예: 다른 병원, 다른 기관)에서 수집된 이질적 데이터를 공유 표현 공간으로 정렬하는 과정. 데이터 분포, 변수 정의, 품질 수준이 다른 소스를 통합 가능하게 만듦. (Bilingual autoencoder-based efficient harmonization of multi-source private data for accurate predictive modeling, Information Sciences; HarmoSATE: Harmonized embedding-based self-attentive encoder to improve accuracy of privacy-preserving federated predictive analysis, Information Sciences)

핵심 프레임워크:

통합 패턴: “소스별 분리 처리(separate per-source processing) + 공유 표현 공간에서의 통합(integration in shared representation space).” 이 패턴이 이정혜 연구의 메타-방법론.

사용 맥락: “여러 병원/기관의 데이터를 어떻게 통합하나?“

2.6 Representation Learning (표현 학습)

정의: 원시 데이터를 의사결정에 유용한 표현(임베딩)으로 변환하는 학습. 이정혜 연구의 통합 방법론. (전 시기)

주요 도구:

사용 맥락: “이 데이터를 어떻게 표현할 것인가?”가 모든 연구의 출발점.

2.7 Knowledge Graph (지식 그래프)

정의: 엔티티(노드)와 관계(엣지)로 구조화된 지식 표현. 링크 예측, 추천, 기술 기회 발견 등에 활용. (Technology Opportunity Discovery using Deep Learning-based Text Mining and a Knowledge Graph, TFSC; FT-MixE: Fourier transform-based efficient mixing of knowledge graph embeddings for improved link prediction, Applied Soft Computing)

핵심 연구:

사용 맥락: 기술 트렌드 분석, 추천, 관계 추론이 필요할 때.

2.8 Graph Neural Network (그래프 신경망)

정의: 그래프 구조 데이터에서 노드/엣지/그래프 수준의 학습을 수행하는 신경망. 시계열, 무역 네트워크, 지식 그래프 등 다양한 도메인에 적용. (2022-2026)

핵심 연구:

사용 맥락: “이 데이터에 관계/구조 정보가 있나?”가 GNN 적용 판단 기준.

2.9 Time Series Analysis (시계열 분석)

정의: 시간 순서로 배열된 데이터의 패턴 인식, 분류, 예측, 설명. (2024-2026)

핵심 연구:

사용 맥락: 시간적 패턴, 예측, 이상 탐지가 필요한 문제.

2.10 Healthcare AI (의료 인공지능)

정의: 의료 데이터(EHR, 유전체, 대사체, 임상 지표)에 ML/DL을 적용하여 질병 위험 예측, 진단 보조, 치료 최적화를 수행. 이정혜 연구의 가장 지속적인 응용 도메인 (2014-2025). (전 시기)

핵심 연구:

사용 맥락: 의료 데이터의 특수성(프라이버시, 이질성, 고차원, 불균형)을 항상 고려.

2.11 Personalization (개인화)

정의: 글로벌 모델을 개별 클라이언트/사용자의 로컬 맥락에 적응시키는 과정. 연합학습에서의 핵심 과제. (Connecting Low-Loss Subspace for Personalized Federated Learning)

핵심 메커니즘: SuPerFed의 low-loss subspace에서의 모델 혼합. 하이퍼네트워크가 혼합 상수(λ)를 생성, 로컬-글로벌 모델 간 코사인 유사도로 연결성 정규화. (Connecting Low-Loss Subspace for Personalized Federated Learning)

사용 맥락: “글로벌 모델이 개별 사용자에게 얼마나 적합한가?“

2.12 Multi-modal Integration (다중 모달 통합)

정의: 서로 다른 유형의 데이터(유전체+대사체, 텍스트+그래프, 이미지+시계열)를 결합하여 단일 예측/의사결정에 활용. (전 시기)

핵심 사례: 제2형 당뇨 예측에서 gPRS(239,062 변이) + 혈청 대사체 + 임상 지표의 다중 모달 통합. 단일 모달 대비 AUC 0.065 향상. (Connecting Low-Loss Subspace for Personalized Federated Learning)

2.13 Technology Opportunity Discovery (기술 기회 발견)

정의: 텍스트 마이닝과 지식 그래프를 활용하여 신기술 기회를 체계적으로 발견하는 프레임워크. TEMEP 이동 후 기술경영 관련 연구의 핵심. (Technology Opportunity Discovery using Deep Learning-based Text Mining and a Knowledge Graph, TFSC)

TOD 4단계: (1) Doc2Vec 기술 분류 → (2) NTBF 계층적 분류 → (3) TOD-KG 생성(NTBF-기술-투자자 3종 노드) → (4) 중심성 측정으로 emerging technology index 산출. (Technology Opportunity Discovery using Deep Learning-based Text Mining and a Knowledge Graph)

W2V-LSA: Word2Vec + 구형 k-means로 주제 추출. 블록체인 기술 트렌드 분석. PLSA 대비 우수한 주제 일관성. 150회 인용. (Word2vec-based latent semantic analysis (W2V-LSA) for topic modeling: A study on blockchain technology trend analysis)

2.14 Privacy-Utility Tradeoff (프라이버시-유용성 트레이드오프)

정의: 프라이버시 보호 수준을 높이면 모델 성능(유용성)이 떨어지고, 성능을 높이면 프라이버시가 약화되는 근본적 트레이드오프. (Kim & Markov blanket-based universal feature selection for classification and regression of mixed-type data; Bilingual autoencoder-based efficient harmonization of multi-source private data for accurate predictive modeling, 2024)

관리 방법: (1) 차분 프라이버시의 ε 조정, (2) 조화(harmonization)를 통한 프라이버시 보존 하 정확도 회복, (3) 연합학습으로 원시 데이터 이동 최소화. (전 시기)


3. 개념 간 관계

3.1 전제 관계

  • Feature Selection → 모든 ML 파이프라인: 고차원 데이터에서 특성 선택이 선행되어야 효과적 학습 가능
  • Representation Learning → Harmonization: 공유 표현 공간이 있어야 이질적 소스 정렬 가능
  • Privacy 보장 → Federated Learning 실현: 프라이버시 보장 없으면 데이터 보유자가 참여하지 않음

3.2 상호 강화 관계

  • Markov Blanket ↔ Federated Learning: MB로 핵심 변수를 선택하면 연합학습의 통신 비용과 프라이버시 리스크 감소
  • Harmonization ↔ Healthcare AI: 다기관 의료 데이터의 이질성을 조화가 해결하면 의료 AI 성능 향상
  • Graph ML ↔ Knowledge Graph: GNN이 지식 그래프의 링크 예측과 추론을 수행

3.3 긴장 관계 (핵심 트레이드오프)

  • 프라이버시 vs. 유용성: 프라이버시 예산(ε)을 줄이면 노이즈 증가, 모델 정확도 하락
  • 개인화 vs. 일반화: 개인화를 강화하면 로컬 편향 증가, 일반화 능력 감소 (SuPerFed이 이 긴장을 관리)
  • 공정성 vs. 효율성: 공정성 제약을 강화하면 전체 효율 감소 (AAgFFL이 이 긴장을 관리)
  • 복잡한 모델 vs. 통신 비용: 모델이 복잡해지면 연합학습에서 통신 비용 증가
  • 도메인 특화 vs. 범용성: 도메인에 최적화하면 다른 도메인에의 전이 어려움

4. 방법론적 도구 매핑

도구용도핵심 논문
Markov Blanket (IAMB, Inter-IAMB)이론적 최적 특성 선택Classification of High Dimensionality Data through Feature Selection Using Markov Blanket, 2020, 2021
Word2Vec / Doc2Vec텍스트 임베딩, 주제 모델링Word2vec-based latent semantic analysis (W2V-LSA) for topic modeling: A study on blockchain technology trend analysis, Technology Opportunity Discovery using Deep Learning-based Text Mining and a Knowledge Graph
Autoencoder (AE, VAE)차원 축소, 조화, 표현 학습Bilingual autoencoder-based efficient harmonization of multi-source private data for accurate predictive modeling (HarmoAE), HarmoSATE: Harmonized embedding-based self-attentive encoder to improve accuracy of privacy-preserving federated predictive analysis (HarmoSATE)
Federated Averaging + 개인화분산 학습 + 로컬 적응Connecting Low-Loss Subspace for Personalized Federated Learning (SuPerFed), Pursuing Overall Welfare in Federated Learning through Sequential Decision Making (AAgFFL)
동형 암호 (HEAAN) + DP보안 + 프라이버시 이중 보장Secure and Differentially Private Logistic Regression for Horizontally Distributed Data
GNN (GCN, GAT)그래프 구조 데이터 학습TMF-GNN: Temporal matrix factorization-based graph neural network for multivariate time series forecasting with missing values, A graph convolutional network for time series classification using recurrence plots
LSTM / LSTM-AE시계열 예측, 시간적 패턴Developing a novel Temporal Air-quality Risk Index using LSTM autoencoder: A case study with South Korean air quality data, Inter-country trade similarity graph-based long short-term memory for port throughput prediction
XGBoost / Random Forest표 형식 데이터 분류/회귀Prediction of type 2 diabetes using genome-wide polygenic risk score and metabolic profiles: A machine learning analysis of population-based 10-year prospective cohort study, Federated Gradient Boosting for Financial Fraud Detection: An Empirical Study in the Banking Sector
Knowledge Graph Embedding관계 추론, 링크 예측Technology Opportunity Discovery using Deep Learning-based Text Mining and a Knowledge Graph (TOD), FT-MixE: Fourier transform-based efficient mixing of knowledge graph embeddings for improved link prediction (FT-MixE)
CNN (다채널, 다중과제)이미지/스펙트럼 분류Deep learning-based monitoring of overshooting cloud tops from geostationary satellite data, Multi-task Deep Learning for Human Activity, Speed, and Body Weight Estimation using Commercial Smart Insoles

5. 미해결 긴장과 열린 질문

  1. 연합학습의 확장성: 수천 클라이언트, 극단적 비IID 환경에서 SuPerFed이 유효한가?
  2. 프라이버시 보장의 실질성: ε이 충분히 작을 때 실제 모델 성능이 실용적인가?
  3. 조화의 한계: HarmoAE/HarmoSATE가 근본적으로 다른 특성 공간(예: 유전체 vs. 임상)도 조화 가능한가?
  4. 설명 가능성: CAFO(시계열 설명) 너머, 연합학습/GNN 모델의 설명 가능성은?
  5. 도메인 전이: 의료에서 개발된 방법론이 금융, 제조, 교통에 얼마나 직접 전이 가능한가?

6. 교수의 사고 패턴

6.1 핵심 질문 시퀀스 (데이터 문제를 만나면)

  1. “데이터의 특성은 무엇인가?” (차원, 유형, 분포, 크기)
  2. “데이터가 어디에 있는가?” (중앙집중? 분산? 프라이버시 제약?)
  3. “이질성은 어디에 있는가?” (소스 간 분포 차이, 변수 유형 혼합, 품질 불균일)
  4. “어떤 표현이 적합한가?” (임베딩, 특성 선택, 그래프)
  5. “어떤 메트릭으로 평가할 것인가?” (AUC, F1, 프라이버시 예산, 통신 비용, 공정성)

6.2 표현 > 원시 데이터

원시 데이터를 직접 사용하는 것보다, 적절한 표현(임베딩)으로 변환하는 것이 항상 더 나은 의사결정을 이끈다는 확신.

6.3 “소스별 분리 + 공유 표현” 패턴

HarmoAE(소스별 인코더 + 공유 히든 공간), SuPerFed(클라이언트별 로컬 모델 + 글로벌 모델의 혼합), TOD(NTBF별 분류 + 통합 지식 그래프). 이 아키텍처 패턴이 거의 모든 연구에서 반복.

6.4 방법론 → 도메인 (순서)

방법론적 기여가 먼저 오고, 도메인 응용이 따른다. “이 방법론이 이 도메인에서 작동하는가?”가 기본 질문. 그러나 검증은 반드시 실제 데이터(국민건강보험, KoGES, PhysioNet)로.

6.5 프라이버시를 제약이 아닌 설계 원칙으로

프라이버시를 “극복해야 할 제약”이 아니라 “처음부터 설계에 반영해야 할 원칙”으로 취급. UCSD 포닥에서 형성된 핵심 관점.

연구 궤적

관통 질문: “이질적이고 분산된 데이터에서 어떻게 신뢰할 수 있는 의사결정을 내릴 수 있는가?“


1. 시대 구분

1기: POSTECH/UCSD (2014-2018) — 특성 선택의 이론가에서 프라이버시 공학자로

맥락: POSTECH 산업경영공학 박사(2017). 박사 연구의 핵심은 Markov Blanket 기반 특성 선택. 이후 UC San Diego 생의학정보학에서 Xiaoqian Jiang 지도하에 포닥(2017-2018). 프라이버시 보존 ML에 눈뜨는 결정적 전환기.

핵심 논문 분석:

(1) Classification of High Dimensionality Data through Feature Selection Using Markov Blanket (Classification of High Dimensionality Data through Feature Selection Using Markov Blanket, IEMS)

  • 논지: 3개 MB 알고리즘(IAMB, MMMB, HITON-MB)을 8개 데이터셋에서 필터 방법(CFS, MRMR)과 체계적 비교.
  • 통찰: IAMB이 가장 robust. 고차원 마이크로어레이(2,000-15,114 features, 수십-수백 samples)에서 극적 차원 축소하면서 분류 성능 유지.
  • 위치: 박사 연구의 핵심. 이후 모든 특성 선택 연구의 이론적 기초.

(2) Privacy-Preserving Patient Similarity Learning in a Federated Environment (Privacy-Preserving Patient Similarity Learning in a Federated Environment: Development and Analysis, JMIR Medical Informatics)

  • 논지: 분산된 의료 데이터베이스에서 원시 데이터를 공유하지 않고 환자 유사도를 학습하는 연합학습 프레임워크.
  • 통찰: 다기관 코호트 연구에서 프라이버시 위반 없이 협력 학습이 가능. 189회 인용.
  • 위치: 포닥에서의 전환점. 특성 선택 전문가가 프라이버시 보존 ML 연구자로 변모하는 계기. “데이터가 이동할 수 없다면, 모델이 이동해야 한다.”

(3) Kernel-Based Calibration Methods Combined with Multivariate Feature Selection (Classification of High Dimensionality Data through Feature Selection Using Markov Blanket, Chemometrics)

  • 논지: 커널 PLS/SVR과 특성 선택을 결합하여 근적외선 분광 분석의 정확도 향상.
  • 통찰: VIP Score, Weight Vector Coefficient로 특성 순위화 후 커널 방법 적용. K-SVR-WV가 복잡한 스펙트럼에서 최적.
  • 위치: 특성 선택 방법론의 화학계량학(chemometrics) 응용. 도메인 응용 능력 입증.

추가 핵심 논문:

시기의 기여: (1) Markov Blanket 기반 특성 선택의 이론적 기초 확립, (2) 의료 데이터 분석 역량 확보, (3) UCSD 포닥에서 프라이버시 보존 ML이라는 시그니처 연구 영역 발견. “데이터의 이질성과 프라이버시”가 이후 모든 연구의 기본 전제가 됨.


2기: UNIST (2019-2022) — 세 가지 연구 축의 성장

맥락: UNIST 산업공학과 조교수에서 부교수로. 독립적 연구실(D3M Lab) 설립. 세 가지 연구 축이 병행 성장: (1) 연합학습의 이론적 심화, (2) 의료AI의 확장, (3) 기술경영 연구 시작.

핵심 논문 분석:

(4) Connecting Low-Loss Subspace for Personalized Federated Learning (Connecting Low-Loss Subspace for Personalized Federated Learning, KDD)

  • 논지: 하이퍼네트워크 기반 모델 혼합으로 개인화된 연합학습. 로컬-글로벌 모델 간 low-loss subspace에서의 연결성(코사인 유사도)을 정규화.
  • 통찰: 파라미터 공간이 아닌 loss landscape에서의 모델 혼합이 개인화에 효과적. 비IID 환경(pathological/Dirichlet)에서 우수.
  • 위치: 연합학습 연구의 대표작. KDD 최상위 학회 발표. 25회 인용.

(5) Bilingual Autoencoder-Based Efficient Harmonization of Multi-Source Private Data (Bilingual autoencoder-based efficient harmonization of multi-source private data for accurate predictive modeling, Information Sciences)

  • 논지: 소스별 분리 인코더 + 공유 히든 공간의 “bilingual” 오토인코더로 다기관 EHR 데이터 조화.
  • 통찰: PDPS(Patient Diagnosis Projection Similarity) 메트릭으로 정렬 품질 측정. 3-5개 병원 시나리오에서 검증. “소스별 분리 + 공유 표현”이라는 메타-아키텍처 패턴의 첫 명시적 구현.
  • 위치: HarmoAE → HarmoSATE로 이어지는 조화(harmonization) 연구의 기점.

(6) Technology Opportunity Discovery using Deep Learning-based Text Mining and a Knowledge Graph (Technology Opportunity Discovery using Deep Learning-based Text Mining and a Knowledge Graph, TFSC)

  • 논지: Doc2Vec 기술 분류 → NTBF 분류 → TOD-KG 생성 → 중심성 기반 emerging technology index 산출의 4단계 프레임워크.
  • 통찰: Fintech big data analysis (TOI 1.101), Human-AI collaboration (TOI 1.089)이 최상위 emerging tech으로 식별. 텍스트 마이닝에서 지식 그래프로의 전환.
  • 위치: TEMEP 이동의 지적 준비. 기술경영 도메인에서의 첫 본격적 기여. 42회 인용.

(7) Prediction of Type 2 Diabetes Using Genome-Wide Polygenic Risk Score and Metabolic Profiles (Connecting Low-Loss Subspace for Personalized Federated Learning, eBioMedicine)

  • 논지: 239,062 유전 변이의 gPRS + 혈청 대사체 + 임상 지표의 다중 모달 통합으로 제2형 당뇨 예측.
  • 통찰: 아시아 특이적 gPRS의 유효성 입증. RF로 AUC 0.844 (임상 지표만으로는 0.779). 다중 모달 통합이 단일 모달 대비 0.065 향상.
  • 위치: 의료AI의 대표작. 58회 인용. 다중 모달 통합의 실증.

추가 핵심 논문:

시기의 기여: (1) 연합학습에서 개인화 문제의 이론적 해결(SuPerFed), (2) “소스별 분리 + 공유 표현” 메타-아키텍처의 확립(HarmoAE), (3) 기술경영 도메인 진입(TOD), (4) 다중 모달 의료AI 실증(T2D), (5) 특성 선택 연구의 완성(MB-Ranking, Mixed-MB). 가장 학술적으로 생산적이고 임팩트 높은 시기.


3기: SNU TEMEP (2023-2026) — 도메인 폭발과 그래프의 부상

맥락: 2023년 3월 서울대 TEMEP & 자유전공학부 부임. 기술경영 관점이 강화되면서 응용 도메인이 급격히 다변화: 금융, 제조, 대기질, 항만 물류, IoT. 동시에 그래프 ML이 새로운 방법론적 축으로 부상.

핵심 논문 분석:

(8) HarmoSATE: Harmonized Embedding-Based Self-Attentive Encoder (HarmoSATE: Harmonized embedding-based self-attentive encoder to improve accuracy of privacy-preserving federated predictive analysis, Information Sciences)

  • 논지: HarmoAE의 확장. Self-attention 메커니즘을 추가하여 연합학습 환경에서의 프라이버시 보존 예측 정확도 개선.
  • 위치: 조화(harmonization) 연구선의 성숙. HarmoAE → HarmoSATE의 진화.

(9) CAFO: Feature-Centric Explanation on Time Series Classification (Kim & HarmoSATE: Harmonized embedding-based self-attentive encoder to improve accuracy of privacy-preserving federated predictive analysis, KDD)

  • 논지: 시계열 분류에서 특성 중심(feature-centric) 설명 방법 제안. 기존 시점 중심(time-centric) 설명과 차별화.
  • 위치: 특성 선택(1기)과 시계열 분석(3기)의 합류. KDD 최상위 학회 발표. 특성의 중요성이라는 1기의 핵심 관심사가 새로운 도메인(시계열)에서 부활.

(10) FT-MixE: Fourier Transform-Based Efficient Mixing of Knowledge Graph Embeddings (FT-MixE: Fourier transform-based efficient mixing of knowledge graph embeddings for improved link prediction, Applied Soft Computing)

  • 논지: 푸리에 변환 기반 효율적 지식 그래프 임베딩 혼합. Triple을 “문장”처럼 취급, 2D DFT로 비모수적 혼합.
  • 위치: 지식 그래프 연구의 최신 성과. 그래프 ML 축의 성숙.

(11) Federated Gradient Boosting for Financial Fraud Detection (Developing a novel Temporal Air-quality Risk Index using LSTM autoencoder: A case study with South Korean air quality data, CIKM)

  • 논지: 은행 부문 사기 탐지를 위한 연합 GBM. 금융 도메인에서의 연합학습 실증.
  • 위치: 연합학습의 도메인 확장 (의료 → 금융). 프라이버시 보존의 실무적 수요 입증.

추가 핵심 논문:

시기의 기여: (1) 응용 도메인의 폭발적 확장(금융, 제조, 대기질, 항만, IoT), (2) 그래프 ML의 새로운 방법론적 축 확립(GCN, TMF-GNN, FT-MixE), (3) 연합학습의 실무 도메인 확장(금융 사기, 추천), (4) 특성 선택과 시계열의 합류(CAFO@KDD), (5) 공정성이라는 새로운 가치 축 추가(AAgFFL@ICML).


2. 지적 실타래

실타래 1: Feature Selection / Markov Blanket (2015→2024)

박사 연구(MB 특성 선택) → 커널 방법 통합(2015) → 혼합형 데이터 확장(2020) → 멀티변량 순위화 완성(2021) → 시계열 특성 설명으로 부활(CAFO 2024). “어떤 변수가 정말 중요한가?”가 일관된 질문.

실타래 2: Privacy-Preserving / Federated Learning (2018→2025)

환자 유사도(2018) → 차분 프라이버시+동형 암호(2020) → HarmoAE 조화(2021) → SuPerFed 개인화(2022) → 연합 추천(2023) → HarmoSATE(2024) → 공정성(2024) → 연합 GBM(2025). 시그니처 영역. “데이터가 이동할 수 없다면, 모델이 이동해야 한다.”

실타래 3: Healthcare AI (2014→2025)

고혈압 예측(2014) → 베이지안 네트워크(2016) → 환자 유사도(2018) → 생물학적 나이(2022) → 당뇨 예측(2022) → CML 정밀의학(2022) → 고비용 환자 예측(2025). 가장 지속적인 응용 도메인. 프라이버시와 이질성 문제의 원천.

실타래 4: Representation Learning (2020→2026)

W2V-LSA(2020) → Doc2Vec/TOD(2022) → HarmoAE/RSAE-BA(2021-2022) → HarmoSATE(2024) → FT-MixE(2026). 통합 방법론. 모든 도메인에서 “좋은 표현”을 만드는 것이 핵심.

실타래 5: Graph-based Methods (2022→2026)

TOD 지식 그래프(2022) → TMF-GNN(2025) → GCN-RP(2025) → ITSG-LSTM(2025) → FT-MixE(2026). 3기에서 급성장. 관계/구조 정보를 활용한 학습.


3. 전환점과 동기

전환점 1: POSTECH → UCSD 포닥 (2017)

특성 선택 전문가가 프라이버시 보존 ML 연구자로 변모. “의료 데이터는 민감하다”는 현실과의 조우. 이정혜 연구의 가장 결정적 전환점.

전환점 2: SuPerFed @ KDD (2022)

연합학습에서 개인화 문제의 이론적 해결. 최상위 학회 발표로 국제적 인지도 확보. “개인화”가 프라이버시와 함께 연구의 핵심 가치로 확립.

전환점 3: UNIST → SNU TEMEP (2023)

기술경영 관점이 강화. 순수 방법론 연구에서 도메인 응용의 폭을 급격히 확장. TOD(2022)가 TEMEP 이동의 지적 준비.

전환점 4: CAFO @ KDD (2024)

1기의 핵심 관심사(특성의 중요성)가 3기의 새로운 도메인(시계열)에서 부활. 10년에 걸친 연구 궤적의 원환적 발전.


4. 지적 DNA

이정혜의 지적 DNA는 “이질적이고 분산된 데이터에서 적합한 표현을 설계하여 신뢰할 수 있는 의사결정을 가능하게 한다”는 핵심 프로젝트이다.

  • 현실의 데이터는 깨끗하지도, 한곳에 있지도, 동일한 분포를 따르지도 않는다
  • 이 현실을 부정하지 않고, 현실 그대로에서 작동하는 방법론을 설계한다
  • 핵심 설계 원칙은 “소스별 분리 처리 + 공유 표현 공간에서의 통합”
  • 프라이버시는 제약이 아니라 처음부터 반영해야 할 설계 원칙
  • 방법론적 기여가 먼저 오고, 도메인 검증이 따른다. 그러나 실제 데이터 없는 방법론은 불완전

다른 TEMEP 교수와의 대비:

  • 이정동: “축적이 혁신에 선행한다” — 거시적, 진화론적, 시간 축
  • 서은석: “아키텍처가 행동을 결정한다” — 미시적, 구조적, 공간(연결) 축
  • 이정혜: “좋은 표현이 좋은 의사결정의 전제이다” — 데이터 중심, 표현 학습, 프라이버시 축
  • 공통: “측정할 수 없으면 이해할 수 없다” — 정량적 지향은 공유하나, 측정 대상과 방법이 다름

See also

인접 그래프

1-hop 이웃 54
  • 인물 2
  • 개관 1
  • 방법론 2
  • 주제 2
  • 강의 4
  • 논문 43
서은석이정동기술경영경제정책전공패널 고정효과 모형Word2Vec신뢰할 수 있는 AI진화경제학경영통계론기술 혁신을 위한 데이터 분석기술경영경제정책의사결정방법론대학원논문연구 이정혜
휠 = 확대/축소 · 드래그 = 이동 · hover = 라벨 · 클릭 = 페이지 이동