이정혜

Jung-hye Lee · 기술경영경제정책전공, Seoul National University

핵심 개념

이정혜의 방법론적 backbone 은 기계학습 과 딥러닝 으로, 특히 프라이버시 보존 ML, 표현 학습, 그래프 기반 학습 의 교차점이 반복적으로 나타나는 핵심 축이다. 아래의 sub-method (Markov Blanket, federated learning, autoencoder, GNN 등) 는 이 축 위에서 작동한다.

개념 지도

마스터 개념: Data-Driven Decision Making (데이터 기반 의사결정)

flowchart TD
    M["Data-Driven Decision Making<br/>[마스터 개념]"]
    FS["Feature Selection<br/>[데이터 정제]"]
    RL["Representation Learning<br/>[데이터 표현]"]
    PP["Privacy-Preserving Computation<br/>[데이터 보호]"]
    M --> FS
    M --> RL
    M --> PP
    FS --> MB["Markov Blanket"]
    RL --> EMB["Embeddings (W2V, AE)"]
    RL --> KG["Knowledge Graph"]
    KG --> GNN["GNN"]
    PP --> FL["Federated Learning"]
    FL --> PH["Personalization & Harmonization"]
    PP --> DP["Differential Privacy"]
    classDef master fill:#fff3b0,stroke:#333,stroke-width:2px
    class M master

응용 도메인:

Healthcare AI → 질병 위험 예측, 생물학적 나이, 환자 유사도
Technology Management → 기술 기회 발견, 트렌드 분석
Smart Manufacturing → 다단계 공정 예측, 품질 관리
Financial Analytics → 사기 탐지, 가계 재정 건전성
Time Series → 시계열 분류/예측/설명

개별 개념 정의

Markov Blanket (마르코프 블랭킷)

정의: 타겟 변수 T에 대해, 조건부로 다른 모든 변수가 T와 독립이 되게 하는 최소 변수 집합. 베이지안 네트워크에서 부모(parents), 자식(children), 자식의 부모(parents of children)의 합집합. 특성 선택의 이론적으로 최적인 기초. (Classification of High Dimensionality Data through Feature Selection Using Markov Blanket, IEMS)

주요 알고리즘:

IAMB (Incremental Association MB): grow-and-shrink 방식. 종속 노드를 추가한 뒤 false positive를 제거. 가장 robust한 성능. (Classification of High Dimensionality Data through Feature Selection Using Markov Blanket)
MMMB (Max-Min MB): divide-and-conquer. 부모-자식 먼저 찾고, 배우자 노드 탐색. (Classification of High Dimensionality Data through Feature Selection Using Markov Blanket)
HITON-MB: 하이브리드. 추가/제거를 단일 루프에서 수행하여 조기 false positive 제거. (Classification of High Dimensionality Data through Feature Selection Using Markov Blanket)
Inter-IAMB: 혼합형 데이터(continuous + categorical)에서의 MB 탐색. 우도비 검정 기반 일반화된 조건부 독립성 검정. (Markov blanket-based universal feature selection for classification and regression of mixed-type data, ESWA)

핵심 발견: 8개 데이터셋(고차원 마이크로어레이 포함)에서 IAMB이 필터 방법(CFS, MRMR)과 비교하여 경쟁적 성능을 보이면서 극적 차원 축소. MB 기반 멀티변량 순위화가 단변량 순위화보다 6개 암 분류 데이터셋에서 우월. (An efficient multivariate feature ranking method for gene selection in high-dimensional microarray data, ESWA)

사용 맥락: “어떤 변수가 정말 필요한가?”의 질문에 이론적 근거 제공. 고차원 데이터(유전체, 스펙트로스코피)에서 특히 중요.

Feature Selection (특성 선택)

정의: 고차원 데이터에서 정보를 보존하면서 차원을 축소하는 과정. 세 가지 접근: (1) Filter (분류기 독립, 계산 효율적), (2) Wrapper (분류기 의존, 계산 비용 높음), (3) Embedded (학습 과정에 내장). (Classification of High Dimensionality Data through Feature Selection Using Markov Blanket; Feature selection based on geometric distance for high-dimensional data)

방법론적 도구:

VIP Score (Variable Importance in Projection): PLS에서 각 변수의 기여도 측정. (Kernel-based calibration methods combined with multivariate feature selection to improve accuracy of near-infrared spectroscopic analysis, Chemometrics)
Weight Vector Coefficients: SVR 기반 순위화. 최적 초평면에서의 크기가 중요도 지표. (Kernel-based calibration methods combined with multivariate feature selection to improve accuracy of near-infrared spectroscopic analysis)
기하학적 거리 기반: 고차원 공간에서의 기하학적 거리로 특성 중요도 측정. (Feature selection based on geometric distance for high-dimensional data, Electronics Letters)
온도 가변 스펙트럼 + MB: 온도 변화로 분광 특징을 유도한 뒤 IAMB로 변수 선택. (Acquisition of a series of temperature-varied sample spectra to induce characteristic structural changes of components and selection of target-descriptive variables among them for multivariate analysis to improve accuracy, Applied Spectroscopy Reviews)
CAFO (Feature-Centric Explanation): 시계열 분류에서 특성 중심 설명. KDD 2024. (CAFO: Feature-Centric Explanation on Time Series Classification)

사용 맥락: “데이터의 차원이 높은데 어떤 변수를 선택할 것인가?”에 대한 체계적 답변.

Federated Learning (연합학습)

정의: 원시 데이터를 공유하지 않고, 모델 파라미터나 집계 결과만을 교환하여 분산 학습하는 프레임워크. 프라이버시 보존과 데이터 거버넌스의 핵심 기술. (Privacy-Preserving Patient Similarity Learning in a Federated Environment: Development and Analysis, JMIR Medical Informatics)

핵심 연구 기여:

SuPerFed (Connecting Low-Loss Subspace): 하이퍼네트워크 기반 모델 혼합. 로컬-글로벌 모델 간 low-loss subspace에서의 연결성(코사인 유사도)을 정규화하여 개인화. SuPerFed-MM(모델 혼합)과 SuPerFed-LM(레이어 혼합) 변종. KDD 2022. (Connecting Low-Loss Subspace for Personalized Federated Learning)
AAgFFL (Pursuing Overall Welfare): 순차적 의사결정을 통한 연합학습에서의 공정성 추구. ICML 2024. (Pursuing Overall Welfare in Federated Learning through Sequential Decision Making)
Federated Gradient Boosting: 금융 사기 탐지를 위한 연합 GBM. 은행 부문 실증. CIKM 2025. (Federated Gradient Boosting for Financial Fraud Detection: An Empirical Study in the Banking Sector)

핵심 발견: 비IID(non-identical and independently distributed) 데이터 환경에서, 파라미터 공간이 아닌 low-loss subspace에서의 모델 혼합이 개인화에 효과적. 공정성과 성능의 트레이드오프는 순차적 의사결정으로 관리 가능. (Connecting Low-Loss Subspace for Personalized Federated Learning, 2024)

사용 맥락: “데이터를 한곳에 모을 수 없는 상황에서 어떻게 학습하나?”

Differential Privacy (차분 프라이버시)

정의: 데이터베이스 쿼리 결과에 수학적 노이즈를 추가하여, 개별 데이터 포인트의 포함 여부를 구별 불가능하게 만드는 프라이버시 보장 메커니즘. 프라이버시 예산(ε)으로 보호 수준 정량화. (Secure and Differentially Private Logistic Regression for Horizontally Distributed Data, IEEE TIFS)

핵심 발견: 동형 암호(HEAAN)와 차분 프라이버시를 결합한 분산 로지스틱 회귀(F-SPLR, U-SPLR). PhysioNet, Diabetes 데이터셋에서 실현 가능성 검증. 프라이버시 예산과 모델 정확도 사이의 트레이드오프 정량화. (Secure and Differentially Private Logistic Regression for Horizontally Distributed Data)

사용 맥락: “프라이버시 보호의 수학적 보장은?”에 대한 답변.

Harmonization (조화/정렬)

정의: 서로 다른 소스(예: 다른 병원, 다른 기관)에서 수집된 이질적 데이터를 공유 표현 공간으로 정렬하는 과정. 데이터 분포, 변수 정의, 품질 수준이 다른 소스를 통합 가능하게 만듦. (Bilingual autoencoder-based efficient harmonization of multi-source private data for accurate predictive modeling, Information Sciences; HarmoSATE: Harmonized embedding-based self-attentive encoder to improve accuracy of privacy-preserving federated predictive analysis, Information Sciences)

핵심 프레임워크:

HarmoAE (Bilingual Autoencoder): 소스별 분리 인코더가 공유 히든 공간으로 매핑. 2단계 학습(사전 학습 → 합동 학습). PDPS(Patient Diagnosis Projection Similarity) 메트릭으로 정렬 품질 측정. 3-5개 병원 시나리오에서 검증. (Bilingual autoencoder-based efficient harmonization of multi-source private data for accurate predictive modeling)
HarmoSATE (Harmonized Self-Attentive Encoder): HarmoAE의 확장. Self-attention 메커니즘으로 임베딩 품질 향상. 연합학습 환경에서의 프라이버시 보존 예측 정확도 개선. (HarmoSATE: Harmonized embedding-based self-attentive encoder to improve accuracy of privacy-preserving federated predictive analysis)

통합 패턴: “소스별 분리 처리(separate per-source processing) + 공유 표현 공간에서의 통합(integration in shared representation space).” 이 패턴이 이정혜 연구의 메타-방법론.

사용 맥락: “여러 병원/기관의 데이터를 어떻게 통합하나?”

Representation Learning (표현 학습)

정의: 원시 데이터를 의사결정에 유용한 표현(임베딩)으로 변환하는 학습. 이정혜 연구의 통합 방법론. (전 시기)

주요 도구:

Word2Vec: 단어를 벡터 공간에 임베딩. W2V-LSA로 블록체인 트렌드 분석(Word2vec-based latent semantic analysis (W2V-LSA) for topic modeling: A study on blockchain technology trend analysis). 연합 추천 시스템에서 프라이버시 보존 공유 표현 학습(Word2Vec-based efficient privacy-preserving shared representation learning for federated recommendation system in a cross-device setting). 무역 유사도 그래프 학습으로 항만 물동량 예측(Inter-country trade similarity graph-based long short-term memory for port throughput prediction).
Doc2Vec: 문서 수준 임베딩. 기술 기회 발견(TOD)에서 기술 분류에 사용(Technology Opportunity Discovery using Deep Learning-based Text Mining and a Knowledge Graph).
Autoencoder: 비선형 차원 축소 + 재구성. RSAE-BA(위험 점수 내장 오토인코더)로 생물학적 나이 추정(Risk score-embedded deep learning for biological age estimation: Development and validation). HarmoAE/HarmoSATE로 다소스 데이터 조화(Bilingual autoencoder-based efficient harmonization of multi-source private data for accurate predictive modeling, HarmoSATE: Harmonized embedding-based self-attentive encoder to improve accuracy of privacy-preserving federated predictive analysis). LSTM 오토인코더로 대기질 위험 지수(Developing a novel Temporal Air-quality Risk Index using LSTM autoencoder: A case study with South Korean air quality data). RI-HAE로 가계 재정 진단(Household financial health: a machine learning approach for data-driven diagnosis and prescription).
GNN Embeddings: 그래프 구조에서의 표현 학습. TMF-GNN(TMF-GNN: Temporal matrix factorization-based graph neural network for multivariate time series forecasting with missing values), FT-MixE(FT-MixE: Fourier transform-based efficient mixing of knowledge graph embeddings for improved link prediction).

사용 맥락: “이 데이터를 어떻게 표현할 것인가?”가 이정혜 연구에서 반복적으로 등장하는 출발 질문이다.

Knowledge Graph (지식 그래프)

정의: 엔티티(노드)와 관계(엣지)로 구조화된 지식 표현. 링크 예측, 추천, 기술 기회 발견 등에 활용. (Technology Opportunity Discovery using Deep Learning-based Text Mining and a Knowledge Graph, TFSC; FT-MixE: Fourier transform-based efficient mixing of knowledge graph embeddings for improved link prediction, Applied Soft Computing)

핵심 연구:

TOD (Technology Opportunity Discovery): NTBF-기술-투자자 3종 노드의 지식 그래프. 중심성 측정으로 emerging technology index 산출. (Technology Opportunity Discovery using Deep Learning-based Text Mining and a Knowledge Graph)
FT-MixE: 푸리에 변환 기반 효율적 지식 그래프 임베딩 혼합. Triple을 “문장”처럼 취급, 2D DFT로 비모수적 혼합. 적은 파라미터로 우수한 링크 예측. (FT-MixE: Fourier transform-based efficient mixing of knowledge graph embeddings for improved link prediction)

사용 맥락: 기술 트렌드 분석, 추천, 관계 추론이 필요할 때.

Graph Neural Network (그래프 신경망)

정의: 그래프 구조 데이터에서 노드/엣지/그래프 수준의 학습을 수행하는 신경망. 시계열, 무역 네트워크, 지식 그래프 등 다양한 도메인에 적용. (2022-2026)

핵심 연구:

TMF-GNN: 시간적 행렬 분해 기반 GNN. 결측값이 있는 다변량 시계열 예측. (TMF-GNN: Temporal matrix factorization-based graph neural network for multivariate time series forecasting with missing values)
GCN on Recurrence Plots: 시계열을 recurrence plot으로 변환한 뒤 GCN으로 분류. (A graph convolutional network for time series classification using recurrence plots)
ITSG-LSTM: 국가 간 무역 유사도 그래프 + LSTM으로 항만 물동량 예측. (Inter-country trade similarity graph-based long short-term memory for port throughput prediction)

사용 맥락: “이 데이터에 관계/구조 정보가 있나?”가 GNN 적용 판단 기준.

Time Series Analysis (시계열 분석)

정의: 시간 순서로 배열된 데이터의 패턴 인식, 분류, 예측, 설명. (2021-2026)

핵심 연구:

CAFO: 시계열 분류에서의 특성 중심 설명(Feature-Centric Explanation). KDD 2024. (CAFO: Feature-Centric Explanation on Time Series Classification)
TMF-GNN: 결측값이 있는 다변량 시계열 예측. (TMF-GNN: Temporal matrix factorization-based graph neural network for multivariate time series forecasting with missing values)
TARI: LSTM 오토인코더 기반 시간적 대기질 위험 지수. (Developing a novel Temporal Air-quality Risk Index using LSTM autoencoder: A case study with South Korean air quality data)
GCN-RP: Recurrence plot + GCN 시계열 분류. (A graph convolutional network for time series classification using recurrence plots)
LBC 다단계 데이터 마이닝: Bill-of-Lading 데이터로 액체 벌크 화물 물동량 예측. (A Multi-stage Data Mining Approach for Liquid Bulk Cargo Volume Analysis based on Bill of Lading Data)

사용 맥락: 시간적 패턴, 예측, 이상 탐지가 필요한 문제.

Healthcare AI (의료 인공지능)

정의: 의료 데이터(EHR, 유전체, 대사체, 임상 지표)에 ML/DL을 적용하여 질병 위험 예측, 진단 보조, 치료 최적화를 수행. 현재 corpus에서 가장 지속적으로 반복되는 응용 도메인 중 하나다. (전 시기)

핵심 연구:

고혈압 합병증 예측: 국민건강보험 데이터 10,814명. LR/LDA/CART 비교. (Prediction of Hypertension Complications Risk Using Classification Techniques)
고혈압 예방을 위한 건강 증진 프로그램: 데이터 기반 개인 맞춤 중재 절차. (A Data-Driven Procedure of Providing a Health Promotion Program for Hypertension Prevention, Service Science)
베이지안 네트워크 고혈압 위험 평가: 고혈압·합병증 발생의 확률 그래프 모형. (Risk assessment for hypertension and hypertension complications incidences using a Bayesian network)
RSAE-BA: 위험 점수 내장 오토인코더로 생물학적 나이 추정. 85,490-140,867명 검증. (Risk score-embedded deep learning for biological age estimation: Development and validation)
제2형 당뇨 예측: 유전체 다유전자 위험 점수(gPRS) + 대사체. AUC 0.844. (Prediction of type 2 diabetes using genome-wide polygenic risk score and metabolic profiles: A machine learning analysis of population-based 10-year prospective cohort study)
고비용 환자 예측: 질병별(disease-specific) ML로 의료 자원 배분 지원. (Machine learning for disease-specific prediction of high-cost patients)
프라이버시 보존 환자 유사도: 연합 환경에서 환자 유사도 학습. (Privacy-Preserving Patient Similarity Learning in a Federated Environment: Development and Analysis)
CML 치료중단 재발 예측: 만성골수성백혈병 환자의 반복 치료중단 시도를 환자별 수리모형으로 분석. (Patient-specific molecular response dynamics can predict the possibility of relapse during the second treatment-free remission attempt in chronic myelogenous leukemia)

사용 맥락: 의료 데이터의 특수성(프라이버시, 이질성, 고차원, 불균형)을 항상 고려.

Personalization (개인화)

정의: 글로벌 모델을 개별 클라이언트/사용자의 로컬 맥락에 적응시키는 과정. 연합학습에서의 핵심 과제. (Connecting Low-Loss Subspace for Personalized Federated Learning)

핵심 메커니즘: SuPerFed의 low-loss subspace에서의 모델 혼합. 하이퍼네트워크가 혼합 상수(λ)를 생성, 로컬-글로벌 모델 간 코사인 유사도로 연결성 정규화. (Connecting Low-Loss Subspace for Personalized Federated Learning)

사용 맥락: “글로벌 모델이 개별 사용자에게 얼마나 적합한가?”

Multi-modal Integration (다중 모달 통합)

정의: 서로 다른 유형의 데이터(유전체+대사체, 텍스트+그래프, 이미지+시계열)를 결합하여 단일 예측/의사결정에 활용. (전 시기)

핵심 사례: 제2형 당뇨 예측에서 gPRS(239,062 변이) + 혈청 대사체 + 임상 지표의 다중 모달 통합. 단일 모달 대비 AUC 0.065 향상. (Prediction of type 2 diabetes using genome-wide polygenic risk score and metabolic profiles: A machine learning analysis of population-based 10-year prospective cohort study)

Technology Opportunity Discovery (기술 기회 발견)

정의: 텍스트 마이닝과 지식 그래프를 활용하여 신기술 기회를 체계적으로 발견하는 프레임워크. TEMEP 이동 후 기술경영 관련 연구의 핵심. (Technology Opportunity Discovery using Deep Learning-based Text Mining and a Knowledge Graph, TFSC)

TOD 4단계: (1) Doc2Vec 기술 분류 → (2) NTBF 계층적 분류 → (3) TOD-KG 생성(NTBF-기술-투자자 3종 노드) → (4) 중심성 측정으로 emerging technology index 산출. (Technology Opportunity Discovery using Deep Learning-based Text Mining and a Knowledge Graph)

W2V-LSA: Word2Vec + 구형 k-means로 주제 추출. 블록체인 기술 트렌드 분석에서 PLSA 대비 높은 주제 일관성을 보인 작업. (Word2vec-based latent semantic analysis (W2V-LSA) for topic modeling: A study on blockchain technology trend analysis)

Privacy-Utility Tradeoff (프라이버시-유용성 트레이드오프)

정의: 프라이버시 보호 수준을 높이면 모델 성능(유용성)이 떨어지고, 성능을 높이면 프라이버시가 약화되는 근본적 트레이드오프. (Secure and Differentially Private Logistic Regression for Horizontally Distributed Data; Bilingual autoencoder-based efficient harmonization of multi-source private data for accurate predictive modeling; HarmoSATE: Harmonized embedding-based self-attentive encoder to improve accuracy of privacy-preserving federated predictive analysis)

관리 방법: (1) 차분 프라이버시의 ε 조정, (2) 조화(harmonization)를 통한 프라이버시 보존 하 정확도 회복, (3) 연합학습으로 원시 데이터 이동 최소화. (전 시기)

개념 간 관계

전제 관계

Feature Selection → 모든 ML 파이프라인: 고차원 데이터에서 특성 선택이 선행되어야 효과적 학습 가능
Representation Learning → Harmonization: 공유 표현 공간이 있어야 이질적 소스 정렬 가능
Privacy 보장 → Federated Learning 실현: 프라이버시 보장 없으면 데이터 보유자가 참여하지 않음

상호 강화 관계

Markov Blanket ↔ Federated Learning: MB로 핵심 변수를 선택하면 연합학습의 통신 비용과 프라이버시 리스크 감소
Harmonization ↔ Healthcare AI: 다기관 의료 데이터의 이질성을 조화가 해결하면 의료 AI 성능 향상
Graph ML ↔ Knowledge Graph: GNN이 지식 그래프의 링크 예측과 추론을 수행

긴장 관계 (핵심 트레이드오프)

프라이버시 vs. 유용성: 프라이버시 예산(ε)을 줄이면 노이즈 증가, 모델 정확도 하락
개인화 vs. 일반화: 개인화를 강화하면 로컬 편향 증가, 일반화 능력 감소 (SuPerFed이 이 긴장을 관리)
공정성 vs. 효율성: 공정성 제약을 강화하면 전체 효율 감소 (AAgFFL이 이 긴장을 관리)
복잡한 모델 vs. 통신 비용: 모델이 복잡해지면 연합학습에서 통신 비용 증가
도메인 특화 vs. 범용성: 도메인에 최적화하면 다른 도메인에의 전이 어려움

방법론적 도구 매핑

도구	용도	핵심 논문
Markov Blanket (IAMB, Inter-IAMB)	이론적 최적 특성 선택	Classification of High Dimensionality Data through Feature Selection Using Markov Blanket, Markov blanket-based universal feature selection for classification and regression of mixed-type data, An efficient multivariate feature ranking method for gene selection in high-dimensional microarray data, Interleaved Incremental Association Markov Blanket as a Potential Feature Selection Method for Improving Accuracy in Near-Infrared Spectroscopic Analysis
Word2Vec / Doc2Vec	텍스트 임베딩, 주제 모델링	Word2vec-based latent semantic analysis (W2V-LSA) for topic modeling: A study on blockchain technology trend analysis, Technology Opportunity Discovery using Deep Learning-based Text Mining and a Knowledge Graph
Autoencoder (AE, VAE)	차원 축소, 조화, 표현 학습	Bilingual autoencoder-based efficient harmonization of multi-source private data for accurate predictive modeling (HarmoAE), HarmoSATE: Harmonized embedding-based self-attentive encoder to improve accuracy of privacy-preserving federated predictive analysis (HarmoSATE), Household financial health: a machine learning approach for data-driven diagnosis and prescription (RI-HAE)
Federated Averaging + 개인화	분산 학습 + 로컬 적응	Connecting Low-Loss Subspace for Personalized Federated Learning (SuPerFed), Pursuing Overall Welfare in Federated Learning through Sequential Decision Making (AAggFF)
동형 암호 (HEAAN) + DP	보안 + 프라이버시 이중 보장	Secure and Differentially Private Logistic Regression for Horizontally Distributed Data
GNN (GCN, GAT)	그래프 구조 데이터 학습	TMF-GNN: Temporal matrix factorization-based graph neural network for multivariate time series forecasting with missing values, A graph convolutional network for time series classification using recurrence plots
LSTM / LSTM-AE	시계열 예측, 시간적 패턴	Developing a novel Temporal Air-quality Risk Index using LSTM autoencoder: A case study with South Korean air quality data, Inter-country trade similarity graph-based long short-term memory for port throughput prediction, A Multi-stage Data Mining Approach for Liquid Bulk Cargo Volume Analysis based on Bill of Lading Data
XGBoost / Random Forest	표 형식 데이터 분류/회귀	Prediction of type 2 diabetes using genome-wide polygenic risk score and metabolic profiles: A machine learning analysis of population-based 10-year prospective cohort study, Federated Gradient Boosting for Financial Fraud Detection: An Empirical Study in the Banking Sector
Knowledge Graph Embedding	관계 추론, 링크 예측	Technology Opportunity Discovery using Deep Learning-based Text Mining and a Knowledge Graph (TOD), FT-MixE: Fourier transform-based efficient mixing of knowledge graph embeddings for improved link prediction (FT-MixE)
CNN (다채널, 다중과제)	이미지/스펙트럼 분류	Deep learning-based monitoring of overshooting cloud tops from geostationary satellite data, Convolutional Neural Network-Based Land Cover Classification Using 2-D Spectral Reflectance Curve Graphs With Multitemporal Satellite Imagery, Different Spectral Domain Transformation for Land Cover Classification Using Convolutional Neural Networks with Multi-Temporal Satellite Imagery, Multichannel convolution neural network for gas mixture classification, Multi-task Deep Learning for Human Activity, Speed, and Body Weight Estimation using Commercial Smart Insoles
화학 정보 기반 ML	도메인 지식 결합 분류	Chemistry-informed machine learning: Using chemical property features to improve gas classification performance, Multichannel convolution neural network for gas mixture classification
Voice Activity Detection (신호처리 + ML)	음성·대화 패턴 분석	An Interpersonal Dynamics Analysis Procedure with Accurate Voice Activity Detection Using Low-cost Recording Sensors
Process Capability + 표본 검사	제조 품질 의사결정	A product acceptance decision-making method based on process capability with considering gauge measurement errors
MMP-Net (Feedforward)	다단계 연속 공정 예측	MMP-Net: A feedforward neural network model with sequential inputs for representing continuous multistage manufacturing processes without intermediate outputs

미해결 긴장과 열린 질문

연합학습의 확장성: 수천 클라이언트, 극단적 비IID 환경에서 SuPerFed이 유효한가?
프라이버시 보장의 실질성: ε이 충분히 작을 때 실제 모델 성능이 실용적인가?
조화의 한계: HarmoAE/HarmoSATE가 근본적으로 다른 특성 공간(예: 유전체 vs. 임상)도 조화 가능한가?
설명 가능성: CAFO(시계열 설명) 너머, 연합학습/GNN 모델의 설명 가능성은?
도메인 전이: 의료에서 개발된 방법론이 금융, 제조, 교통에 얼마나 직접 전이 가능한가?

교수의 사고 패턴

핵심 질문 시퀀스 (데이터 문제를 만나면)

“데이터의 특성은 무엇인가?” (차원, 유형, 분포, 크기)
“데이터가 어디에 있는가?” (중앙집중? 분산? 프라이버시 제약?)
“이질성은 어디에 있는가?” (소스 간 분포 차이, 변수 유형 혼합, 품질 불균일)
“어떤 표현이 적합한가?” (임베딩, 특성 선택, 그래프)
“어떤 메트릭으로 평가할 것인가?” (AUC, F1, 프라이버시 예산, 통신 비용, 공정성)

표현 > 원시 데이터

많은 작업에서 원시 데이터를 직접 쓰기보다 적절한 표현(임베딩)으로 변환하는 설계가 핵심 역할을 한다.

”소스별 분리 + 공유 표현” 패턴

HarmoAE(소스별 인코더 + 공유 히든 공간), SuPerFed(클라이언트별 로컬 모델 + 글로벌 모델의 혼합), TOD(NTBF별 분류 + 통합 지식 그래프). 이 아키텍처 패턴은 이정혜 연구의 여러 핵심 작업에서 반복된다.

방법론 → 도메인 (순서)

방법론적 기여가 먼저 오고, 도메인 응용이 따른다. “이 방법론이 이 도메인에서 작동하는가?”가 기본 질문. 그러나 검증은 반드시 실제 데이터(국민건강보험, KoGES, PhysioNet)로.

프라이버시를 제약이 아닌 설계 원칙으로

프라이버시를 “극복해야 할 제약”이 아니라 “처음부터 설계에 반영해야 할 원칙”으로 취급. UCSD 포닥에서 형성된 핵심 관점.

연구 궤적

관통 질문: “이질적이고 분산된 데이터에서 어떻게 신뢰할 수 있는 의사결정을 내릴 수 있는가?”

시대 구분

1기: POSTECH/UCSD (2014-2018) — 특성 선택의 이론가에서 프라이버시 공학자로

맥락: POSTECH 산업경영공학 박사(2017). 박사 연구의 핵심은 Markov Blanket 기반 특성 선택. 이후 UC San Diego 생의학정보학에서 Xiaoqian Jiang 지도하에 포닥(2017-2018). 프라이버시 보존 ML로 연구 축이 넓어지는 중요한 전환기로 읽을 수 있다.

핵심 논문 분석:

(1) Classification of High Dimensionality Data through Feature Selection Using Markov Blanket (Classification of High Dimensionality Data through Feature Selection Using Markov Blanket, IEMS)

논지: 3개 MB 알고리즘(IAMB, MMMB, HITON-MB)을 8개 데이터셋에서 필터 방법(CFS, MRMR)과 체계적 비교.
통찰: IAMB이 가장 robust. 고차원 마이크로어레이(2,000-15,114 features, 수십-수백 samples)에서 극적 차원 축소하면서 분류 성능 유지.
위치: 박사 연구의 핵심. 이후 모든 특성 선택 연구의 이론적 기초.

(2) Privacy-Preserving Patient Similarity Learning in a Federated Environment (Privacy-Preserving Patient Similarity Learning in a Federated Environment: Development and Analysis, JMIR Medical Informatics)

논지: 분산된 의료 데이터베이스에서 원시 데이터를 공유하지 않고 환자 유사도를 학습하는 연합학습 프레임워크.
통찰: 다기관 코호트 연구에서 프라이버시 위반 없이 협력 학습이 가능.
위치: 포닥에서의 전환점. 특성 선택 전문가가 프라이버시 보존 ML 연구자로 변모하는 계기. “데이터가 이동할 수 없다면, 모델이 이동해야 한다.”

(3) Kernel-Based Calibration Methods Combined with Multivariate Feature Selection (Kernel-based calibration methods combined with multivariate feature selection to improve accuracy of near-infrared spectroscopic analysis, Chemometrics)

논지: 커널 PLS/SVR과 특성 선택을 결합하여 근적외선 분광 분석의 정확도 향상.
통찰: VIP Score, Weight Vector Coefficient로 특성 순위화 후 커널 방법 적용. K-SVR-WV가 복잡한 스펙트럼에서 최적.
위치: 특성 선택 방법론의 화학계량학(chemometrics) 응용. 도메인 응용 능력 입증.

추가 핵심 논문:

고혈압 합병증 예측 (Prediction of Hypertension Complications Risk Using Classification Techniques): 국민건강보험 데이터 10,814명. LR/LDA/CART 비교. 의료AI 연구의 출발점.
베이지안 네트워크 위험 평가 (Risk assessment for hypertension and hypertension complications incidences using a Bayesian network): 고혈압·합병증 진행의 확률 그래프 모형. 그래프 모델의 첫 접촉.
프라이버시 보존 예측 모델링: 맥락적 임베딩의 조화 (Privacy-Preserving Predictive Modeling: Harmonization of Contextual Embeddings From Different Sources): 다소스 임베딩 조화의 씨앗. HarmoAE의 전신.
기하학적 거리 기반 특성 선택 (Feature selection based on geometric distance for high-dimensional data): MB 너머의 특성 선택 확장.
건강 지출 인과성 분석 (Causality Analysis for Public and Private Expenditures on Health Using Panel Granger-Causality Test): 패널 Granger 인과성. OECD 자료로 공공·민간 지출의 상호작용 검증. 정책 분석 관점의 첫 접촉.
온도 가변 분광 + MB (Acquisition of a series of temperature-varied sample spectra to induce characteristic structural changes of components and selection of target-descriptive variables among them for multivariate analysis to improve accuracy): 분광 데이터에서 IAMB 적용. Chang 라인 시작.
Inter-IAMB NIR 분광 (Interleaved Incremental Association Markov Blanket as a Potential Feature Selection Method for Improving Accuracy in Near-Infrared Spectroscopic Analysis): 우도비 검정 기반 MB 발견을 NIR 분광 변수 선택에 적용. Mixed-MB(2020)의 직접적 전신.

시기의 기여: (1) Markov Blanket 기반 특성 선택의 이론적 기초 확립, (2) 의료 데이터 분석 역량 확보, (3) UCSD 포닥을 거치며 프라이버시 보존 ML이 핵심 연구 영역으로 부상. “데이터의 이질성과 프라이버시”가 이후 연구의 반복적 전제가 됨.

2기: UNIST (2019-2022) — 세 가지 연구 축의 성장

맥락: UNIST 산업공학과 조교수에서 부교수로. 독립적 연구실(D3M Lab) 설립. 세 가지 연구 축이 병행 성장: (1) 연합학습의 이론적 심화, (2) 의료AI의 확장, (3) 기술경영 연구 시작.

핵심 논문 분석:

(4) Connecting Low-Loss Subspace for Personalized Federated Learning (Connecting Low-Loss Subspace for Personalized Federated Learning, KDD)

논지: 하이퍼네트워크 기반 모델 혼합으로 개인화된 연합학습. 로컬-글로벌 모델 간 low-loss subspace에서의 연결성(코사인 유사도)을 정규화.
통찰: 파라미터 공간이 아닌 loss landscape에서의 모델 혼합이 개인화에 효과적. 비IID 환경(pathological/Dirichlet)에서 우수.
위치: 연합학습 연구의 대표적 작업. KDD 발표를 통해 개인화 연합학습 라인이 가시화됨.

(5) Bilingual Autoencoder-Based Efficient Harmonization of Multi-Source Private Data (Bilingual autoencoder-based efficient harmonization of multi-source private data for accurate predictive modeling, Information Sciences)

논지: 소스별 분리 인코더 + 공유 히든 공간의 “bilingual” 오토인코더로 다기관 EHR 데이터 조화.
통찰: PDPS(Patient Diagnosis Projection Similarity) 메트릭으로 정렬 품질 측정. 3-5개 병원 시나리오에서 검증. “소스별 분리 + 공유 표현”이라는 메타-아키텍처 패턴의 첫 명시적 구현.
위치: HarmoAE → HarmoSATE로 이어지는 조화(harmonization) 연구의 기점.

(6) Technology Opportunity Discovery using Deep Learning-based Text Mining and a Knowledge Graph (Technology Opportunity Discovery using Deep Learning-based Text Mining and a Knowledge Graph, TFSC)

논지: Doc2Vec 기술 분류 → NTBF 분류 → TOD-KG 생성 → 중심성 기반 emerging technology index 산출의 4단계 프레임워크.
통찰: Fintech big data analysis (TOI 1.101), Human-AI collaboration (TOI 1.089)이 최상위 emerging tech으로 식별. 텍스트 마이닝에서 지식 그래프로의 전환.
위치: TEMEP 이동의 지적 준비로 읽을 수 있는 작업. 기술경영 도메인에서 텍스트 마이닝과 지식 그래프를 결합한 본격적 기여.

(7) Prediction of Type 2 Diabetes Using Genome-Wide Polygenic Risk Score and Metabolic Profiles (Prediction of type 2 diabetes using genome-wide polygenic risk score and metabolic profiles: A machine learning analysis of population-based 10-year prospective cohort study, eBioMedicine)

논지: 239,062 유전 변이의 gPRS + 혈청 대사체 + 임상 지표의 다중 모달 통합으로 제2형 당뇨 예측.
통찰: 아시아 특이적 gPRS의 유효성 입증. RF로 AUC 0.844 (임상 지표만으로는 0.779). 다중 모달 통합이 단일 모달 대비 0.065 향상.
위치: 의료AI의 대표적 작업. 다중 모달 통합의 실증.

추가 핵심 논문:

Secure and Differentially Private Logistic Regression (Secure and Differentially Private Logistic Regression for Horizontally Distributed Data, IEEE TIFS): 동형 암호 + 차분 프라이버시. 프라이버시의 수학적 기반.
W2V-LSA (Word2vec-based latent semantic analysis (W2V-LSA) for topic modeling: A study on blockchain technology trend analysis, ESWA): Word2Vec + 구형 k-means. 블록체인 트렌드 분석에 적용한 텍스트 마이닝 방법론.
MB-Ranking (An efficient multivariate feature ranking method for gene selection in high-dimensional microarray data, ESWA): MB 기반 멀티변량 특성 순위화. 특성 선택 연구의 확장.
CML 치료중단 재발 예측 (Patient-specific molecular response dynamics can predict the possibility of relapse during the second treatment-free remission attempt in chronic myelogenous leukemia, Neoplasia): 만성골수성백혈병 환자의 두 번째 치료중단 시도에서 재발 가능성을 환자별 수리모형으로 예측.
Mixed-MB (Markov blanket-based universal feature selection for classification and regression of mixed-type data, ESWA): 혼합형 데이터에서의 MB. 특성 선택 범용화.
RSAE-BA (Risk score-embedded deep learning for biological age estimation: Development and validation, Information Sciences): 위험 점수 내장 오토인코더. 생물학적 나이 추정.
LBC 다단계 데이터 마이닝 (A Multi-stage Data Mining Approach for Liquid Bulk Cargo Volume Analysis based on Bill of Lading Data, ESWA): Bill-of-Lading 데이터로 울산항 액체 벌크 화물 물동량 예측. ITSG-LSTM(2025)의 직접적 전신.
CNN 기반 land cover 분류 (Convolutional Neural Network-Based Land Cover Classification Using 2-D Spectral Reflectance Curve Graphs With Multitemporal Satellite Imagery, IEEE JSTARS; Different Spectral Domain Transformation for Land Cover Classification Using Convolutional Neural Networks with Multi-Temporal Satellite Imagery, Remote Sensing): 스펙트럼 반사 곡선 → 2D 그래프 CNN. 위성영상 응용 라인.
CNN 기반 overshooting cloud tops 탐지 (Deep learning-based monitoring of overshooting cloud tops from geostationary satellite data, GIScience): 지구정지 위성 데이터로 악기상 사전 탐지.

시기의 기여: (1) 연합학습에서 개인화 문제의 정식화(SuPerFed), (2) “소스별 분리 + 공유 표현” 메타-아키텍처의 확립(HarmoAE), (3) 기술경영 도메인 진입(TOD), (4) 다중 모달 의료AI 실증(T2D), (5) 특성 선택 연구의 확장(MB-Ranking, Mixed-MB). 현재 corpus에서 논문 수와 주제 폭이 크게 늘어난 시기.

3기: SNU TEMEP (2023-2026) — 응용 도메인의 확장과 그래프의 부상

맥락: 2023년 3월 서울대 TEMEP & 자유전공학부 부임. 기술경영 관점이 강화되면서 응용 도메인이 급격히 다변화: 금융, 제조, 대기질, 항만 물류, IoT. 동시에 그래프 ML이 새로운 방법론적 축으로 부상.

핵심 논문 분석:

(8) HarmoSATE: Harmonized Embedding-Based Self-Attentive Encoder (HarmoSATE: Harmonized embedding-based self-attentive encoder to improve accuracy of privacy-preserving federated predictive analysis, Information Sciences)

논지: HarmoAE의 확장. Self-attention 메커니즘을 추가하여 연합학습 환경에서의 프라이버시 보존 예측 정확도 개선.
위치: 조화(harmonization) 연구선의 성숙. HarmoAE → HarmoSATE의 진화.

(9) CAFO: Feature-Centric Explanation on Time Series Classification (CAFO: Feature-Centric Explanation on Time Series Classification, KDD)

논지: 시계열 분류에서 특성 중심(feature-centric) 설명 방법 제안. 기존 시점 중심(time-centric) 설명과 차별화.
위치: 특성 선택(1기)과 시계열 분석(3기)의 합류. KDD 최상위 학회 발표. 특성의 중요성이라는 1기의 핵심 관심사가 새로운 도메인(시계열)에서 부활.

(10) FT-MixE: Fourier Transform-Based Efficient Mixing of Knowledge Graph Embeddings (FT-MixE: Fourier transform-based efficient mixing of knowledge graph embeddings for improved link prediction, Applied Soft Computing)

논지: 푸리에 변환 기반 효율적 지식 그래프 임베딩 혼합. Triple을 “문장”처럼 취급, 2D DFT로 비모수적 혼합.
위치: 지식 그래프 연구의 최근 작업. 그래프 ML 축의 성숙.

(11) Federated Gradient Boosting for Financial Fraud Detection (Federated Gradient Boosting for Financial Fraud Detection: An Empirical Study in the Banking Sector, CIKM)

논지: 은행 부문 사기 탐지를 위한 연합 GBM. 금융 도메인에서의 연합학습 실증.
위치: 연합학습의 도메인 확장 (의료 → 금융). 프라이버시 보존의 실무적 수요 입증.

추가 핵심 논문:

TMF-GNN (TMF-GNN: Temporal matrix factorization-based graph neural network for multivariate time series forecasting with missing values, ESWA): 결측값 있는 다변량 시계열 예측. GNN + 시간적 행렬 분해.
GCN on Recurrence Plots (A graph convolutional network for time series classification using recurrence plots, Applied Intelligence): 시계열 → recurrence plot → GCN. 그래프 ML의 시계열 응용.
ITSG-LSTM (Inter-country trade similarity graph-based long short-term memory for port throughput prediction, EAAI): 무역 유사도 그래프 + LSTM. 항만 물동량 예측. Word2Vec으로 무역 유사도 생성. LBC(2021)의 후속.
TARI (Developing a novel Temporal Air-quality Risk Index using LSTM autoencoder: A case study with South Korean air quality data, STOTEN): LSTM 오토인코더 기반 대기질 위험 지수. 환경 도메인 진입.
고비용 환자 예측 (Machine learning for disease-specific prediction of high-cost patients, EAAI): 질병별(disease-specific) ML로 의료 자원 배분.
Household Financial Health (Household financial health: a machine learning approach for data-driven diagnosis and prescription, Quantitative Finance): RI-HAE(위험 정보 내장 오토인코더). RSAE-BA의 금융 버전.
MMP-Net (MMP-Net: A feedforward neural network model with sequential inputs for representing continuous multistage manufacturing processes without intermediate outputs, IISE Transactions): 다단계 제조 공정의 피드포워드 신경망. 중간 출력 없는 연속 공정 예측.
AAggFF (Pursuing Overall Welfare in Federated Learning through Sequential Decision Making, ICML): 연합학습에서의 공정성. 순차적 의사결정으로 복지 극대화.
Smart Insoles (Multi-task Deep Learning for Human Activity, Speed, and Body Weight Estimation using Commercial Smart Insoles, IEEE IoT Journal): 다중 과제 딥러닝으로 활동/속도/체중 추정.
Fed Recommendation (Word2Vec-based efficient privacy-preserving shared representation learning for federated recommendation system in a cross-device setting, Information Sciences): Word2Vec 기반 프라이버시 보존 연합 추천 시스템.
Voice Activity Detection (An Interpersonal Dynamics Analysis Procedure with Accurate Voice Activity Detection Using Low-cost Recording Sensors, IEEE Access): 저비용 녹음 센서 기반 대화·조직 행동 분석.
Product Acceptance + Gauge Error (A product acceptance decision-making method based on process capability with considering gauge measurement errors, Communications in Statistics): 공정능력지수 기반 제품 합격 판정에 측정오차를 반영.
Chemistry-Informed ML (Chemistry-informed machine learning: Using chemical property features to improve gas classification performance, Chemometrics): 화학적 특성 변수로 가스 분류 성능 개선.
Multichannel CNN for Gas Mixture (Multichannel convolution neural network for gas mixture classification, Annals of OR): 가스 센서 어레이에 다채널 CNN.
Federated Gradient Boosting Fraud (Federated Gradient Boosting for Financial Fraud Detection: An Empirical Study in the Banking Sector, CIKM): 은행 부문 사기 탐지를 위한 연합 GBM.

시기의 기여: (1) 응용 도메인의 확장(금융, 제조, 대기질, 항만, IoT), (2) 그래프 ML의 방법론적 축 강화(GCN, TMF-GNN, FT-MixE), (3) 연합학습의 실무 도메인 확장(금융 사기, 추천), (4) 특성 선택과 시계열의 합류(CAFO@KDD), (5) 공정성이라는 새로운 가치 축 추가(AAgFFL@ICML).

지적 실타래

Feature Selection / Markov Blanket (2015→2024)

박사 연구(MB 특성 선택) → 커널 방법 통합(2015) → 혼합형 데이터 확장(2020) → 멀티변량 순위화 확장(2021) → 시계열 특성 설명으로 재등장(CAFO 2024). “어떤 변수가 정말 중요한가?”가 일관된 질문.

Privacy-Preserving / Federated Learning (2018→2025)

환자 유사도(2018) → 차분 프라이버시+동형 암호(2020) → HarmoAE 조화(2021) → SuPerFed 개인화(2022) → 연합 추천(2023) → HarmoSATE(2024) → 공정성(2024) → 연합 GBM(2025). 반복적으로 나타나는 핵심 영역이다. “데이터가 이동할 수 없다면, 모델이 이동해야 한다.”

Healthcare AI (2014→2025)

고혈압 예측(Prediction of Hypertension Complications Risk Using Classification Techniques) → 베이지안 네트워크(Risk assessment for hypertension and hypertension complications incidences using a Bayesian network) → 환자 유사도(Privacy-Preserving Patient Similarity Learning in a Federated Environment: Development and Analysis) → 고혈압 예방 프로그램(A Data-Driven Procedure of Providing a Health Promotion Program for Hypertension Prevention) → CML 치료중단 재발 예측(Patient-specific molecular response dynamics can predict the possibility of relapse during the second treatment-free remission attempt in chronic myelogenous leukemia) → 생물학적 나이(Risk score-embedded deep learning for biological age estimation: Development and validation) → 당뇨 예측(Prediction of type 2 diabetes using genome-wide polygenic risk score and metabolic profiles: A machine learning analysis of population-based 10-year prospective cohort study) → 고비용 환자 예측(Machine learning for disease-specific prediction of high-cost patients). 현재 corpus에서 가장 오래 지속되는 응용 도메인 중 하나이며, 프라이버시와 이질성 문제의 원천이다.

Representation Learning (2020→2026)

W2V-LSA(2020) → Doc2Vec/TOD(2022) → HarmoAE/RSAE-BA(2021-2022) → HarmoSATE(2024) → FT-MixE(2026). 통합 방법론. 많은 도메인에서 “좋은 표현”을 만드는 것이 핵심.

Graph-based Methods (2022→2026)

TOD 지식 그래프(2022) → TMF-GNN(2025) → GCN-RP(2025) → ITSG-LSTM(2025) → FT-MixE(2026). 3기에서 급성장. 관계/구조 정보를 활용한 학습.

전환점과 동기

POSTECH → UCSD 포닥 (2017)

특성 선택 전문가가 프라이버시 보존 ML 연구자로 이동하는 중요한 시기. “의료 데이터는 민감하다”는 현실과의 조우가 이후 연구 축을 넓힌 것으로 읽을 수 있다.

SuPerFed @ KDD (2022)

연합학습에서 개인화 문제를 low-loss subspace 관점으로 정식화한 작업. KDD 발표를 통해 개인화가 프라이버시와 함께 연구의 핵심 가치로 가시화된다.

UNIST → SNU TEMEP (2023)

기술경영 관점이 강화. 순수 방법론 연구에서 도메인 응용의 폭을 급격히 확장. TOD(2022)가 TEMEP 이동의 지적 준비.

CAFO @ KDD (2024)

1기의 핵심 관심사(특성의 중요성)가 3기의 새로운 도메인(시계열)에서 부활. 10년에 걸친 연구 궤적의 원환적 발전.

지적 DNA

이정혜의 연구는 “이질적이고 분산된 데이터에서 기계학습 으로 적합한 표현을 설계하여 신뢰할 수 있는 의사결정을 가능하게 한다”는 관점으로 읽을 수 있다. 방법론적으로는 딥러닝 (autoencoder, GNN, LSTM) 이 가장 자주 등장하지만, ML 의 전 스펙트럼 (베이지안, 부스팅, 그래프 학습) 을 도구로 활용.

현실의 데이터는 깨끗하지도, 한곳에 있지도, 동일한 분포를 따르지도 않는다
이 현실을 부정하지 않고, 현실 그대로에서 작동하는 방법론을 설계한다
핵심 설계 원칙은 “소스별 분리 처리 + 공유 표현 공간에서의 통합”
프라이버시는 제약이 아니라 처음부터 반영해야 할 설계 원칙
방법론적 기여가 먼저 오고, 도메인 검증이 따른다. 그러나 실제 데이터 없는 방법론은 불완전

다른 교수와의 대비:

이정혜: “좋은 표현이 좋은 의사결정의 전제이다” — 데이터 축, 머신러닝·연합학습
강진아: “외부 지식 전략은 양날의 검이며, 내부 역량과의 적합성이 성패를 가른다” — 관계 축, 전략경영
황준석: “맥락이 정책의 효과를 결정한다” — 제도·맥락 축, ICT 정책
김연배: “기술의 가치는 조건부이다” — 맥락 축, IP·상업화 미시
공통: 데이터·정보 기반 의사결정을 다룬다. 측정 대상과 단위가 다르다 — 이정혜: 분산·이질적 raw data 의 표현 학습 (privacy-by-design), 강진아: 조직 간 지식 흐름과 흡수 역량, 황준석: 네트워크·플랫폼의 효율성 지표, 김연배: 신기술의 소비자 가치와 IP 보호
차이: 이정혜 에게 반복적으로 나타나는 특징은 “소스별 분리 + 공유 표현 공간에서의 통합”이라는 메타-아키텍처다. 데이터가 한 곳에 모일 수 없는 현실에서 모델이 이동하는 설계. 프라이버시를 제약이 아니라 처음부터 설계 원칙으로 내재화한다는 점이 다른 세 교수와 구별되는 인식론적 출발점이다

인접 그래프

1-hop 이웃 86개

인물 5
개관 1
방법론 17
개념 3
주제 11
강의 4
분류 1
논문 44

휠 = 확대/축소 · 드래그 = 이동 · hover = 강조 · 클릭 = 페이지 이동

이정혜

핵심 개념

개념 지도

개별 개념 정의

Markov Blanket (마르코프 블랭킷)

Feature Selection (특성 선택)

Federated Learning (연합학습)

Differential Privacy (차분 프라이버시)

Harmonization (조화/정렬)

Representation Learning (표현 학습)

Knowledge Graph (지식 그래프)

Graph Neural Network (그래프 신경망)

Time Series Analysis (시계열 분석)

Healthcare AI (의료 인공지능)

Personalization (개인화)

Multi-modal Integration (다중 모달 통합)

Technology Opportunity Discovery (기술 기회 발견)

Privacy-Utility Tradeoff (프라이버시-유용성 트레이드오프)

개념 간 관계

전제 관계

상호 강화 관계

긴장 관계 (핵심 트레이드오프)

방법론적 도구 매핑

미해결 긴장과 열린 질문

교수의 사고 패턴

핵심 질문 시퀀스 (데이터 문제를 만나면)

표현 > 원시 데이터

”소스별 분리 + 공유 표현” 패턴

방법론 → 도메인 (순서)

프라이버시를 제약이 아닌 설계 원칙으로

연구 궤적

시대 구분

1기: POSTECH/UCSD (2014-2018) — 특성 선택의 이론가에서 프라이버시 공학자로

2기: UNIST (2019-2022) — 세 가지 연구 축의 성장

3기: SNU TEMEP (2023-2026) — 응용 도메인의 확장과 그래프의 부상

지적 실타래

Feature Selection / Markov Blanket (2015→2024)

Privacy-Preserving / Federated Learning (2018→2025)

Healthcare AI (2014→2025)

Representation Learning (2020→2026)

Graph-based Methods (2022→2026)

전환점과 동기

POSTECH → UCSD 포닥 (2017)

SuPerFed @ KDD (2022)

UNIST → SNU TEMEP (2023)

CAFO @ KDD (2024)

지적 DNA

인접 그래프

이 문서를 가리키는 페이지

논문 (44)

강의 (4)

개념 (3)

방법론 (16)

인물 (5)

주제 (11)

개관 (1)