Markov blanket-based universal feature selection for classification and regression of mixed-type data
이정혜, Jun-Yong Jeong, Chi-Hyuck Jun (2020) · Expert Systems with Applications 158:113398 · DOI ↗
이정혜 의 실타래 1 (Feature Selection / MB) 의 발전 — Mixed-MB: 혼합형 데이터 (continuous + categorical) 에 적용 가능한 universal MB 특성 선택 방법. Likelihood ratio-based 일반화 CI test 를 inter-iamb 에 embed. 기존 MB 방법의 단일 type 한계 극복하면서 이론적 건전성·단순성·속도·범용성 유지. 분류 + 회귀 동시 처리.
- RQ: 기존 markov-blanket 특성 선택의 단일 type (categorical 또는 continuous) 한계 를 혼합형 데이터 로 확장 가능한가? 분류·회귀 모두에 universal 한 방법은?
- 방법론: Mixed-MB = LR-based 일반화 CI test + inter-iamb 알고리즘
- 데이터: 실세계 혼합형 데이터셋 (UCI 등)
- 주요 발견: (1) 분류·회귀 모두에서 효과적 — universal feature selection. (2) 적은 변수로 더 정확한 예측 모형. (3) 기존 single-type MB 의 이론적 강점 (건전성·단순·속도·범용) 유지. (4) Likelihood ratio 가 categorical + continuous 의 조건부 독립 일반화.
- 시사점: 실세계 데이터의 대부분이 혼합형 — Mixed-MB 가 expert / intelligent system 에 universal feature selection 도구. 의료, 금융, 제조 등 도메인 무관.

요약
이 paper 는 이정혜 의 2 기 UNIST 시기 의 MB 특성 선택 연구의 정점. Classification of High Dimensionality Data through Feature Selection Using Markov Blanket (3 MB 비교) + Interleaved Incremental Association Markov Blanket as a Potential Feature Selection Method for Improving Accuracy in Near-Infrared Spectroscopic Analysis (inter-IAMB + LR) 의 결합 + 범용화.
방법론적 핵심: 2 가지 일반화. (i) 혼합형 데이터 (mixed-type) — 기존 MB 방법이 categorical (G^2 test) 또는 continuous (partial correlation) 만 처리. Likelihood ratio test 가 두 유형 모두 + 혼합 처리. (ii) 분류 + 회귀 (universal) — categorical target → classification, continuous target → regression. 동일 MB 알고리즘으로 둘 다 처리.
LR-based generalized CI test: 검정에 Mixed regression 활용. 의 type 에 따라 logistic 또는 linear regression 으로 modeled. Full model (X 포함) vs Nested model (X 제외) 의 likelihood ratio 가 으로 asymptotic distribution.
핵심 발견: 분류·회귀 다양한 실세계 데이터에서 Mixed-MB > 기존 single-type MB > 필터 baseline. 적은 변수로 더 정확한 예측. Mixed-MB 의 universal 응용성 입증 — 도메인 무관 expert system 에 통합 가능.
이정혜 의 연구 궤적 안에서 이 paper 는 실타래 1 (Feature Selection / MB) 의 정점. MB algorithm 자체의 일반화. 후속 An efficient multivariate feature ranking method for gene selection in high-dimensional microarray data (2021 멀티변량 순위화) 로 알고리즘 확장 시리즈 의 또 한 단계.
핵심 결과
| 데이터 type | 기존 single-type MB | Mixed-MB |
|---|---|---|
| All categorical | OK | OK |
| All continuous | OK (다른 알고리즘) | OK |
| Mixed-type | X | OK |
| Classification | OK | OK |
| Regression | (다른 알고리즘) | OK (동일 framework) |
방법론 노트
LR-based generalized CI test:
type:
- Categorical → logistic regression
- Continuous → linear regression
asymptotically (df = parameters difference). if threshold.
Mixed-MB = LR-CI test + Inter-IAMB 의 grow-shrink interleaving.
식별 가정: (i) LR 의 asymptotic , (ii) Faithfulness, (iii) sample size 충분 (LR test 의 power).
연구 계보
이 paper 는 (i) Classification of High Dimensionality Data through Feature Selection Using Markov Blanket + Interleaved Incremental Association Markov Blanket as a Potential Feature Selection Method for Improving Accuracy in Near-Infrared Spectroscopic Analysis 직접 선행, (ii) Tsamardinos & Aliferis (2003) MB 정통, (iii) Friedman et al. (1998) likelihood ratio CI test — 의 결합. 이정혜 의 연구 궤적 실타래 1 (Feature Selection / MB) 의 정점.
See also
- 이정혜
- Chi-Hyuck Jun
- markov-blanket
- inter-iamb
- likelihood-ratio-test
- feature-selection
- mixed-type-data
- Expert Systems with Applications
- Classification of High Dimensionality Data through Feature Selection Using Markov Blanket
- Interleaved Incremental Association Markov Blanket as a Potential Feature Selection Method for Improving Accuracy in Near-Infrared Spectroscopic Analysis
인접 그래프
- 인물 3
- 방법론 1
- 수록처 1
- 논문 4
이 문서를 가리키는 페이지
논문 (4)
- An efficient multivariate feature ranking method for gene selection in high-dimensional microarray data
- Classification of High Dimensionality Data through Feature Selection Using Markov Blanket
- Feature selection based on geometric distance for high-dimensional data
- Interleaved Incremental Association Markov Blanket as a Potential Feature Selection Method for Improving Accuracy in Near-Infrared Spectroscopic Analysis