Markov blanket-based universal feature selection for classification and regression of mixed-type data


이정혜, Jun-Yong Jeong, Chi-Hyuck Jun (2020) · Expert Systems with Applications 158:113398 · DOI ↗

이정혜실타래 1 (Feature Selection / MB) 의 발전Mixed-MB: 혼합형 데이터 (continuous + categorical) 에 적용 가능한 universal MB 특성 선택 방법. Likelihood ratio-based 일반화 CI testinter-iamb 에 embed. 기존 MB 방법의 단일 type 한계 극복하면서 이론적 건전성·단순성·속도·범용성 유지. 분류 + 회귀 동시 처리.

  • RQ: 기존 markov-blanket 특성 선택의 단일 type (categorical 또는 continuous) 한계혼합형 데이터 로 확장 가능한가? 분류·회귀 모두에 universal 한 방법은?
  • 방법론: Mixed-MB = LR-based 일반화 CI test + inter-iamb 알고리즘
  • 데이터: 실세계 혼합형 데이터셋 (UCI 등)
  • 주요 발견: (1) 분류·회귀 모두에서 효과적 — universal feature selection. (2) 적은 변수로 더 정확한 예측 모형. (3) 기존 single-type MB 의 이론적 강점 (건전성·단순·속도·범용) 유지. (4) Likelihood ratio 가 categorical + continuous조건부 독립 일반화.
  • 시사점: 실세계 데이터의 대부분이 혼합형 — Mixed-MB 가 expert / intelligent systemuniversal feature selection 도구. 의료, 금융, 제조 등 도메인 무관.

혼합형 데이터의 분류·회귀 universal 특성 선택을 위한 Mixed-MB 알고리즘 구조.

요약

이 paper 는 이정혜2 기 UNIST 시기 의 MB 특성 선택 연구의 정점. Classification of High Dimensionality Data through Feature Selection Using Markov Blanket (3 MB 비교) + Interleaved Incremental Association Markov Blanket as a Potential Feature Selection Method for Improving Accuracy in Near-Infrared Spectroscopic Analysis (inter-IAMB + LR) 의 결합 + 범용화.

방법론적 핵심: 2 가지 일반화. (i) 혼합형 데이터 (mixed-type) — 기존 MB 방법이 categorical (G^2 test) 또는 continuous (partial correlation) 만 처리. Likelihood ratio test 가 두 유형 모두 + 혼합 처리. (ii) 분류 + 회귀 (universal) — categorical target → classification, continuous target → regression. 동일 MB 알고리즘으로 둘 다 처리.

LR-based generalized CI test: XYZX \perp Y | Z 검정에 Mixed regression 활용. YY 의 type 에 따라 logistic 또는 linear regression 으로 modeled. Full model (X 포함) vs Nested model (X 제외) 의 likelihood ratio 가 χ2\chi^2 으로 asymptotic distribution.

핵심 발견: 분류·회귀 다양한 실세계 데이터에서 Mixed-MB > 기존 single-type MB > 필터 baseline. 적은 변수로 더 정확한 예측. Mixed-MB 의 universal 응용성 입증 — 도메인 무관 expert system 에 통합 가능.

이정혜연구 궤적 안에서 이 paper 는 실타래 1 (Feature Selection / MB) 의 정점. MB algorithm 자체의 일반화. 후속 An efficient multivariate feature ranking method for gene selection in high-dimensional microarray data (2021 멀티변량 순위화) 로 알고리즘 확장 시리즈 의 또 한 단계.

핵심 결과

데이터 type기존 single-type MBMixed-MB
All categoricalOKOK
All continuousOK (다른 알고리즘)OK
Mixed-typeXOK
ClassificationOKOK
Regression(다른 알고리즘)OK (동일 framework)

방법론 노트

LR-based generalized CI test:

Λ=2[logL(full: X,Z predict Y)logL(nested: Z alone)]\Lambda = 2[\log L(\text{full: } X, Z \text{ predict } Y) - \log L(\text{nested: } Z \text{ alone})]

YY type:

  • Categorical → logistic regression
  • Continuous → linear regression

Λχdf2\Lambda \sim \chi^2_{df} asymptotically (df = parameters difference). XYZX \perp Y | Z if Λ<\Lambda < threshold.

Mixed-MB = LR-CI test + Inter-IAMB 의 grow-shrink interleaving.

식별 가정: (i) LR 의 asymptotic χ2\chi^2, (ii) Faithfulness, (iii) sample size 충분 (LR test 의 power).

연구 계보

이 paper 는 (i) Classification of High Dimensionality Data through Feature Selection Using Markov Blanket + Interleaved Incremental Association Markov Blanket as a Potential Feature Selection Method for Improving Accuracy in Near-Infrared Spectroscopic Analysis 직접 선행, (ii) Tsamardinos & Aliferis (2003) MB 정통, (iii) Friedman et al. (1998) likelihood ratio CI test — 의 결합. 이정혜연구 궤적 실타래 1 (Feature Selection / MB) 의 정점.

See also

인접 그래프

1-hop 이웃 9
  • 인물 3
  • 방법론 1
  • 수록처 1
  • 논문 4
이정혜Chi-Hyuck JunJun-Yong Jeong기계학습Expert Systems wi… Markov blanket-based …
휠 = 확대/축소 · 드래그 = 이동 · hover = 라벨 · 클릭 = 페이지 이동