Feature selection based on geometric distance for high-dimensional data
이정혜, Sung-Yong Oh (2016) · electronics-letters 52(6):473-475 · DOI ↗
고차원 데이터의 클래스 간 기하학적 거리 를 기반으로 특성 선택하는 GDFS (Geometric Distance Feature Selection) 제안. 클래스 평균 거리 + 분포 균등성 을 maximise. 정보 / 통계적 종속성 기반 방법보다 빠른 계산 — 빅데이터 실시간 처리에 적합. 이정혜 의 실타래 1 (Feature Selection) 에서 MB 너머의 기하학적 확장.
- RQ: 고차원 데이터에서 기하학적 거리 가 특성 선택의 효율적 기준이 될 수 있는가? 정보 / 통계적 방법 대비 속도-성능 trade-off는?
- 방법론: GDFS — 클래스 간 기하학적 거리 + 거리 evenness 의 결합 척도
- 데이터: 고차원 분류 datasets (다양)
- 주요 발견: (1) GDFS 가 클래스 평균 거리 + 분포 균등성 동시 maximise → 분류 정확도 개선. (2) 정보 / 통계 기반 방법 (MI, MRMR, MB) 대비 더 빠름. (3) 고차원 특성 공간 탐색에 효과적.
- 시사점: 실시간 빅데이터 처리에 GDFS 활용 가능. MB 의 이론적 최적성 과 기하학적 거리의 계산 효율 의 방법론적 분기.

요약
이 paper 는 이정혜 의 1 기 박사 시기 의 방법론적 분기 — MB 너머의 특성 선택. POSTECH 전자공학과 Sung-Yong Oh 와의 협업. Electronics Letters 의 짧은 letter format (~3 페이지).
방법론적 핵심: 클래스 간 기하학적 거리 + 분포 균등성 의 결합 measure. 특성 의 score = . 평균이 크면서 분포가 균등 한 특성을 우선 선택. 정보 이론 (MI, MRMR) 또는 통계적 종속성 (MB) 기반 방법보다 계산 가볍다.
핵심 발견: 비교 실험 (논문에 명시 X — letter format) 에서 GDFS 가 속도 우위 + 분류 정확도 경쟁력. 고차원 빅데이터 (마이크로어레이, 텍스트, 이미지) 에서 실시간 처리에 적합.
이정혜 의 연구 궤적 안에서 이 paper 는 1 기의 특성 선택 라인의 분기 (geometric), 후속 Markov blanket-based universal feature selection for classification and regression of mixed-type data (MB 혼합형) 와 함께 특성 선택의 다양한 갈래. 그러나 MB 의 이론적 최적성 이 이정혜 의 핵심 라인이고 GDFS 는 implementation 분기.
핵심 결과
| 도구 | 속도 | 정확도 | 적용 |
|---|---|---|---|
| GDFS | 빠름 | 경쟁력 | 빅데이터 실시간 |
| MB-IAMB | 느림 | 우수 | 이론적 최적 |
| MRMR / MI | 중간 | 평균 | 일반 |
방법론 노트
GDFS score:
: 특성 의 클래스 간 평균 거리 (Euclidean 또는 Mahalanobis). : 거리 분포의 균등성 — 한 클래스 pair 에 치우치지 않도록.
식별 가정: (i) 특성 별 독립 평가 (combinatorial interaction 무시), (ii) class label 의 기하학적 분리 가능성, (iii) 거리 메트릭의 적절성.
연구 계보
이 paper 는 (i) Fisher (1936) LDA 의 클래스 간 거리 정통, (ii) Classification of High Dimensionality Data through Feature Selection Using Markov Blanket 직접 선행, (iii) Guyon & Elisseeff (2003) 특성 선택 survey 의 분류 — 의 결합. 이정혜 의 연구 궤적 실타래 1 의 기하학적 분기.
See also
- 이정혜
- Sung-Yong Oh
- feature-selection
- high-dimensional-classification
- electronics-letters
- Classification of High Dimensionality Data through Feature Selection Using Markov Blanket
인접 그래프
- 인물 2
- 방법론 1
- 논문 2