Feature selection based on geometric distance for high-dimensional data


이정혜, Sung-Yong Oh (2016) · electronics-letters 52(6):473-475 · DOI ↗

고차원 데이터의 클래스 간 기하학적 거리 를 기반으로 특성 선택하는 GDFS (Geometric Distance Feature Selection) 제안. 클래스 평균 거리 + 분포 균등성 을 maximise. 정보 / 통계적 종속성 기반 방법보다 빠른 계산 — 빅데이터 실시간 처리에 적합. 이정혜실타래 1 (Feature Selection) 에서 MB 너머의 기하학적 확장.

  • RQ: 고차원 데이터에서 기하학적 거리 가 특성 선택의 효율적 기준이 될 수 있는가? 정보 / 통계적 방법 대비 속도-성능 trade-off는?
  • 방법론: GDFS — 클래스 간 기하학적 거리 + 거리 evenness 의 결합 척도
  • 데이터: 고차원 분류 datasets (다양)
  • 주요 발견: (1) GDFS 가 클래스 평균 거리 + 분포 균등성 동시 maximise → 분류 정확도 개선. (2) 정보 / 통계 기반 방법 (MI, MRMR, MB) 대비 더 빠름. (3) 고차원 특성 공간 탐색에 효과적.
  • 시사점: 실시간 빅데이터 처리에 GDFS 활용 가능. MB 의 이론적 최적성기하학적 거리의 계산 효율방법론적 분기.

고차원 데이터의 기하학적 거리 기반 특성 선택 (GDFS) 알고리즘 구조.

요약

이 paper 는 이정혜1 기 박사 시기방법론적 분기 — MB 너머의 특성 선택. POSTECH 전자공학과 Sung-Yong Oh 와의 협업. Electronics Letters짧은 letter format (~3 페이지).

방법론적 핵심: 클래스 간 기하학적 거리 + 분포 균등성 의 결합 measure. 특성 ff 의 score = dˉcls(f)Evenness(d(f))\bar{d}_{cls}(f) \cdot \text{Evenness}(d(f)). 평균이 크면서 분포가 균등 한 특성을 우선 선택. 정보 이론 (MI, MRMR) 또는 통계적 종속성 (MB) 기반 방법보다 계산 가볍다.

핵심 발견: 비교 실험 (논문에 명시 X — letter format) 에서 GDFS 가 속도 우위 + 분류 정확도 경쟁력. 고차원 빅데이터 (마이크로어레이, 텍스트, 이미지) 에서 실시간 처리에 적합.

이정혜연구 궤적 안에서 이 paper 는 1 기의 특성 선택 라인의 분기 (geometric), 후속 Markov blanket-based universal feature selection for classification and regression of mixed-type data (MB 혼합형) 와 함께 특성 선택의 다양한 갈래. 그러나 MB 의 이론적 최적성이정혜 의 핵심 라인이고 GDFS 는 implementation 분기.

핵심 결과

도구속도정확도적용
GDFS빠름경쟁력빅데이터 실시간
MB-IAMB느림우수이론적 최적
MRMR / MI중간평균일반

방법론 노트

GDFS score:

Score(f)=dˉclass(f)Evenness({dk(f)}k=1K)\text{Score}(f) = \bar{d}_{\text{class}}(f) \cdot \text{Evenness}(\{d_k(f)\}_{k=1}^K)

dˉclass(f)\bar{d}_{\text{class}}(f): 특성 ff 의 클래스 간 평균 거리 (Euclidean 또는 Mahalanobis). Evenness\text{Evenness}: 거리 분포의 균등성 — 한 클래스 pair 에 치우치지 않도록.

식별 가정: (i) 특성 별 독립 평가 (combinatorial interaction 무시), (ii) class label 의 기하학적 분리 가능성, (iii) 거리 메트릭의 적절성.

연구 계보

이 paper 는 (i) Fisher (1936) LDA 의 클래스 간 거리 정통, (ii) Classification of High Dimensionality Data through Feature Selection Using Markov Blanket 직접 선행, (iii) Guyon & Elisseeff (2003) 특성 선택 survey 의 분류 — 의 결합. 이정혜연구 궤적 실타래 1기하학적 분기.

See also

인접 그래프

1-hop 이웃 5
  • 인물 2
  • 방법론 1
  • 논문 2
이정혜Sung-Yong Oh기계학습 Feature selection bas…
휠 = 확대/축소 · 드래그 = 이동 · hover = 라벨 · 클릭 = 페이지 이동