Word2vec-based latent semantic analysis (W2V-LSA) for topic modeling: A study on blockchain technology trend analysis


Suhyeon Kim, Haecheong Park, 이정혜 (2020) · Expert Systems with Applications 152:113401 · DOI ↗

이정혜가장 영향력 있는 작업 중 하나 (150 회 인용)W2V-LSA 새 topic modeling 기법 제안. Word2Vec + spherical-k-means 결합. 블록체인 231 documents 의 국가·시간 별 기술 트렌드 분석. PLSA 와 비교 — 적은 documents 에서 W2V-LSA 가 우수한 주제 일관성 (topic coherence). 기술경영 연구의 출발점 — TEMEP 이동의 지적 준비.

  • RQ: 적은 documents 의 기술 트렌드 분석 에 PLSA 대비 더 정확한 주제 모형은? Word2Vec의미 임베딩topic modeling 에 어떻게 활용?
  • 방법론: W2V-LSA — Word2Vec 임베딩 + Spherical k-means clustering. PLSA baseline 과 정량·정성 비교
  • 데이터: 블록체인 관련 231 documents (국가·연도별 metadata)
  • 주요 발견: (1) W2V-LSA > PLSA — 적은 documents 환경에서 topic coherence 우월. (2) 국가별·연도별 블록체인 트렌드 추출 — 금융 응용, 공급망, 헬스케어 등. (3) Word2Vec 의 의미 공간 + Spherical k-means 의 방향성 클러스터링 시너지.
  • 시사점: 기술 트렌드 분석 + patent 분석 + 고객 리뷰 분석 등에 적용 가능. BERT 등 advanced embedding 결합 가능성. 이정혜 의 TEMEP 이동의 지적 준비.

Word2Vec 임베딩과 spherical k-means 를 결합한 W2V-LSA 토픽 모델링 파이프라인 도식.

요약

이 paper 는 이정혜2 기 UNIST 시기 의 최다 피인용 작업 (150 cite) 중 하나. Suhyeon Kim (제 1 저자) 의 블록체인 기술 트렌드 도메인 + 이정혜방법론 (W2V-LSA) 결합. 기술경영 도메인의 첫 본격적 연구 — TEMEP 이동의 지적 준비.

방법론적 핵심: 2 도구 결합. (i) Word2Vec — 단어를 고차원 벡터 공간 에 임베딩. 의미 관계 (semantic similarity) 가 벡터 거리 로 표현. CBOW 또는 Skip-gram 으로 학습. (ii) spherical-k-means — Euclidean k-means 와 달리 cosine similarity 기반. Word2Vec 임베딩의 방향성 (semantic direction) 보존. 결합: 단어 의미 → 임베딩 → 방향성 클러스터 → topic.

vs PLSA (Probabilistic Latent Semantic Analysis): PLSA 는 bag-of-words + 확률적 latent topic. W2V-LSA 는 semantic embedding + 기하학적 cluster. 적은 documents 환경 (231 docs) 에서 PLSA 가 sparse data 로 약함 — W2V-LSA 는 임베딩 의미 정보 로 보완.

핵심 발견: 블록체인 트렌드 — 금융 응용 (cryptocurrency, ICO), 공급망 (supply chain), 헬스케어 (medical records), IoT 등 클러스터 식별. 국가별 차이 — 미국·중국 중심, 한국 fintech 강세. 시간 변동 — 2014-2018 fintech 집중, 2019 이후 도메인 다변화.

이정혜연구 궤적 안에서 이 paper 는 3 기 TEMEP 이동의 지적 준비. 실타래 4 (Representation Learning) 의 발전. 후속 joong-min-lee-2022-tod-knowledge-graph (2022 TOD 기술기회) 로 기술경영 도메인 본격 진입.

핵심 결과

항목
인용 수150
적은 documents (231) topic coherenceW2V-LSA > PLSA
블록체인 트렌드 클러스터fintech, 공급망, 헬스케어, IoT
국가별 패턴미국·중국 중심, 한국 fintech 강세
시간 변동fintech (2014-2018) → 다변화 (2019-)

방법론 노트

W2V-LSA 알고리즘:

1. Train Word2Vec on corpus → word embeddings W ∈ R^{V × d}
2. Document representation: average word embeddings → d ∈ R^d
3. Spherical k-means on document embeddings:
   - Normalize: d_i ← d_i / ||d_i||
   - Cosine similarity-based clustering
   - Update centroids on unit sphere
4. Extract top words per cluster → topic interpretation

spherical-k-means objective: maxkiCkcos(di,μk)\max \sum_k \sum_{i \in C_k} \cos(d_i, \mu_k), μk=1\|\mu_k\|=1.

식별 가정: (i) Word2Vec 의 의미 공간 정확성, (ii) Spherical 가정 (unit norm) 의 documents 적합성, (iii) cluster 수 hyperparameter.

연구 계보

이 paper 는 (i) Mikolov et al. (2013) Word2Vec 본가, (ii) Dhillon & Modha (2001) Spherical k-means 본가, (iii) Hofmann (1999) PLSA 정통 — 의 결합. 이정혜연구 궤적 실타래 4 (Representation Learning) 의 발전 + 3 기 TEMEP 이동의 지적 준비.

See also

인접 그래프

1-hop 이웃 11
  • 인물 3
  • 방법론 4
  • 수록처 1
  • 논문 3
이정혜Haecheong ParkSuhyeon Kim텍스트 마이닝토픽 모델링BlockchainWord2VecExpert Systems wi… Word2vec-based latent…
휠 = 확대/축소 · 드래그 = 이동 · hover = 라벨 · 클릭 = 페이지 이동