Word2vec-based latent semantic analysis (W2V-LSA) for topic modeling: A study on blockchain technology trend analysis
Suhyeon Kim, Haecheong Park, 이정혜 (2020) · Expert Systems with Applications 152:113401 · DOI ↗
이정혜 의 가장 영향력 있는 작업 중 하나 (150 회 인용) — W2V-LSA 새 topic modeling 기법 제안. Word2Vec + spherical-k-means 결합. 블록체인 231 documents 의 국가·시간 별 기술 트렌드 분석. PLSA 와 비교 — 적은 documents 에서 W2V-LSA 가 우수한 주제 일관성 (topic coherence). 기술경영 연구의 출발점 — TEMEP 이동의 지적 준비.
- RQ: 적은 documents 의 기술 트렌드 분석 에 PLSA 대비 더 정확한 주제 모형은? Word2Vec 의 의미 임베딩 을 topic modeling 에 어떻게 활용?
- 방법론: W2V-LSA — Word2Vec 임베딩 + Spherical k-means clustering. PLSA baseline 과 정량·정성 비교
- 데이터: 블록체인 관련 231 documents (국가·연도별 metadata)
- 주요 발견: (1) W2V-LSA > PLSA — 적은 documents 환경에서 topic coherence 우월. (2) 국가별·연도별 블록체인 트렌드 추출 — 금융 응용, 공급망, 헬스케어 등. (3) Word2Vec 의 의미 공간 + Spherical k-means 의 방향성 클러스터링 시너지.
- 시사점: 기술 트렌드 분석 + patent 분석 + 고객 리뷰 분석 등에 적용 가능. BERT 등 advanced embedding 결합 가능성. 이정혜 의 TEMEP 이동의 지적 준비.

요약
이 paper 는 이정혜 의 2 기 UNIST 시기 의 최다 피인용 작업 (150 cite) 중 하나. Suhyeon Kim (제 1 저자) 의 블록체인 기술 트렌드 도메인 + 이정혜 의 방법론 (W2V-LSA) 결합. 기술경영 도메인의 첫 본격적 연구 — TEMEP 이동의 지적 준비.
방법론적 핵심: 2 도구 결합. (i) Word2Vec — 단어를 고차원 벡터 공간 에 임베딩. 의미 관계 (semantic similarity) 가 벡터 거리 로 표현. CBOW 또는 Skip-gram 으로 학습. (ii) spherical-k-means — Euclidean k-means 와 달리 cosine similarity 기반. Word2Vec 임베딩의 방향성 (semantic direction) 보존. 결합: 단어 의미 → 임베딩 → 방향성 클러스터 → topic.
vs PLSA (Probabilistic Latent Semantic Analysis): PLSA 는 bag-of-words + 확률적 latent topic. W2V-LSA 는 semantic embedding + 기하학적 cluster. 적은 documents 환경 (231 docs) 에서 PLSA 가 sparse data 로 약함 — W2V-LSA 는 임베딩 의미 정보 로 보완.
핵심 발견: 블록체인 트렌드 — 금융 응용 (cryptocurrency, ICO), 공급망 (supply chain), 헬스케어 (medical records), IoT 등 클러스터 식별. 국가별 차이 — 미국·중국 중심, 한국 fintech 강세. 시간 변동 — 2014-2018 fintech 집중, 2019 이후 도메인 다변화.
이정혜 의 연구 궤적 안에서 이 paper 는 3 기 TEMEP 이동의 지적 준비. 실타래 4 (Representation Learning) 의 발전. 후속 joong-min-lee-2022-tod-knowledge-graph (2022 TOD 기술기회) 로 기술경영 도메인 본격 진입.
핵심 결과
| 항목 | 값 |
|---|---|
| 인용 수 | 150 |
| 적은 documents (231) topic coherence | W2V-LSA > PLSA |
| 블록체인 트렌드 클러스터 | fintech, 공급망, 헬스케어, IoT |
| 국가별 패턴 | 미국·중국 중심, 한국 fintech 강세 |
| 시간 변동 | fintech (2014-2018) → 다변화 (2019-) |
방법론 노트
W2V-LSA 알고리즘:
1. Train Word2Vec on corpus → word embeddings W ∈ R^{V × d}
2. Document representation: average word embeddings → d ∈ R^d
3. Spherical k-means on document embeddings:
- Normalize: d_i ← d_i / ||d_i||
- Cosine similarity-based clustering
- Update centroids on unit sphere
4. Extract top words per cluster → topic interpretation
spherical-k-means objective: , .
식별 가정: (i) Word2Vec 의 의미 공간 정확성, (ii) Spherical 가정 (unit norm) 의 documents 적합성, (iii) cluster 수 hyperparameter.
연구 계보
이 paper 는 (i) Mikolov et al. (2013) Word2Vec 본가, (ii) Dhillon & Modha (2001) Spherical k-means 본가, (iii) Hofmann (1999) PLSA 정통 — 의 결합. 이정혜 의 연구 궤적 실타래 4 (Representation Learning) 의 발전 + 3 기 TEMEP 이동의 지적 준비.
See also
- 이정혜
- Suhyeon Kim
- Word2Vec
- spherical-k-means
- 토픽 모델링
- Blockchain
- technology-trend-analysis
- Expert Systems with Applications
인접 그래프
- 인물 3
- 방법론 4
- 수록처 1
- 논문 3