Word2vec-based latent semantic analysis (W2V-LSA) for topic modeling: A study on blockchain technology trend analysis

Suhyeon Kim, Haecheong Park, 이정혜 (2020) · Expert Systems with Applications 152:113401 · DOI ↗

이정혜 의 가장 영향력 있는 작업 중 하나 (150 회 인용) — W2V-LSA 새 topic modeling 기법 제안. Word2Vec + spherical-k-means 결합. 블록체인 231 documents 의 국가·시간 별 기술 트렌드 분석. PLSA 와 비교 — 적은 documents 에서 W2V-LSA 가 우수한 주제 일관성 (topic coherence). 기술경영 연구의 출발점 — TEMEP 이동의 지적 준비.

RQ: 적은 documents 의 기술 트렌드 분석 에 PLSA 대비 더 정확한 주제 모형은? Word2Vec 의 의미 임베딩 을 topic modeling 에 어떻게 활용?
방법론: W2V-LSA — Word2Vec 임베딩 + Spherical k-means clustering. PLSA baseline 과 정량·정성 비교
데이터: 블록체인 관련 231 documents (국가·연도별 metadata)
주요 발견: (1) W2V-LSA > PLSA — 적은 documents 환경에서 topic coherence 우월. (2) 국가별·연도별 블록체인 트렌드 추출 — 금융 응용, 공급망, 헬스케어 등. (3) Word2Vec 의 의미 공간 + Spherical k-means 의 방향성 클러스터링 시너지.
시사점: 기술 트렌드 분석 + patent 분석 + 고객 리뷰 분석 등에 적용 가능. BERT 등 advanced embedding 결합 가능성. 이정혜 의 TEMEP 이동의 지적 준비.

Word2Vec 임베딩과 spherical k-means 를 결합한 W2V-LSA 토픽 모델링 파이프라인 도식.

요약

이 paper 는 이정혜 의 2 기 UNIST 시기 의 최다 피인용 작업 (150 cite) 중 하나. Suhyeon Kim (제 1 저자) 의 블록체인 기술 트렌드 도메인 + 이정혜 의 방법론 (W2V-LSA) 결합. 기술경영 도메인의 첫 본격적 연구 — TEMEP 이동의 지적 준비.

방법론적 핵심: 2 도구 결합. (i) Word2Vec — 단어를 고차원 벡터 공간 에 임베딩. 의미 관계 (semantic similarity) 가 벡터 거리 로 표현. CBOW 또는 Skip-gram 으로 학습. (ii) spherical-k-means — Euclidean k-means 와 달리 cosine similarity 기반. Word2Vec 임베딩의 방향성 (semantic direction) 보존. 결합: 단어 의미 → 임베딩 → 방향성 클러스터 → topic.

vs PLSA (Probabilistic Latent Semantic Analysis): PLSA 는 bag-of-words + 확률적 latent topic. W2V-LSA 는 semantic embedding + 기하학적 cluster. 적은 documents 환경 (231 docs) 에서 PLSA 가 sparse data 로 약함 — W2V-LSA 는 임베딩 의미 정보 로 보완.

핵심 발견: 블록체인 트렌드 — 금융 응용 (cryptocurrency, ICO), 공급망 (supply chain), 헬스케어 (medical records), IoT 등 클러스터 식별. 국가별 차이 — 미국·중국 중심, 한국 fintech 강세. 시간 변동 — 2014-2018 fintech 집중, 2019 이후 도메인 다변화.

이정혜 의 연구 궤적 안에서 이 paper 는 3 기 TEMEP 이동의 지적 준비. 실타래 4 (Representation Learning) 의 발전. 후속 joong-min-lee-2022-tod-knowledge-graph (2022 TOD 기술기회) 로 기술경영 도메인 본격 진입.

핵심 결과

항목	값
인용 수	150
적은 documents (231) topic coherence	W2V-LSA > PLSA
블록체인 트렌드 클러스터	fintech, 공급망, 헬스케어, IoT
국가별 패턴	미국·중국 중심, 한국 fintech 강세
시간 변동	fintech (2014-2018) → 다변화 (2019-)

방법론 노트

W2V-LSA 알고리즘:

1. Train Word2Vec on corpus → word embeddings W ∈ R^{V × d}
2. Document representation: average word embeddings → d ∈ R^d
3. Spherical k-means on document embeddings:
   - Normalize: d_i ← d_i / ||d_i||
   - Cosine similarity-based clustering
   - Update centroids on unit sphere
4. Extract top words per cluster → topic interpretation

spherical-k-means objective: $\max \sum_k \sum_{i \in C_k} \cos(d_i, \mu_k)$ , $\|\mu_k\|=1$ .

식별 가정: (i) Word2Vec 의 의미 공간 정확성, (ii) Spherical 가정 (unit norm) 의 documents 적합성, (iii) cluster 수 hyperparameter.

연구 계보

이 paper 는 (i) Mikolov et al. (2013) Word2Vec 본가, (ii) Dhillon & Modha (2001) Spherical k-means 본가, (iii) Hofmann (1999) PLSA 정통 — 의 결합. 이정혜 의 연구 궤적 실타래 4 (Representation Learning) 의 발전 + 3 기 TEMEP 이동의 지적 준비.

인접 그래프

1-hop 이웃 11개

인물 3
방법론 4
수록처 1
논문 3

휠 = 확대/축소 · 드래그 = 이동 · hover = 라벨 · 클릭 = 페이지 이동

이 문서를 가리키는 페이지

논문 (3)

인물 (1)

이정혜