Identifying Interdisciplinary Emergence in the Science of Science: Combination of Network Analysis and BERTopic
Keungoui Kim, Dieter F. Kogler, Sira Maliphol (2024) · Humanities and Social Sciences Communications · DOI ↗
Web of Science Core Collection 의 약 119 만 학제간 (interdisciplinary) 학술 publication metadata 를 science category–subject co-occurrence network 로 모델링하고, Eigenvector centrality (EIG) 와 그 성장률 (EIG.GR) 의 결합으로 dominant science 와 growing/emerging science 를 분리해 식별. 이어 embedding 기반 topic modeling 인 BERTopic (Devlin et al. 2019 의 BERT + UMAP + HDBSCAN + c-TF-IDF) 으로 growing-science publication subset 의 주제를 unsupervised 로 추출, 부상 분야 가 그린·지속가능 기술, 건강·면역, aerospace · marine · remote sensing 같은 글로벌 grand challenge 도메인에 집중함을 보인다. 학제간 지식 재결합 (knowledge recombination) 의 동학을 정량화하는 새로운 도구 제안.
- RQ: 학제간 (interdisciplinary) 과학 연구의 부상 (emergence) 을 frequency-based (canonical bias 위험) 가 아닌 network influence + embedding-based 주제 모델링 으로 식별할 수 있는가? 부상 분야와 지배 분야는 명확히 구분되는가?
- 방법론: 공동출현 네트워크 분석 (science category–subject pair 의 undirected weighted graph), 고유벡터 중심성 (EIG) + 성장률 EIG.GR, BERTopic (BERT embedding + UMAP 차원 축소 + HDBSCAN density clustering + c-TF-IDF representative term)
- 데이터: Web of Science Core Collection (~63M records), 2012-2017 의 LSB · PS · TE 3 카테고리 publication 7,453,987 편 → interdisciplinary (≥2 카테고리) 1,194,332 편 (1,137 journal, 172 subject). 두 시기 분할: 2012-2014 vs 2015-2017. 4 가지 interdisciplinary domain: LSB-TE, LSB-PS, PS-TE, LSB-PS-TE
- 주요 발견: (1) Dominant science (EIG 상위 10%) 와 growing science (EIG.GR 상위 10%) 가 4 도메인 모두에서 명확히 구분 됨 — 즉 현재 지배적 인 분야와 빠르게 부상하는 분야가 다르다. (2) growing-science 의 next-period 평균 EIG = 0.348 vs 그 외 = 0.093 — 현재 EIG.GR 이 미래 영향력의 강한 예측 지표 (path-dependence 가 과학 지식 생산에도 작동). (3) Emerging subject 들의 공통 특징: green/sustainable technology, aerospace · marine · remote sensing, immunology · neurosciences · pharmacology — 글로벌 grand challenge (기후·보건·지구 관측) 와 일치.
- 시사점: STI 정책의 과학 forecasting 에서 단순 빈도 (citation count, publication count) 대신 network centrality 의 성장률 + embedding 기반 주제 식별 을 결합하면 canonical bias 를 피하면서 향후 5 년 안에 부상할 분야를 더 정확히 예측 가능. mRNA 백신처럼 수 십 년 학제간 누적 이 응용 단계에서 결합되는 시점을 사전에 감지하는 도구.
요약
이 paper 는 Sira Maliphol 의 2기 다면적 확장 갈래 중 가장 방법론 기여 중심 의 작업이며 (siramaliphol.md paper #7 분류), Dieter F. Kogler · Keungoui Kim 와의 Kogler 라인 (UCD Spatial Dynamics Lab) 의 학제간 과학 메타데이터 분석을 Sira Maliphol 의 STI 정책 응용 관점과 합류시킨 자리. 과학의 과학 (science of science) 의 핵심 질문 — “어디서 새 분야가 부상하는가” — 를 (i) frequency bias 의 함정과 (ii) predefined local map 의 좁은 시야를 피하면서 global aggregate 데이터에서 풀려는 시도이다.
방법론은 2-stage pipeline. Stage 1: WoS 의 science category–subject (예: A=LSB-TE 의 Environmental Sciences, Engineering Environmental 등 80+ subject) 의 publication-level co-occurrence pair 를 추출해 undirected weighted network 구축 (subject = node, publication = edge). 각 node 의 고유벡터 중심성 (EIG) 계산 — degree centrality 와 달리 연결된 node 의 중요성 까지 가중. 두 시기 (2012-2014, 2015-2017) 의 EIG 값 비교로 EIG 성장률 (EIG.GR) 도출. 상위 10% threshold 로 dominant (현재 영향력 큰) 와 growing (성장률 큰) science 분리. Stage 2: growing-science 의 publication subset 에 BERTopic 적용 — all-MiniLM-L6-v2 384-d embedding → UMAP 차원 축소 → HDBSCAN density clustering → c-TF-IDF 로 cluster representative term 추출. Bag-of-Words 기반 LDA · DTM 과 달리 문맥 보존. 결과는 qualitative validation (대표 publication 의 abstract 검토) 으로 확인.
핵심 발견은 dominant 와 growing 의 명확한 분리 이다. 예: LSB-TE 의 dominant subject 는 Environmental Sciences, Engineering Environmental, Green & Sustainable Science & Technology (이미 두꺼운 영향력) 이나, growing subject 는 Forestry, Materials Science Textiles, Pharmacology & Pharmacy, Medicine Research & Experimental (새로 부상 중). PS-TE 의 growing 은 Engineering Aerospace, Engineering Marine, Water Resources, Engineering Ocean — 지구 관측 + 해양 + 항공우주의 기술 융합 부상. growing-science 의 next-period EIG 평균은 0.348 로 비-growing 의 0.093 보다 3.7배 높아, EIG.GR 자체가 미래 영향력의 강한 예측 지표.
이 paper 는 siramaliphol.md 의 실타래 1 (한국 발전 모델의 확장) 이 아닌 방법론 기여 라인 — 지식 재결합 의 동학을 측정하는 도구 — 의 대표 작업. path-dependence 가 국가·지역 산업 (Eum & Maliphol 2023) 만이 아니라 과학 지식 생산 자체에서도 작동한다는 발견은, Sira Maliphol 의 evolutionary economics 사고가 지식 생산 layer 까지 확장된 자리. 한계: WoS 의 subject 분류 자체가 고정된 schema 라 truly novel (현재 schema 에 없는) 분야의 부상은 포착 못함. social science · humanities 는 citation density 낮아 interdisciplinarity 측정 왜곡 가능.
핵심 결과
| Interdisciplinary 도메인 | 2012-14 Publication 수 | 2015-17 Publication 수 |
|---|---|---|
| LSB-TE | 68,768 | 79,112 |
| LSB-PS | 115,499 | 120,161 |
| PS-TE (가장 활발) | 345,520 | 414,010 |
| LSB-PS-TE (3중 융합) | 25,447 | 25,805 |
| 도메인 | Dominant subjects (top 영향력) | Growing subjects (top 성장률) |
|---|---|---|
| LSB-TE | Environmental Sci, Engineering Environmental, Green & Sustainable, Energy & Fuels | Forestry, Materials Textiles, Pharmacology, Medicine Research |
| LSB-PS | Chemistry Applied, Biochemistry & Mol Bio, Food Sci, Chem Multidisciplinary | Neurosciences, Immunology, Polymer Sci, Paleontology, Microbiology |
| PS-TE | Materials Multidisciplinary, Physics Applied, Nanoscience, Chem Physical | Engineering Aerospace, Green & Sustainable, Engineering Marine, Water Resources, Engineering Ocean |
| LSB-PS-TE | Materials Coatings, Water Resources, Engineering Environmental, CS Interdisciplinary | Automation & Control, Remote Sensing, Imaging Sci, Geosciences, Crystallography |
| 예측력 검증 | Next-period 평균 EIG |
|---|---|
| Growing-science subjects | 0.348 |
| 그 외 subjects | 0.093 |
(Growing-science 의 차세대 EIG 가 3.7배 — EIG.GR 의 path-dependence 입증)
방법론 노트
핵심 도구는 BERTopic 의 4-step 파이프라인:
- Embedding:
all-MiniLM-L6-v2384-d dense vector 변환 (clustering·semantic search 용 범용 모델). - 차원 축소: UMAP (Uniform Manifold Approximation and Projection; McInnes et al. 2016) — 고차원의 manifold 가정 위에서 distance·density 보존.
- Density clustering: HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise) — noise robust + adaptive cluster size.
- Representative term: c-TF-IDF (class-based TF-IDF; Grootendorst 2022).
여기서 는 cluster 내 term 의 빈도, 는 cluster 의 총 단어 수, 은 전체 cluster 수, 는 term 를 포함한 cluster 수. TF-IDF 의 cluster 단위 일반화.
고유벡터 중심성 의 정의:
여기서 는 인접 행렬, 는 최대 eigenvalue, 는 노드 의 이웃 — 즉 영향력 있는 이웃 가진 노드 가 자체로 영향력 큼. 단순 degree centrality 와 달리 질적 (qualitative) 차원의 영향력 측정.
식별 전략: (a) Top 10% threshold 는 skewed scientific network 의 power-law 분포 + 통계적 noise 의 false positive 감소 균형. (b) 3-year period 분할 (2012-14, 2015-17) 은 ranking stability (Archambault et al. 2009) 와 short-term 변화 포착의 균형. (c) document type filter (Article, Journal) 로 quality 통제 + duplication 방지.
연구 계보
이 paper 는 (i) Fortunato et al. (2018) Science 의 Science of Science manifesto, (ii) Chu & Evans (2021) PNAS 의 canonical bias 경고, (iii) Bloom et al. (2020) AER 의 research productivity declining 진단을 받아, (iv) Rotolo et al. (2015) 의 emerging technology indicators framework 과 (v) Curran & Leker (2011), Kogler et al. (2017, 2022) 의 patent co-occurrence network 전통 위에 BERTopic (Grootendorst 2022; BERT — Devlin et al. 2019) 의 embedding-based topic modeling 을 결합한 자리. 학제간 측정 layer 에서는 Leydesdorff (2018), Larivière et al. (2015), Boyack (2017) 의 *interdisciplinarity * variety/similarity balance 가 직접 선행. Sira Maliphol 의 연구 궤적 안에서는 2기 방법론적 기여 의 정점이며 (siramaliphol.md paper #7 — 가장 높은 피인용), Dieter F. Kogler 라인과 Southeast Asian Catch-up Through the Convergence of Trade Structures 의 path-dependent diversification 사고가 과학 지식 생산 으로 확장된 통합점.
See also
- Sira Maliphol
- Keungoui Kim
- Dieter F. Kogler
- BERTopic
- 공동출현 네트워크 분석
- 고유벡터 중심성
- 학제간 과학의 부상
- 지식 재결합
- Southeast Asian Catch-up Through the Convergence of Trade Structures
- Regional Knowledge Capabilities, Entrepreneurial Activity, and Productivity Growth: Evidence from Italian NUTS-3 Regions
- Humanities and Social Sciences Communications
인접 그래프
- 인물 3
- 방법론 3
- 개념 1
- 주제 2
- 수록처 2
- 분류 1
- 논문 4
이 문서를 가리키는 페이지
논문 (3)
- Exploring the Interplay Between Social Distancing, Innovation Adoption, and Privacy Concerns Amid the COVID-19 Crisis
- Regional Knowledge Capabilities, Entrepreneurial Activity, and Productivity Growth: Evidence from Italian NUTS-3 Regions
- Technology convergence capability and firm innovation in the manufacturing sector: an approach based on patent network analysis