Identifying Interdisciplinary Emergence in the Science of Science: Combination of Network Analysis and BERTopic


Keungoui Kim, Dieter F. Kogler, Sira Maliphol (2024) · Humanities and Social Sciences Communications · DOI ↗

Web of Science Core Collection 의 약 119 만 학제간 (interdisciplinary) 학술 publication metadata 를 science category–subject co-occurrence network 로 모델링하고, Eigenvector centrality (EIG) 와 그 성장률 (EIG.GR) 의 결합으로 dominant sciencegrowing/emerging science 를 분리해 식별. 이어 embedding 기반 topic modeling 인 BERTopic (Devlin et al. 2019 의 BERT + UMAP + HDBSCAN + c-TF-IDF) 으로 growing-science publication subset 의 주제를 unsupervised 로 추출, 부상 분야그린·지속가능 기술, 건강·면역, aerospace · marine · remote sensing 같은 글로벌 grand challenge 도메인에 집중함을 보인다. 학제간 지식 재결합 (knowledge recombination) 의 동학을 정량화하는 새로운 도구 제안.

  • RQ: 학제간 (interdisciplinary) 과학 연구의 부상 (emergence) 을 frequency-based (canonical bias 위험) 가 아닌 network influence + embedding-based 주제 모델링 으로 식별할 수 있는가? 부상 분야와 지배 분야는 명확히 구분되는가?
  • 방법론: 공동출현 네트워크 분석 (science category–subject pair 의 undirected weighted graph), 고유벡터 중심성 (EIG) + 성장률 EIG.GR, BERTopic (BERT embedding + UMAP 차원 축소 + HDBSCAN density clustering + c-TF-IDF representative term)
  • 데이터: Web of Science Core Collection (~63M records), 2012-2017 의 LSB · PS · TE 3 카테고리 publication 7,453,987 편 → interdisciplinary (≥2 카테고리) 1,194,332 편 (1,137 journal, 172 subject). 두 시기 분할: 2012-2014 vs 2015-2017. 4 가지 interdisciplinary domain: LSB-TE, LSB-PS, PS-TE, LSB-PS-TE
  • 주요 발견: (1) Dominant science (EIG 상위 10%) 와 growing science (EIG.GR 상위 10%) 가 4 도메인 모두에서 명확히 구분 됨 — 즉 현재 지배적 인 분야와 빠르게 부상하는 분야가 다르다. (2) growing-science 의 next-period 평균 EIG = 0.348 vs 그 외 = 0.093 — 현재 EIG.GR 이 미래 영향력의 강한 예측 지표 (path-dependence 가 과학 지식 생산에도 작동). (3) Emerging subject 들의 공통 특징: green/sustainable technology, aerospace · marine · remote sensing, immunology · neurosciences · pharmacology — 글로벌 grand challenge (기후·보건·지구 관측) 와 일치.
  • 시사점: STI 정책의 과학 forecasting 에서 단순 빈도 (citation count, publication count) 대신 network centrality 의 성장률 + embedding 기반 주제 식별 을 결합하면 canonical bias 를 피하면서 향후 5 년 안에 부상할 분야를 더 정확히 예측 가능. mRNA 백신처럼 수 십 년 학제간 누적 이 응용 단계에서 결합되는 시점을 사전에 감지하는 도구.

요약

이 paper 는 Sira Maliphol2기 다면적 확장 갈래 중 가장 방법론 기여 중심 의 작업이며 (siramaliphol.md paper #7 분류), Dieter F. Kogler · Keungoui Kim 와의 Kogler 라인 (UCD Spatial Dynamics Lab) 의 학제간 과학 메타데이터 분석을 Sira MalipholSTI 정책 응용 관점과 합류시킨 자리. 과학의 과학 (science of science) 의 핵심 질문 — “어디서 새 분야가 부상하는가” — 를 (i) frequency bias 의 함정과 (ii) predefined local map 의 좁은 시야를 피하면서 global aggregate 데이터에서 풀려는 시도이다.

방법론은 2-stage pipeline. Stage 1: WoS 의 science category–subject (예: A=LSB-TE 의 Environmental Sciences, Engineering Environmental 등 80+ subject) 의 publication-level co-occurrence pair 를 추출해 undirected weighted network 구축 (subject = node, publication = edge). 각 node 의 고유벡터 중심성 (EIG) 계산 — degree centrality 와 달리 연결된 node 의 중요성 까지 가중. 두 시기 (2012-2014, 2015-2017) 의 EIG 값 비교로 EIG 성장률 (EIG.GR) 도출. 상위 10% threshold 로 dominant (현재 영향력 큰) 와 growing (성장률 큰) science 분리. Stage 2: growing-science 의 publication subset 에 BERTopic 적용 — all-MiniLM-L6-v2 384-d embedding → UMAP 차원 축소 → HDBSCAN density clustering → c-TF-IDF 로 cluster representative term 추출. Bag-of-Words 기반 LDA · DTM 과 달리 문맥 보존. 결과는 qualitative validation (대표 publication 의 abstract 검토) 으로 확인.

핵심 발견은 dominant 와 growing 의 명확한 분리 이다. 예: LSB-TE 의 dominant subject 는 Environmental Sciences, Engineering Environmental, Green & Sustainable Science & Technology (이미 두꺼운 영향력) 이나, growing subject 는 Forestry, Materials Science Textiles, Pharmacology & Pharmacy, Medicine Research & Experimental (새로 부상 중). PS-TE 의 growing 은 Engineering Aerospace, Engineering Marine, Water Resources, Engineering Ocean — 지구 관측 + 해양 + 항공우주의 기술 융합 부상. growing-science 의 next-period EIG 평균은 0.348 로 비-growing 의 0.093 보다 3.7배 높아, EIG.GR 자체가 미래 영향력의 강한 예측 지표.

이 paper 는 siramaliphol.md 의 실타래 1 (한국 발전 모델의 확장) 이 아닌 방법론 기여 라인 — 지식 재결합 의 동학을 측정하는 도구 — 의 대표 작업. path-dependence국가·지역 산업 (Eum & Maliphol 2023) 만이 아니라 과학 지식 생산 자체에서도 작동한다는 발견은, Sira Malipholevolutionary economics 사고가 지식 생산 layer 까지 확장된 자리. 한계: WoS 의 subject 분류 자체가 고정된 schematruly novel (현재 schema 에 없는) 분야의 부상은 포착 못함. social science · humanities 는 citation density 낮아 interdisciplinarity 측정 왜곡 가능.

핵심 결과

Interdisciplinary 도메인2012-14 Publication 수2015-17 Publication 수
LSB-TE68,76879,112
LSB-PS115,499120,161
PS-TE (가장 활발)345,520414,010
LSB-PS-TE (3중 융합)25,44725,805
도메인Dominant subjects (top 영향력)Growing subjects (top 성장률)
LSB-TEEnvironmental Sci, Engineering Environmental, Green & Sustainable, Energy & FuelsForestry, Materials Textiles, Pharmacology, Medicine Research
LSB-PSChemistry Applied, Biochemistry & Mol Bio, Food Sci, Chem MultidisciplinaryNeurosciences, Immunology, Polymer Sci, Paleontology, Microbiology
PS-TEMaterials Multidisciplinary, Physics Applied, Nanoscience, Chem PhysicalEngineering Aerospace, Green & Sustainable, Engineering Marine, Water Resources, Engineering Ocean
LSB-PS-TEMaterials Coatings, Water Resources, Engineering Environmental, CS InterdisciplinaryAutomation & Control, Remote Sensing, Imaging Sci, Geosciences, Crystallography
예측력 검증Next-period 평균 EIG
Growing-science subjects0.348
그 외 subjects0.093

(Growing-science 의 차세대 EIG 가 3.7배 — EIG.GR 의 path-dependence 입증)

방법론 노트

핵심 도구는 BERTopic 의 4-step 파이프라인:

  1. Embedding: all-MiniLM-L6-v2 384-d dense vector 변환 (clustering·semantic search 용 범용 모델).
  2. 차원 축소: UMAP (Uniform Manifold Approximation and Projection; McInnes et al. 2016) — 고차원의 manifold 가정 위에서 distance·density 보존.
  3. Density clustering: HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise) — noise robust + adaptive cluster size.
  4. Representative term: c-TF-IDF (class-based TF-IDF; Grootendorst 2022).
c-TF-IDFx=tfx,cwc×logNDw\text{c-TF-IDF}_x = \frac{tf_{x,c}}{w_c} \times \log \frac{N}{D_{w}}

여기서 tfx,ctf_{x,c} 는 cluster cc 내 term xx 의 빈도, wcw_c 는 cluster cc 의 총 단어 수, NN 은 전체 cluster 수, DwD_w 는 term ww 를 포함한 cluster 수. TF-IDF 의 cluster 단위 일반화.

고유벡터 중심성 의 정의:

xi=1λjN(i)Aijxjx_i = \frac{1}{\lambda} \sum_{j \in N(i)} A_{ij} x_j

여기서 AijA_{ij} 는 인접 행렬, λ\lambda 는 최대 eigenvalue, N(i)N(i) 는 노드 ii 의 이웃 — 즉 영향력 있는 이웃 가진 노드 가 자체로 영향력 큼. 단순 degree centrality 와 달리 질적 (qualitative) 차원의 영향력 측정.

식별 전략: (a) Top 10% threshold 는 skewed scientific network 의 power-law 분포 + 통계적 noise 의 false positive 감소 균형. (b) 3-year period 분할 (2012-14, 2015-17) 은 ranking stability (Archambault et al. 2009) 와 short-term 변화 포착의 균형. (c) document type filter (Article, Journal) 로 quality 통제 + duplication 방지.

연구 계보

이 paper 는 (i) Fortunato et al. (2018) Science 의 Science of Science manifesto, (ii) Chu & Evans (2021) PNAS 의 canonical bias 경고, (iii) Bloom et al. (2020) AER 의 research productivity declining 진단을 받아, (iv) Rotolo et al. (2015) 의 emerging technology indicators framework 과 (v) Curran & Leker (2011), Kogler et al. (2017, 2022) 의 patent co-occurrence network 전통 위에 BERTopic (Grootendorst 2022; BERT — Devlin et al. 2019) 의 embedding-based topic modeling 을 결합한 자리. 학제간 측정 layer 에서는 Leydesdorff (2018), Larivière et al. (2015), Boyack (2017) 의 *interdisciplinarity * variety/similarity balance 가 직접 선행. Sira Maliphol연구 궤적 안에서는 2기 방법론적 기여 의 정점이며 (siramaliphol.md paper #7 — 가장 높은 피인용), Dieter F. Kogler 라인과 Southeast Asian Catch-up Through the Convergence of Trade Structurespath-dependent diversification 사고가 과학 지식 생산 으로 확장된 통합점.

See also

인접 그래프

1-hop 이웃 16
  • 인물 3
  • 방법론 3
  • 개념 1
  • 주제 2
  • 수록처 2
  • 분류 1
  • 논문 4
Dieter F. KoglerKeungoui KimSira Maliphol고유벡터 중심성공동출현 네트워크 분석BERTopic지식 재결합과학의 과학학제간 과학의 부상Humanities and So…Scientometrics혁신 경제학 Identifying Interdisc…
휠 = 확대/축소 · 드래그 = 이동 · hover = 라벨 · 클릭 = 페이지 이동