Exploring diverse interests of collaborators in smart cities: A topic analysis using LDA and BERT


Jihye Lim, 황준석 (2024) · Heliyon 10:e30367 · DOI ↗

본 연구는 스마트시티quadruple-helix (academia·public sector·industry·civil society) 네 협력 주체의 텍스트 — Web of Science 9,401 papers (학계), Google Patents 3,846 granted patents (산업), 51 도시 government plans (공공), 2004-2023 Google Trends 검색량 (시민) — 을 동일 파이프라인으로 분석한다. Latent Dirichlet Allocation 로 paper 20 + patent 13 + plan 5 topic 추출, bert-classification (paper topic 으로 fine-tune) 으로 patent/plan 을 paper topic 으로 재분류, topic-relation-matrix 구성. 결과: sustainability·digital platform 은 세 주체 균등 관심, governance·resource·green space 는 기술 토픽 대비 저관심. hype-cycle-analysis 는 smart city 가 2015-2021 급성장 후 2022 부터 둔화 — ‘plateau of productivity’ 달성을 위한 governance·environment·economy·healthcare 의 관심 불균형 해소가 다음 단계 발전의 관건.

  • RQ: (1) 스마트시티 의 네 협력 주체 (quadruple-helix) 가 어떤 토픽에 관심을 집중하고 어떤 영역이 underdeveloped 한가? (2) 현 smart city 의 hype cycle 상 위치는 어디이며 향후 발전 방향은?
  • 방법론: Latent Dirichlet Allocation (paper 20 / patent 13 / plan 5 topic 추출), bert-classification (Hugging Face BERT-base-cased, paper topic 으로 fine-tune, accuracy/F1/precision/recall ~82%), topic-relation-matrix (patent/plan 의 typeA topic 과 BERT 가 분류한 typeB topic 의 cross-tab), hype-cycle-analysis (Gartner 5-stage: trigger → peak → trough → slope → plateau), google-trends-analysis (search volume 으로 시민 관심 quantify)
  • 데이터: WoS papers 9,401 (1999-2023, 학계), Google Patents 3,846 granted (2008-2023, 산업), 51 도시 (Europe 21, Asia 10, North America 9, Oceania 13) smart city plans (공공), Google Trends 2004-2023 월별 검색량 (시민); BERT 입력 길이 한계 512 토큰 때문에 plan 은 요약·intro 만 발췌
  • 주요 발견: (1) Sustainability·digital platform 은 학계·산업·공공 균등 관심; (2) Governance·resource·green space 는 기술 토픽 대비 저관심; (3) Smart economy·smart people 은 paper 에 부재, patent/plan 에서도 underrepresented; (4) “Smart city” 검색량 2004→2023 +214.95% 성장 (다른 city concept 들은 감소); (5) Hype cycle 상 2015-2021 급성장, 2022 이후 둔화 — 현재가 plateau 진입의 critical period; (6) Sensor·IoT·traffic 은 산업 driven; (7) Security/privacy 는 학계·산업 일부 관심 있으나 plan 에서 거의 vague.
  • 시사점: Smart city 의 차세대 발전을 위해 governance·environment·economy·healthcare 의 관심 불균형 해소 필요. 시민 참여 governance 의 practical implementation 이 가장 underdeveloped — 전략 문서에서 vague 한 표현 흔함. 산업과 학계가 sensor·IoT 에 collide 하면서 정작 시민이 살아내는 도시 차원의 환경·경제·헬스 영역이 비어 있음.

[[quadruple-helix]] 네 협력 주체의 [[latent-dirichlet-allocation]] + [[bert-classification]] 결합 분석 framework — paper → patent/plan 의 topic 매핑 흐름.

요약

UN 은 SDG 달성을 위해 cross-sectoral collaboration 강화를 권고하지만, 스마트시티 의 협력은 복잡성·맥락 의존성·동적 변화 로 인해 거버넌스 측면에서 정체된다 (Thabit & Mora 2020). 기존 smart city 문헌은 개별 stakeholder (시민 perspective, 정부 정책, 산업 IoT) 단위 분석은 많지만, 네 주체의 관심 동시 비교 는 부재했다. 본 연구는 Carayannis & Campbell 의 quadruple-helix (학계·공공·산업·시민) framework 위에 동일 topic modeling 파이프라인을 적용해 비교 가능한 topical distribution 을 구축하고, 어느 영역이 underdeveloped 한지 식별한다.

데이터 수집 전략 (Duwe et al. 의 patent + Google Trends 접근법 응용): (1) 학계 — WoS 검색 (“smart city” OR “smart cities” in Title/Abstract, Article, English) 으로 9,401 papers (1999-2023); (2) 산업 — Google Patents granted (“smart city” / “smart cities”, English) 로 3,846 patents (2008-2023); (3) 공공 — World’s top 50 smart cities (Eden Strategy Institute) 기준 + Google 추가 검색, 51 도시 plan 의 summary/intro 발췌 (BERT 512 token 한계); (4) 시민 — Google Trends 2004-2023 월별 search volume.

분석 파이프라인 (Fig. 3, 두 단계): Step 1 — Latent Dirichlet Allocation 으로 paper 20 + patent 13 + plan 5 topic 추출 (typeA). Step 2 — paper text + paper topic 으로 bert-classification (Hugging Face BERT-base-cased) fine-tune (90:10 train:test split, default hyperparameter, 6 epoch, 평균 accuracy/F1/precision/recall ~82%) 후 patent/plan text 를 paper topic 으로 재분류 (typeB). topic-relation-matrix (Fig. 6) — 각 patent 가 typeA (자기 corpus LDA) topic 과 typeB (paper-trained BERT) topic 양쪽에서 어떤 paper topic 과 매칭되는지 cross-tab.

결과: (a) Sustainability·digital platform 은 paper·patent·plan 세 corpus 모두에서 균등 등장 — 합의된 핵심 의제; (b) Sensor·IoT·traffic 토픽은 patent 가 dominant — 산업 driven; (c) Governance·resource·green space·security·privacy 는 paper 에선 활발하지만 plan 에서 vague 또는 underrepresented; (d) Smart economy·smart people 은 paper 에서 부재 — 6 area 분류 (Soomro et al.) 기준 결손 영역; (e) Google Trends: “smart city” 검색량 2004 25.08 → 2014 41.08 → 2023 79.00 (+214.95%), 다른 city concept (digital, intelligent, ubiquitous, creative) 은 감소; (f) hype-cycle-analysis 결과 2015-2021 급성장 후 2022 이후 둔화 — Gartner 5-stage 의 ‘slope of enlightenment’ 후반·‘plateau of productivity’ 진입 직전 위치. 함의: smart city 의 차세대 발전은 기술 advance 보다 governance·environment·economy·healthcare 의 stakeholder 관심 균형 회복 이 핵심. 시민 참여 governance 의 practical 구현이 가장 underdeveloped. Exploring knowledge management technologies to enhance sustainability and mitigate technostress from a collaborative perspective 자매 작업과 동일 BERT-based topic modeling 파이프라인 공유. 황준석 의 5기 (2024-2026) text mining·smart city 라인의 작업.

핵심 결과

주체Corpus데이터추출 topic 수
학계 (Academia)WoS papers9,401 (1999-2023)20 (LDA)
산업 (Industry)Google Patents3,846 granted (2008-2023)13 (LDA) → paper 20 (BERT)
공공 (Government)51 cities planssummary/intro5 (LDA) → paper 20 (BERT)
시민 (Civil society)Google Trends2004-2023 월별(search volume 분석)
Topic 영역학계산업공공비고
Sustainability높음높음높음 (5 plan 모두)합의 의제
Digital platform높음높음높음합의 의제
Sensor / IoT / traffic높음 (특허 dominant)산업 driven
Security / privacy낮음 (vague)plan 격차
Governance낮음낮음 (vague)가장 underdeveloped
Resource / green space낮음낮음격차
Smart economy / people부재낮음낮음결손 영역
  • Google Trends: “smart city” 2004→2023 검색량 +214.95% (다른 concept 감소)
  • Hype cycle: 2015-2021 급성장, 2022~ 둔화 — ‘plateau of productivity’ 진입 직전
  • BERT classifier 성능: 평균 accuracy/F1/precision/recall ~82%

방법론 노트

Latent Dirichlet Allocation (Blei et al. 2003) 는 각 문서를 latent topic 의 mixture 로, 각 topic 을 word 의 distribution 으로 표현하는 generative 모델. 본 연구는 paper/patent/plan 각 corpus 에 별도로 LDA 적용 (typeA 토픽 추출). 토픽 수는 paper 20, patent 13, plan 5 로 qualitative 결정 (Oh et al. 2020 의 smart city LDA 와 정렬).

bert-classification 단계는 LDA 만의 한계 (context 무시, keyword 의존) 를 보완. Hugging Face bert-base-cased 를 paper text + paper topic 의 supervised pair 로 fine-tune (90:10 train:test, 6 epoch, default hyperparameter). 평가 metric:

Accuracy=TP+TNTP+TN+FP+FN,F1=2PrecisionRecallPrecision+Recall\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}, \quad \text{F1} = \frac{2 \cdot \text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}} Precision=TPTP+FP,Recall=TPTP+FN\text{Precision} = \frac{TP}{TP + FP}, \quad \text{Recall} = \frac{TP}{TP + FN}

평균 ~82% 로 reasonable. fine-tuned 모델로 patent/plan 의 text 를 paper topic 의 집합 으로 재분류 (typeB). topic-relation-matrix (Fig. 6): patent_i 가 LDA 로 patent topic 12 + BERT 로 paper topic 17 에 매핑되면 (patent_12, paper_17) cell 의 count++. 전체 corpus 에 대해 누적 후 paper topic 기준 정렬해 공유 vs underdeveloped 영역 식별.

hype-cycle-analysis (Gartner 1995) 의 5-stage — technology trigger → peak of inflated expectations → trough of disillusionment → slope of enlightenment → plateau of productivity — 위에 smart city 의 (Google Trends 검색량 + 학계 publication 추세 + 정부 plan 발표 시기) 합성 위치를 mapping. 본 연구의 발견: smart city 는 2015-2021 의 급성장 (peak 통과 + trough 회복 + slope 진입) 을 거쳐 2022 이후 둔화 — ‘plateau of productivity’ 진입 직전 critical period.

식별 strategy: (i) 동일 quadruple-helix framework 로 네 주체의 데이터 동일 단위 (topic) 로 비교; (ii) BERT 의 paper-trained classifier 가 patent/plan 을 동일 paper topic schema 로 분류해 비교 가능성 보장; (iii) Google Trends 로 시민 관심을 behavioral signal 로 quantify (Jun et al. 2018; survey 의 self-report 회피). 한계: (a) paper corpus 의 English 한정으로 비영어권 지역 underrepresented, (b) 51 cities 가 Eden Strategy Institute 의 top 50 기반이라 selection bias, (c) BERT 의 512 token 한계로 long plan 의 일부만 사용, (d) topic 수의 qualitative 결정에 reproducibility 한계, (e) hype cycle 의 정량적 mapping 은 여전히 interpretive.

연구 계보

스마트시티 정의의 양대 인용은 Hall et al. (2000) — infrastructure 모니터링·통합·서비스 최대화, Lazaroiu & Roscia (2012) — 기술 활용 경제·사회 삶의 질 개선. 분류: Yigitcanlar et al. (정책·커뮤니티·기술), Soomro et al. (governance·economy·environment·transportation·energy), van der Hoogen et al. (smart economy·citizens·governance·environment·mobility·living), Lim et al. (정책·기술·서비스). quadruple-helix 는 Carayannis & Campbell — 학계·공공·산업·시민; Paskaleva et al. (2017) 가 smart city impact assessment 에 적용. hype-cycle-analysis 는 Gartner (1995), 학술 응용은 Shi & Herniman (2023). Latent Dirichlet Allocation 의 smart city 응용은 Sharma et al. (2020), Kim et al. (2021), Oh et al. (2020). bert-classification 의 patent/plan 응용은 Khadhraoui et al. (2022, PLM 다중분류), Li et al. (BERT-based policy classification), Saheb et al. (LDA + BERT 결합). 데이터 수집 전략은 Duwe et al. (2022) — 기술 측 patent/publication + 시장 측 Google Trends 의 결합. 황준석 의 5기 (2024-2026) smart city·BERT-based text mining 라인의 일환이며, Exploring knowledge management technologies to enhance sustainability and mitigate technostress from a collaborative perspective 와 동일 BERT 파이프라인을 공유하는 직접 자매 작업 — 두 연구가 같은 데이터 mining stack 위에서 두 다른 도메인 (KM × technostress, smart city × collaboration) 을 분석.

See also

인접 그래프

1-hop 이웃 10
  • 인물 2
  • 방법론 2
  • 수록처 1
  • 논문 5
황준석Jihye Lim스마트시티Latent Dirichlet …Heliyon Exploring diverse int…
휠 = 확대/축소 · 드래그 = 이동 · hover = 라벨 · 클릭 = 페이지 이동