An Analysis of Citation Counts of ETRI-Invented US Patents


Yong-Gil Lee, 이정동, Yong-Il Song (2006) · ETRI Journal 28(4):541–544

ETRI 가 1980 년대 초부터 2004 년까지 등록한 US 특허 895 건의 citation counts 결정요인을 영변환 포아송 모형 (ZAP) · 영변환 음이항 모형 (ZANB) 으로 분석한다. 응용 결과는 (i) technological cumulativeness (self-citation 수) +0.335**, (ii) scale of invention (claim 수) +0.013**, (iii) electronics field 더미 +0.425**, (iv) US 기술 domain 의존도 (US 특허 citation 수) +0.025** 가 citation 을 강하게 증가시키고, 의외로 (v) international presence (family patent 수) −0.018* 가 음 — 가족 특허가 많을수록 piggyback 보호일 뿐 citation 영향력 강화는 없음. 한국 catching-up 의 전통 가정 (“일본 기술 모방”) 과 달리 IT 분야 ETRI 특허는 US technology domain 에 깊이 의존한다는 점이 핵심 발견.

  • RQ: ETRI 가 등록한 US 특허의 citation 수를 결정하는 요인은 무엇이며, research team · invention 특성 · geographical domain 차원에서 어떻게 분리되는가?
  • 방법론: 영변환 포아송 모형, 영변환 음이항 모형, 계수 데이터 회귀 (Poisson, Negative Binomial 대비)
  • 데이터: ETRI 등록 US 특허 N=895 (1980s 초 – 2004), USPTO front-page 변수 12 종 (citation, self-citation, INV, COL, CLA, FAM, SCI, USP, JP, OTH, PHY, ELE, AGE). 기술분야 비중 electronics 65.9% > physics 27.5% > others 6.6%
  • 주요 발견: ZANB 추정에서 SELF 0.335**, CLA 0.013**, ELE 0.425**, US 0.025**, FAM −0.018*; mean citation electronics 5.15 > physics 3.09 ≈ others 3.00; total mean 4.44; predicted 0-citation (ZANB) 208 vs actual 233
  • 시사점: 한국 공공 IT 연구의 기술적 영향력은 US 기술 domain 흡수·축적에 의해 결정 — Japan 기술 의존 가설보다 US 의존 가설이 강함. 정책 함의: ETRI 의 R&D 전략은 US 기술 추적과 self-citation 축적 (라인 집중) 을 강화해야 citation impact 확대

(이 paper 는 ETRI Journal letter (4 페이지) 로 figure 없음. 핵심은 Table 5 (ZANB 회귀계수) 의 가설 검정.)

요약

ETRI (Electronics and Telecommunications Research Institute) 는 1976 년 설립 이후 2004 년까지 한국 공공 연구기관 중 가장 많은 1,000여 건의 US 특허를 등록했고, 한국 혁신체계 의 IT 분야 catching-up 의 대표 사례다. 그러나 ETRI 특허가 얼마나 cited 되며 어떤 특성이 그 영향력을 결정하는지는 그동안 정량 분석이 없었다. 본 paper 는 USPTO front page 에서 추출 가능한 12 변수 — research team (INV 발명자 수, SELF 자기인용 수, COL co-assignee 더미), invention-specific (CLA claim 수, FAM family 특허 수, SCI 비특허 인용 수, PHY/ELE 분야 더미), geographical (USP/JP/OTH 각 지역 특허 인용 수), AGE 특허 연령 — 을 설명변수로, citation count 를 결과변수로 한다.

Citation count 데이터는 과대 0 문제 (895 건 중 233 건 = 26% 가 무인용) 가 있어 Poisson · NB 모형만으로 부적합. 본 paper 는 Lambert (1992 Technometrics) · Heilbron (1994 Biometrical Journal) 의 영변환 포아송 모형 (ZAP) · 영변환 음이항 모형 (ZANB) framework 을 채택한다. ZAP / ZANB 는 0 발생 메커니즘 (logit) 과 positive count 분포 (Poisson 또는 NB) 를 분리 추정 — structural zero (citation 받을 가능성 자체가 없는 특허) 와 sampling zero (가능성은 있으나 우연히 0) 를 식별. Cameron-Trivedi (1986) 의 α-test 가 over-dispersion 의 존재 (α=1.088**) 를 확인해 NB 가 Poisson 보다 적합, Vuong statistic (ZAP 6.41**, ZANB 4.17**) 이 zero-altered 가 standard 보다 우월함을 추가 확인. ZANB 가 best fit (log-likelihood −2,097.6).

ZANB 추정 결과는 세 갈래로 읽힌다. 첫째, technological cumulativeness 의 강한 양 효과 — SELF 계수 0.335** — 자기 인용이 많은 (=특정 기술 라인을 누적적으로 축적한) 특허일수록 외부 citation 도 많이 받는다. 이는 Trajtenberg (1990) 의 cumulative innovation 가설 — 핵심 기술 라인이 굵을수록 후속 발명에 의해 더 자주 cited — 을 한국 IT 공공 R&D 에 실증. 둘째, invention 특성 — CLA 0.013** (claim 수 = invention scale), ELE 0.425** (electronics 분야) 가 양으로 강함. ETRI 의 전략 분야가 electronics 라는 점과 일치. PHY 는 ZANB 에서만 0.245* — 분야 효과가 NB · ZAP 추정에서는 inconsistent 라 robustness 약함. 셋째, geographical dependence 의 한국 IT-specific 패턴 — USP (US 특허 인용 수) 0.025** 가 강하게 양, JP 0.001 (n.s.) 가 무의미. 즉 ETRI 특허의 citation impact 는 US 기술 domain 을 얼마나 깊이 흡수했는지에 의해 결정되며, 일본 기술 의존도는 무관. 한국 catching-up 의 전통 narrative 가 “일본 기술 모방” 인 것과 대조적인 발견. 의외 결과는 FAM (family patent 수) 의 음 효과 (−0.018*) — 통상 family patent 가 많을수록 invention 의 international value 가 크다고 해석되지만, 본 paper 의 결과는 family patent 가 많다는 것은 wider protection 의 행정적 선택일 뿐 citation impact 와 inversely 연결됨을 시사. 저자는 IT 특허 특성과 patent strategy 의 결합 효과로 해석하며 후속 작업에 deferred.

한계는 (i) ETRI 단일 기관 sample 이라 한국 IT 공공 R&D 전반 일반화 제약, (ii) citation count 가 truncated (등록 후 짧은 특허는 인용 시간 부족) 임에도 AGE 단일 변수 통제만, (iii) US 기술 domain 의존도가 ETRI 의 전략적 선택 인지 기술 영역의 자연스러운 spillover 인지 분리 불가.

핵심 결과

Basic statistics by IPC field (Table 2)

Field특허 수 (비중)Mean citationsMean self-citationsMean USPMean JP
Electronics590 (65.9%)5.150.095.380.29
Physics246 (27.5%)3.090.075.740.13
Others59 (6.6%)3.000.075.490.39
Total895 (100%)4.440.085.490.25

→ ETRI 특허의 citation 영향력은 electronics 분야 + US 특허 인용 의존 에 집중.

Model fit comparison (Table 4)

ModelLog LPredicted 0 (actual = 233)Diagnostic
Poisson−3,591.525overdispersion ignored
NB−2,116.2198α = 1.088**
ZAP−3,273.9179Vuong 6.41** over Poisson
ZANB−2,097.6208best fit, τ = −5.807**

ZANB 회귀계수 (Table 5, 종속변수 = citation count)

변수카테고리CoefficientSE
INV (research team size)Team−0.0170.019 (n.s.)
SELF (cumulativeness)Team+0.335**0.119
COL (collaboration)Team+0.0360.080 (n.s.)
CLA (invention scale)Invention+0.013**0.005
FAM (international presence)Invention−0.018*0.007
SCI (scientific linkage)Invention+0.0130.013 (n.s.)
PHY (physics field)Invention+0.245*0.118
ELE (electronics field)Invention+0.425**0.111
US (US domain dependence)Geographical+0.025**0.008
JP (Japan domain dependence)Geographical+0.0010.025 (n.s.)
OTH (other domain)Geographical+0.0250.024 (n.s.)
AGE (특허 연령)+0.273**0.011

** p<0.01, * p<0.05.

방법론 노트

표준 Poisson 가정 yiPoisson(λi)y_i \sim \text{Poisson}(\lambda_i), lnλi=βXi\ln \lambda_i = \beta' X_i 의 log-likelihood:

lnLP=i[λi+yiln(λi)ln(yi!)]\ln L_P = \sum_i \left[ -\lambda_i + y_i \ln(\lambda_i) - \ln(y_i!) \right]

Citation 데이터는 (i) overdispersion (variance > mean), (ii) excess zeros — Poisson 의 Pr(y=0)=eλ\Pr(y=0) = e^{-\lambda} 가 실제 0 비중을 과소 예측 — 의 두 문제를 동시에 가진다. Negative binomial 은 Γ\Gamma-혼합으로 overdispersion 처리:

lnLNB=i[lnΓ(yi+k)Γ(yi+1)Γ(k)+kln(ti)+yiln(1ti)]\ln L_{\rm NB} = \sum_i \left[ \ln \frac{\Gamma(y_i + k)}{\Gamma(y_i + 1)\Gamma(k)} + k \ln(t_i) + y_i \ln(1 - t_i) \right]

ti=k/(k+λi)t_i = k/(k + \lambda_i), 1/k=α1/k = \alpha = dispersion. NB 로도 0 과소예측이 남으면 영변환 포아송 모형 (ZAP) · 영변환 음이항 모형 (ZANB) 의 two-part 모형 — 0 발생 메커니즘 (logit, Pr(structural 0)=ϕ\Pr(\text{structural 0}) = \phi) 과 positive count 분포 (Poisson 또는 NB, yy>0y \mid y > 0) 를 분리:

lnLZANB=yi=0ln[ϕ+(1ϕ)tik]+yi>0[ln(1ϕ)+]\ln L_{\rm ZANB} = \sum_{y_i = 0} \ln\left[ \phi + (1-\phi) t_i^k \right] + \sum_{y_i > 0} \left[ \ln(1-\phi) + \cdots \right]

a=logit(ϕ)a = \text{logit}(\phi). structural zero = “citation 받을 가능성 자체가 없는 특허”, sampling zero = “가능성 있으나 우연히 0”. Lambert (1992) 가 manufacturing defect 데이터에서, Heilbron (1994) 이 의료 count 데이터에서 처음 정식화.

모형 선택은 (i) Cameron-Trivedi (1986) 의 α-test (Poisson vs NB): NB 의 dispersion α^=1.088\hat{\alpha} = 1.088^{**} — Poisson 의 등분산 가정 기각, NB 채택, (ii) Tau test (zero-altered 의 0-inflation 추가 효과 검정): τ = −0.977** (ZAP), −5.807** (ZANB) — zero-altered 의 0 처리 메커니즘 유의, (iii) Vuong (1989) statistic (non-nested 모형 비교): ZAP 6.41**, ZANB 4.17** — zero-altered 가 standard count 모형 우월. 최종 ZANB 가 가장 큰 log-likelihood (−2,097.6) 와 actual 0 (233) 대비 가장 가까운 predicted 0 (208) 으로 best fit.

식별은 (i) 12 변수의 cross-section variation, (ii) IPC 분야 (PHY/ELE/OTH) 의 ETRI 내부 segmentation, (iii) 등록 연도 (1980s–2004) 의 AGE 변동에서 citation 의 시간 발현 통제에서 온다. 한계는 right-censoring — 최근 등록 특허는 citation 발생 시간이 부족해 0 으로 관측되지만 structural zero 가 아닐 수 있는데, ZANB 의 logit 부분이 이를 sampling zero 로 식별할 수 있는지에 대한 robustness 검정 부재.

연구 계보

본 paper 의 직접 predecessor 는 동일 저자진의 An in-depth empirical analysis of patent citation counts using zero-inflated count data model: The case of KIST (Lee-Lee-Song-Lee 2007 Scientometrics — “In-Depth Empirical Analysis of Patent Citation Counts Using Zero-Inflated Count Data Model”) — 본 ETRI Journal letter 가 발표 시점에 forthcoming 으로 인용한 broader 분석. 본 letter 는 그 broader 분석의 ETRI sample subsample summary 격. 둘 다 변수 분류 (research team / invention / geographical) 와 ZANB 적용을 공유한다.

Patent citation 영향력 lineage 는 Carpenter-Narin-Woolf (1981 World Patent Information) 의 “Citation Rates to Technologically Important Patents” — 처음으로 citation count 가 technological importance 의 proxy 임을 실증, Trajtenberg (1990 RAND Journal of Economics) “A Penny for Your Quotes” — patent citation 의 economic value 와의 정량 link, 그리고 Hall-Jaffe-Trajtenberg (2001, 2005) 의 NBER 특허 데이터 표준화 위에 위치. Count data econometrics lineage 는 Hausman-Hall-Griliches (1984 Econometrica) 의 R&D-patents Poisson, Cameron-Trivedi (1986 Journal of Applied Econometrics) 의 count data overdispersion 처리, Lambert (1992) · Heilbron (1994) 의 zero-altered framework, Vuong (1989 Econometrica) 의 non-nested test 의 lineage.

TEMEP 내 sibling: (i) A Study on Factors Affecting Patent Citation Counts and Patent Licensing in Chemistry Field — 같은 batch 의 chemistry field 특허 citation + licensing 분석으로, 본 paper 의 IT 분야 결과와 paired 분야 비교 (chemistry vs electronics 의 citation determinants 분리). (ii) An in-depth empirical analysis of patent citation counts using zero-inflated count data model: The case of KIST — 후속 broader 분석 (forthcoming 시점). (iii) 이정동 의 R&D · innovation policy 라인 — Hwang 의 nano · R&D persistency 작업들 — 과 method (count data + cumulativeness) 가 부분 일치하지만 도메인 (특허 vs firm 생산성) 이 다른 sibling cluster. 본 paper 는 기술경영경제정책전공bibliometric / patent-based innovation analysis 라인의 초기 표지석.

See also

인접 그래프

1-hop 이웃 20
  • 인물 3
  • 개관 1
  • 방법론 4
  • 개념 3
  • 주제 3
  • 수록처 1
  • 논문 5
이정동Yong-Gil LeeYong-Il Song기술경영경제정책전공계수 데이터 회귀영변환 음이항 모형영변환 포아송 모형특허 분석기술 축적성미국 기술 domain 의존특허 인용 수한국 혁신체계한국 IT 연구ETRI 특허ETRI Journal An Analysis of Citati…
휠 = 확대/축소 · 드래그 = 이동 · hover = 라벨 · 클릭 = 페이지 이동