An in-depth empirical analysis of patent citation counts using zero-inflated count data model: The case of KIST


Yong-Gil Lee, 이정동, Yong-Il Song, Se-Jun Lee (2007) · Scientometrics 70(1):27–39

KIST (Korea Institute of Science and Technology) 의 US 등록 특허 452 건 (1970s–2004) 전체에 대한 citation count 결정요인의 broader 분석 — PICMET 2006 의 ETRI (An Analysis of Citation Counts of ETRI-Invented US Patents) · 화학 (A Study on Factors Affecting Patent Citation Counts and Patent Licensing in Chemistry Field) 두 paired analyses 의 통합 framework 격. citation 데이터는 zero 비중 45.01% 의 강한 zero-inflation 을 보이므로 영변환 포아송 모형 (ZIP) · 영변환 음이항 모형 (ZINB) 채택. ZINB 결과에서 (i) CLA (claim 수, invention scale) +0.013**, (ii) JP (Japan 기술 domain 의존도) +0.172**가장 강력한 양 효과, (iii) USP (US domain) +0.007 (n.s.), (iv) OTH (기타 domain) −0.080**. 즉 KIST 특허의 technological value 는 일본 기술 흡수에 압도적으로 의존, US 의존도는 ETRI IT 와 달리 약하며, 기타 국가 의존은 . 한국 catching-up 전략의 “일본 기술 모방” 가설 (Hu-Jaffe 2003) 을 disaggregate 데이터로 confirm.

  • RQ: KIST 의 US 등록 특허 citation count 는 research team / invention-specific / geographical domain 의 어떤 요인이 결정하며, 한국 catching-up 의 일본 기술 의존 가설 (Hu-Jaffe 2003) 은 disaggregate 수준에서 어떻게 확인되는가?
  • 방법론: 영변환 포아송 모형 (ZIP), 영변환 음이항 모형 (ZINB), Poisson · NB baseline 과의 비교
  • 데이터: KIST 등록 US 특허 N=452 (1970s 이후), USPTO front-page 변수 14 종 (citation, INV, SELF, COL, CLA, FAM, SCI, USP, JP, OTH + 분야 더미 CHE/ELE/PHY/PRO/OTH 5 종, AGE 통제). 분야 비중 chemistry 54% > electrics 14% > physics 10% > process 18% > others 9%
  • 주요 발견: zero 비중 45.01% (203/452); model 적합도 Poisson −1126.3 < NB −797.0 < ZIP −884.1 < ZINB −784.2, predicted zero ZINB 173 vs actual 203 — ZINB best; ZINB 회귀에서 CLA +0.013**, JP +0.172** (dominant), OTH −0.080**, AGE +0.138**; USP +0.007 (n.s.) — IT 의 ETRI sample 의 강한 US 의존과 대조
  • 시사점: 한국 (특히 chemistry 중심 KIST) 의 catching-up 기술 흡수는 일본 기술 domain 에 압도적으로 의존 — Hu-Jaffe (2003) 의 aggregate 수준 발견이 disaggregate 에서도 confirmed. ETRI sample 과의 대비 (IT 의 US 의존 vs chemistry 의 Japan 의존) 는 기술 분야별 의존 패턴 차이 의 정량 증거. R&D 정책 함의: 특허 quality 제고 channel 으로 claim 수 확대 (invention scale) + 기존 의존 domain 깊이 강화 + 비-Japan/US domain 우회

(이 paper 는 Scientometrics journal article 로 본문 figure 없음 — citation freq 분포 (Table 2) · model fit 비교 (Table 6) · ZINB 회귀 (Table 7) 가 핵심 결과 carrier.)

요약

한국 혁신체계공공 연구기관 중 KIST (Korea Institute of Science and Technology) 는 1966 년 설립 이후 ETRI 다음 2 위 US 특허 등록 기관 (1970s–2004 총 약 550 건, 본 paper analysis sample 452 건). 다학제 GRI (Government-funded Research Institute) 로 chemistry · materials · systems · environment · MEMS · energy · bio 분야 cross-disciplinary 연구가 특징이며, 본 paper 분석 sample 의 54% 가 chemistry 분야. citation 데이터의 stark 특징은 zero 의 과잉 — 452 건 중 203 건 (45.01%) 이 무인용. 이는 표준 Poisson model 의 Pr(y=0)=eλ\Pr(y=0) = e^{-\lambda} 의 예측 (Poisson 모형 81 건) 을 크게 상회. Hausman-Hall-Griliches (1984 Econometrica) · Henderson-Cockburn (1996 RAND JoE) 의 R&D-patents Poisson 라인이 이 zero-inflation 문제를 다루지 못한 한계 — 본 paper 의 정량적 motivation.

방법론은 Lambert (1992 Technometrics) · Heilbron (1994 Biometrical Journal) 의 zero-altered framework. ZIP 와 ZINB 는 (i) 0 발생 메커니즘 (logit, Pr(structural 0)=ϕ\Pr(\text{structural 0}) = \phi) 과 (ii) positive count 분포 (Poisson 또는 NB) 를 두 개 분리 식 으로 표현. Structural zero = “citation 받을 가능성 자체가 없는 특허”, sampling zero = “가능성 있으나 우연히 0”. 두 모형 적합도 비교 — Poisson log-L −1126.3, NB −797.0, ZIP −884.1, ZINB −784.2. ZINB 가 가장 큰 log-L 과 predicted zero (173) 가 actual zero (203) 와 가장 가까움. Cameron-Trivedi (1986) α-test 의 dispersion α = 1.311** 가 over-dispersion 인정해 NB 채택, Vuong (1989 Econometrica) statistic 2.80** 가 zero-inflation 추가 효과 인정해 ZINB 최종 선택.

설명 변수는 세 카테고리. (i) Research team — INV (발명자 수), SELF (자기 인용 = technological cumulativeness), COL (협력 더미). (ii) Invention-specific — CLA (claim 수 = scale), FAM (family patent 수 = international presence), SCI (비특허 인용 수 = scientific linkage). (iii) Geographical localization — USP / JP / OTH 각 지역 인용 수. + 분야 더미 (CHE chemistry / ELE electrics / PHY physics / PRO process / OTH others) · AGE 통제. ZINB 추정 결과의 세 layer 발견.

첫째, Research team variable 은 약하다. INV, SELF, COL 모두 ZINB 에서 무의미. ETRI IT 라인이 self-citation cumulativeness 의 강한 양 효과를 보였던 것과 대조. KIST 의 chemistry-dominant 포트폴리오는 단일 라인 deep cumulativeness 보다는 외부 영향력 다양성 으로 citation 을 끌어내는 패턴.

둘째, Invention-specific 의 핵심은 claim 수. CLA 0.013** — invention scale 이 클수록 citation 증가. SCI (scientific linkage) 는 Poisson · NB · ZIP 에서 양 유의지만 ZINB 에서 무의미 — robustness 약. FAM 도 Poisson 외엔 무의미. 즉 family patent 다수 는 wider protection 의 행정적 결과일 뿐 citation 영향력에 영향 없음 (ETRI sample 의 발견과 일치).

셋째, 가장 striking 한 발견 — geographical domain 의 비대칭. JP (Japan 기술 의존) +0.172** — 가장 큰 effect size 의 양 유의 결정요인. USP (US 의존) +0.007 (n.s.) — 무의미. OTH (기타 domain 의존) −0.080** (음, 유의). 이 패턴은 Hu-Jaffe (2003 International Journal of Industrial Organization) 의 한국 vs 대만 패턴 가설 — 한국은 일본 기술 의존, 대만은 일본·미국 균등 — 을 disaggregate 수준에서 confirm. 더 strikingly, 기타 국가 (독일·영국 등) domain 의존이 citation 을 감소 시킨다 — “strong domain dependence 시 다른 domain 의존이 penalty” 라는 저자의 해석. 한국 catching-up 의 narrative — 1960s 이후 일본 기술 추격 + 후속 US 학습 — 가 KIST 의 chemistry-중심 R&D 포트폴리오에서 더 strikingly 보이는 점은 흥미롭다. ETRI IT sample 에서는 US 의존이 dominant 였던 점과 분야 × 의존 domain 의 paired 패턴이 나타난다 — IT (US 의존), chemistry / materials (Japan 의존).

저자의 conclusion 은 follow-up 작업으로 (i) 다른 한국 공공 연구기관 (KRICT, KAIST 등) 의 비교 분석 — 본 KIST 단일 기관 결과의 일반화 검증, (ii) research funding · team organization · leadership type 등 front-page 외부 변수의 결합 — patent citation 외에 survey 데이터 추가, (iii) citation 외 patent quality metric (transfer / licensing / duration) 의 paired 분석 — A Study on Factors Affecting Patent Citation Counts and Patent Licensing in Chemistry Field 가 이미 chemistry subsample 에 시도한 방향. 한계는 (i) cross-sectional sample, (ii) zero-altered model 의 logit part 의 structural vs sampling zero 식별 robustness, (iii) JP / USP / OTH 의존도가 전략적 선택 인지 기술 자연 spillover 인지 분리 불가.

핵심 결과

Citation 분포 (Table 2, N=452)

CitationCount%
020345.01
18618.85
2–37015.52
4–76414.19
8–14224.87
≥1571.56

→ 45% zero — zero-inflation 매우 강함.

분야별 평균 (Table 4, mean of citation)

FieldN (%)Mean citationMean JPMean USP
Chemistry245 (54%)2.450.604.69
Electrics65 (14%)1.950.524.58
Physics45 (10%)1.870.644.59
Process & control61 (18%)1.900.903.94
Others36 (9%)1.860.386.39
Total4522.200.614.6

Model 적합도 (Table 6)

ModelsLog LPredicted 0 (actual = 203)Diagnostic
Poisson−1,126.381over-dispersion 무시
NB−797.0153α = 1.442**
ZIP−884.1171Vuong 5.07** over Poisson
ZINB−784.2173best fit, α = 1.311**, τ = −34.1**

ZINB 회귀 (Table 7, 종속변수 = citation count)

변수CoefficientSE카테고리
INV (team size)−0.0160.015 (n.s.)Team
SELF (cumulativeness)+0.0280.045 (n.s.)Team
COL (collaboration)+0.1680.246 (n.s.)Team
CLA (invention scale)+0.013**0.004Invention
FAM (international presence)+0.0010.008 (n.s.)Invention
SCI (scientific linkage)−0.0020.010 (n.s.)Invention
USP (US domain)+0.0070.007 (n.s.)Geographical
JP (Japan domain)+0.172**0.035Geographical
OTH (other domain)−0.080**0.020Geographical
CHE / ELE / PHY / PRO (field)n.s. except PRO −0.218*Control
AGE+0.138**0.097Control

** p<0.01, * p<0.05.

→ Geographical domain 변동의 striking 비대칭 — JP 가 가장 큰 양, USP 무의미, OTH 음.

방법론 노트

상세 likelihood specification 은 sibling An Analysis of Citation Counts of ETRI-Invented US Patents방법론 노트 참조. 본 paper 는 KIST 전체 sample (N=452) 에 대해 Poisson · NB · ZIP · ZINB 4 모형을 paired 적합 비교한 점이 incremental contribution.

표준 Poisson:

Pr(Yi=yi)=eλiλiyiyi!,lnλi=βXi\Pr(Y_i = y_i) = \frac{e^{-\lambda_i} \lambda_i^{y_i}}{y_i!}, \quad \ln \lambda_i = \beta' X_i

Negative binomial (Γ 혼합으로 over-dispersion):

E(Y)=λ,Var(Y)=E(Y)(1+1kE(Y)),α=1/kE(Y) = \lambda, \quad \mathrm{Var}(Y) = E(Y)\left(1 + \tfrac{1}{k} E(Y)\right), \quad \alpha = 1/k

ZIP (Lambert 1992):

Pr(Y=y)={ϕ+(1ϕ)eλy=0(1ϕ)eλλyy!y>0\Pr(Y = y) = \begin{cases} \phi + (1-\phi) e^{-\lambda} & y = 0 \\ (1-\phi) \frac{e^{-\lambda}\lambda^y}{y!} & y > 0 \end{cases}

E(Y)=(1ϕ)λE(Y) = (1-\phi)\lambda. logit(ϕ)=α(\phi) = \alpha.

ZINB (Heilbron 1994): 동일 zero-inflation 처리에 NB positive count 결합.

모형 선택 절차: (i) α-test (Cameron-Trivedi 1986): NB α = 1.442** — over-dispersion 존재, NB 채택. (ii) τ-test (Heilbron 1994): ZIP τ = −0.703**, ZINB τ = −34.1** — zero-altered 유의. (iii) Vuong (1989) non-nested: ZIP 5.07** over Poisson, ZINB 2.80** over NB. 최종 ZINB best fit (log L −784.2, predicted 0 = 173 vs actual 203).

식별은 (i) 14 변수의 cross-section variation, (ii) 5 분야 segmentation, (iii) 1970s–2004 등록 연도 AGE 변동에서 온다. 한계는 (i) right-censoring (최근 등록 특허의 citation 발현 시간 부족), (ii) zero-altered logit part 의 structural vs sampling zero 식별 robustness, (iii) cross-section sample 의 일반화 제약.

연구 계보

본 paper 는 기술경영경제정책전공bibliometric / patent quality 분석 라인 의 anchor. 직접 sibling 두 작업이 본 paper 의 subsample 분석:

본 paper 와 두 sibling 의 관계는 paper trilogy — KIST 전체 (본 paper, Scientometrics) → ETRI IT (sibling 1) → chemistry paired (sibling 2). 같은 framework 의 분야별 cross-validation 으로 분야 × 의존 domain 패턴 차이 를 입증.

Patent citation value lineage 는 Carpenter-Narin-Woolf (1981 World Patent Information), Trajtenberg (1990 RAND JoE), Harhoff-Narin-Scherer-Vopel (1997) 의 economic value 연결, Barney (2001), Gay-LeBas-Patel-Touach (2005 Economics of Innovation and New Technology) 의 determinants 위에 위치. Knowledge flow lineage 는 Jaffe-Trajtenberg-Henderson (1993 QJE) 의 geographic localization, Jaffe-Trajtenberg (1999 Economics of Innovation and New Technology) 의 international knowledge flow, Jaffe-Fogarty-Banks (1998 JIE) 의 NASA · federal lab 영향, Jaffe-Trajtenberg (2002 Patents, Citations, and Innovations MIT Press) 의 통합 책. Korea-Japan dependence 는 Hu-Jaffe (2003 IJIO) 의 한국 vs 대만 패턴 가설이 직접 predecessor — 본 paper 가 이를 disaggregate 수준에서 confirm.

Count data econometrics lineage 는 Hausman-Hall-Griliches (1984 Econometrica) 의 R&D-patents Poisson, Cameron-Trivedi (1986) 의 over-dispersion 검정, Lambert (1992) · Heilbron (1994) 의 zero-altered, Vuong (1989) 의 non-nested test 의 표준 lineage. Henderson-Cockburn (1996 RAND JoE) 의 drug discovery 의 patent count 모형이 invention scale (CLA) 효과의 lineage source.

TEMEP 내 sibling cluster: 위 두 paired 작업 외에 (i) 이정동 의 R&D persistency · Korean innovation system 라인 — KIST 의 chemistry-Japan 의존 발견을 국가 차원 NIS 분석에 연결. (ii) 후속 Yong-Gil Lee 의 public-to-private 기술 이전 duration · patent licensing 분석 (2008). 본 paper 는 기술경영경제정책전공바이블리오메트릭 + 한국 catching-up fork point.

See also

인접 그래프

1-hop 이웃 19
  • 인물 4
  • 개관 1
  • 방법론 4
  • 개념 3
  • 주제 3
  • 수록처 1
  • 논문 3
이정동Se-Jun LeeYong-Gil LeeYong-Il Song기술경영경제정책전공계수 데이터 회귀영변환 음이항 모형영변환 포아송 모형특허 분석일본 기술 domain 의존지식 흐름특허 인용 수추격형 발전한국 혁신체계KIST 특허Scientometrics An in-depth empirical…
휠 = 확대/축소 · 드래그 = 이동 · hover = 라벨 · 클릭 = 페이지 이동