An in-depth empirical analysis of patent citation counts using zero-inflated count data model: The case of KIST
Yong-Gil Lee, 이정동, Yong-Il Song, Se-Jun Lee (2007) · Scientometrics 70(1):27–39
KIST (Korea Institute of Science and Technology) 의 US 등록 특허 452 건 (1970s–2004) 전체에 대한 citation count 결정요인의 broader 분석 — PICMET 2006 의 ETRI (An Analysis of Citation Counts of ETRI-Invented US Patents) · 화학 (A Study on Factors Affecting Patent Citation Counts and Patent Licensing in Chemistry Field) 두 paired analyses 의 통합 framework 격. citation 데이터는 zero 비중 45.01% 의 강한 zero-inflation 을 보이므로 영변환 포아송 모형 (ZIP) · 영변환 음이항 모형 (ZINB) 채택. ZINB 결과에서 (i) CLA (claim 수, invention scale) +0.013**, (ii) JP (Japan 기술 domain 의존도) +0.172** — 가장 강력한 양 효과, (iii) USP (US domain) +0.007 (n.s.), (iv) OTH (기타 domain) −0.080**. 즉 KIST 특허의 technological value 는 일본 기술 흡수에 압도적으로 의존, US 의존도는 ETRI IT 와 달리 약하며, 기타 국가 의존은 음. 한국 catching-up 전략의 “일본 기술 모방” 가설 (Hu-Jaffe 2003) 을 disaggregate 데이터로 confirm.
- RQ: KIST 의 US 등록 특허 citation count 는 research team / invention-specific / geographical domain 의 어떤 요인이 결정하며, 한국 catching-up 의 일본 기술 의존 가설 (Hu-Jaffe 2003) 은 disaggregate 수준에서 어떻게 확인되는가?
- 방법론: 영변환 포아송 모형 (ZIP), 영변환 음이항 모형 (ZINB), Poisson · NB baseline 과의 비교
- 데이터: KIST 등록 US 특허 N=452 (1970s 이후), USPTO front-page 변수 14 종 (citation, INV, SELF, COL, CLA, FAM, SCI, USP, JP, OTH + 분야 더미 CHE/ELE/PHY/PRO/OTH 5 종, AGE 통제). 분야 비중 chemistry 54% > electrics 14% > physics 10% > process 18% > others 9%
- 주요 발견: zero 비중 45.01% (203/452); model 적합도 Poisson −1126.3 < NB −797.0 < ZIP −884.1 < ZINB −784.2, predicted zero ZINB 173 vs actual 203 — ZINB best; ZINB 회귀에서 CLA +0.013**, JP +0.172** (dominant), OTH −0.080**, AGE +0.138**; USP +0.007 (n.s.) — IT 의 ETRI sample 의 강한 US 의존과 대조
- 시사점: 한국 (특히 chemistry 중심 KIST) 의 catching-up 기술 흡수는 일본 기술 domain 에 압도적으로 의존 — Hu-Jaffe (2003) 의 aggregate 수준 발견이 disaggregate 에서도 confirmed. ETRI sample 과의 대비 (IT 의 US 의존 vs chemistry 의 Japan 의존) 는 기술 분야별 의존 패턴 차이 의 정량 증거. R&D 정책 함의: 특허 quality 제고 channel 으로 claim 수 확대 (invention scale) + 기존 의존 domain 깊이 강화 + 비-Japan/US domain 우회
(이 paper 는 Scientometrics journal article 로 본문 figure 없음 — citation freq 분포 (Table 2) · model fit 비교 (Table 6) · ZINB 회귀 (Table 7) 가 핵심 결과 carrier.)
요약
한국 혁신체계 의 공공 연구기관 중 KIST (Korea Institute of Science and Technology) 는 1966 년 설립 이후 ETRI 다음 2 위 US 특허 등록 기관 (1970s–2004 총 약 550 건, 본 paper analysis sample 452 건). 다학제 GRI (Government-funded Research Institute) 로 chemistry · materials · systems · environment · MEMS · energy · bio 분야 cross-disciplinary 연구가 특징이며, 본 paper 분석 sample 의 54% 가 chemistry 분야. citation 데이터의 stark 특징은 zero 의 과잉 — 452 건 중 203 건 (45.01%) 이 무인용. 이는 표준 Poisson model 의 의 예측 (Poisson 모형 81 건) 을 크게 상회. Hausman-Hall-Griliches (1984 Econometrica) · Henderson-Cockburn (1996 RAND JoE) 의 R&D-patents Poisson 라인이 이 zero-inflation 문제를 다루지 못한 한계 — 본 paper 의 정량적 motivation.
방법론은 Lambert (1992 Technometrics) · Heilbron (1994 Biometrical Journal) 의 zero-altered framework. ZIP 와 ZINB 는 (i) 0 발생 메커니즘 (logit, ) 과 (ii) positive count 분포 (Poisson 또는 NB) 를 두 개 분리 식 으로 표현. Structural zero = “citation 받을 가능성 자체가 없는 특허”, sampling zero = “가능성 있으나 우연히 0”. 두 모형 적합도 비교 — Poisson log-L −1126.3, NB −797.0, ZIP −884.1, ZINB −784.2. ZINB 가 가장 큰 log-L 과 predicted zero (173) 가 actual zero (203) 와 가장 가까움. Cameron-Trivedi (1986) α-test 의 dispersion α = 1.311** 가 over-dispersion 인정해 NB 채택, Vuong (1989 Econometrica) statistic 2.80** 가 zero-inflation 추가 효과 인정해 ZINB 최종 선택.
설명 변수는 세 카테고리. (i) Research team — INV (발명자 수), SELF (자기 인용 = technological cumulativeness), COL (협력 더미). (ii) Invention-specific — CLA (claim 수 = scale), FAM (family patent 수 = international presence), SCI (비특허 인용 수 = scientific linkage). (iii) Geographical localization — USP / JP / OTH 각 지역 인용 수. + 분야 더미 (CHE chemistry / ELE electrics / PHY physics / PRO process / OTH others) · AGE 통제. ZINB 추정 결과의 세 layer 발견.
첫째, Research team variable 은 약하다. INV, SELF, COL 모두 ZINB 에서 무의미. ETRI IT 라인이 self-citation cumulativeness 의 강한 양 효과를 보였던 것과 대조. KIST 의 chemistry-dominant 포트폴리오는 단일 라인 deep cumulativeness 보다는 외부 영향력 다양성 으로 citation 을 끌어내는 패턴.
둘째, Invention-specific 의 핵심은 claim 수. CLA 0.013** — invention scale 이 클수록 citation 증가. SCI (scientific linkage) 는 Poisson · NB · ZIP 에서 양 유의지만 ZINB 에서 무의미 — robustness 약. FAM 도 Poisson 외엔 무의미. 즉 family patent 다수 는 wider protection 의 행정적 결과일 뿐 citation 영향력에 영향 없음 (ETRI sample 의 음 발견과 일치).
셋째, 가장 striking 한 발견 — geographical domain 의 비대칭. JP (Japan 기술 의존) +0.172** — 가장 큰 effect size 의 양 유의 결정요인. USP (US 의존) +0.007 (n.s.) — 무의미. OTH (기타 domain 의존) −0.080** (음, 유의). 이 패턴은 Hu-Jaffe (2003 International Journal of Industrial Organization) 의 한국 vs 대만 패턴 가설 — 한국은 일본 기술 의존, 대만은 일본·미국 균등 — 을 disaggregate 수준에서 confirm. 더 strikingly, 기타 국가 (독일·영국 등) domain 의존이 citation 을 감소 시킨다 — “strong domain dependence 시 다른 domain 의존이 penalty” 라는 저자의 해석. 한국 catching-up 의 narrative — 1960s 이후 일본 기술 추격 + 후속 US 학습 — 가 KIST 의 chemistry-중심 R&D 포트폴리오에서 더 strikingly 보이는 점은 흥미롭다. ETRI IT sample 에서는 US 의존이 dominant 였던 점과 분야 × 의존 domain 의 paired 패턴이 나타난다 — IT (US 의존), chemistry / materials (Japan 의존).
저자의 conclusion 은 follow-up 작업으로 (i) 다른 한국 공공 연구기관 (KRICT, KAIST 등) 의 비교 분석 — 본 KIST 단일 기관 결과의 일반화 검증, (ii) research funding · team organization · leadership type 등 front-page 외부 변수의 결합 — patent citation 외에 survey 데이터 추가, (iii) citation 외 patent quality metric (transfer / licensing / duration) 의 paired 분석 — A Study on Factors Affecting Patent Citation Counts and Patent Licensing in Chemistry Field 가 이미 chemistry subsample 에 시도한 방향. 한계는 (i) cross-sectional sample, (ii) zero-altered model 의 logit part 의 structural vs sampling zero 식별 robustness, (iii) JP / USP / OTH 의존도가 전략적 선택 인지 기술 자연 spillover 인지 분리 불가.
핵심 결과
Citation 분포 (Table 2, N=452)
| Citation | Count | % |
|---|---|---|
| 0 | 203 | 45.01 |
| 1 | 86 | 18.85 |
| 2–3 | 70 | 15.52 |
| 4–7 | 64 | 14.19 |
| 8–14 | 22 | 4.87 |
| ≥15 | 7 | 1.56 |
→ 45% zero — zero-inflation 매우 강함.
분야별 평균 (Table 4, mean of citation)
| Field | N (%) | Mean citation | Mean JP | Mean USP |
|---|---|---|---|---|
| Chemistry | 245 (54%) | 2.45 | 0.60 | 4.69 |
| Electrics | 65 (14%) | 1.95 | 0.52 | 4.58 |
| Physics | 45 (10%) | 1.87 | 0.64 | 4.59 |
| Process & control | 61 (18%) | 1.90 | 0.90 | 3.94 |
| Others | 36 (9%) | 1.86 | 0.38 | 6.39 |
| Total | 452 | 2.20 | 0.61 | 4.6 |
Model 적합도 (Table 6)
| Models | Log L | Predicted 0 (actual = 203) | Diagnostic |
|---|---|---|---|
| Poisson | −1,126.3 | 81 | over-dispersion 무시 |
| NB | −797.0 | 153 | α = 1.442** |
| ZIP | −884.1 | 171 | Vuong 5.07** over Poisson |
| ZINB | −784.2 | 173 | best fit, α = 1.311**, τ = −34.1** |
ZINB 회귀 (Table 7, 종속변수 = citation count)
| 변수 | Coefficient | SE | 카테고리 |
|---|---|---|---|
| INV (team size) | −0.016 | 0.015 (n.s.) | Team |
| SELF (cumulativeness) | +0.028 | 0.045 (n.s.) | Team |
| COL (collaboration) | +0.168 | 0.246 (n.s.) | Team |
| CLA (invention scale) | +0.013** | 0.004 | Invention |
| FAM (international presence) | +0.001 | 0.008 (n.s.) | Invention |
| SCI (scientific linkage) | −0.002 | 0.010 (n.s.) | Invention |
| USP (US domain) | +0.007 | 0.007 (n.s.) | Geographical |
| JP (Japan domain) | +0.172** | 0.035 | Geographical |
| OTH (other domain) | −0.080** | 0.020 | Geographical |
| CHE / ELE / PHY / PRO (field) | n.s. except PRO −0.218* | — | Control |
| AGE | +0.138** | 0.097 | Control |
** p<0.01, * p<0.05.
→ Geographical domain 변동의 striking 비대칭 — JP 가 가장 큰 양, USP 무의미, OTH 음.
방법론 노트
상세 likelihood specification 은 sibling An Analysis of Citation Counts of ETRI-Invented US Patents 의 방법론 노트 참조. 본 paper 는 KIST 전체 sample (N=452) 에 대해 Poisson · NB · ZIP · ZINB 4 모형을 paired 적합 비교한 점이 incremental contribution.
표준 Poisson:
Negative binomial (Γ 혼합으로 over-dispersion):
ZIP (Lambert 1992):
. logit.
ZINB (Heilbron 1994): 동일 zero-inflation 처리에 NB positive count 결합.
모형 선택 절차: (i) α-test (Cameron-Trivedi 1986): NB α = 1.442** — over-dispersion 존재, NB 채택. (ii) τ-test (Heilbron 1994): ZIP τ = −0.703**, ZINB τ = −34.1** — zero-altered 유의. (iii) Vuong (1989) non-nested: ZIP 5.07** over Poisson, ZINB 2.80** over NB. 최종 ZINB best fit (log L −784.2, predicted 0 = 173 vs actual 203).
식별은 (i) 14 변수의 cross-section variation, (ii) 5 분야 segmentation, (iii) 1970s–2004 등록 연도 AGE 변동에서 온다. 한계는 (i) right-censoring (최근 등록 특허의 citation 발현 시간 부족), (ii) zero-altered logit part 의 structural vs sampling zero 식별 robustness, (iii) cross-section sample 의 일반화 제약.
연구 계보
본 paper 는 기술경영경제정책전공 의 bibliometric / patent quality 분석 라인 의 anchor. 직접 sibling 두 작업이 본 paper 의 subsample 분석:
- An Analysis of Citation Counts of ETRI-Invented US Patents — ETRI IT subsample (US 의존 강) ZANB
- A Study on Factors Affecting Patent Citation Counts and Patent Licensing in Chemistry Field — KIST + KRICT chemistry paired sample (research collaboration unique driver)
본 paper 와 두 sibling 의 관계는 paper trilogy — KIST 전체 (본 paper, Scientometrics) → ETRI IT (sibling 1) → chemistry paired (sibling 2). 같은 framework 의 분야별 cross-validation 으로 분야 × 의존 domain 패턴 차이 를 입증.
Patent citation value lineage 는 Carpenter-Narin-Woolf (1981 World Patent Information), Trajtenberg (1990 RAND JoE), Harhoff-Narin-Scherer-Vopel (1997) 의 economic value 연결, Barney (2001), Gay-LeBas-Patel-Touach (2005 Economics of Innovation and New Technology) 의 determinants 위에 위치. Knowledge flow lineage 는 Jaffe-Trajtenberg-Henderson (1993 QJE) 의 geographic localization, Jaffe-Trajtenberg (1999 Economics of Innovation and New Technology) 의 international knowledge flow, Jaffe-Fogarty-Banks (1998 JIE) 의 NASA · federal lab 영향, Jaffe-Trajtenberg (2002 Patents, Citations, and Innovations MIT Press) 의 통합 책. Korea-Japan dependence 는 Hu-Jaffe (2003 IJIO) 의 한국 vs 대만 패턴 가설이 직접 predecessor — 본 paper 가 이를 disaggregate 수준에서 confirm.
Count data econometrics lineage 는 Hausman-Hall-Griliches (1984 Econometrica) 의 R&D-patents Poisson, Cameron-Trivedi (1986) 의 over-dispersion 검정, Lambert (1992) · Heilbron (1994) 의 zero-altered, Vuong (1989) 의 non-nested test 의 표준 lineage. Henderson-Cockburn (1996 RAND JoE) 의 drug discovery 의 patent count 모형이 invention scale (CLA) 효과의 lineage source.
TEMEP 내 sibling cluster: 위 두 paired 작업 외에 (i) 이정동 의 R&D persistency · Korean innovation system 라인 — KIST 의 chemistry-Japan 의존 발견을 국가 차원 NIS 분석에 연결. (ii) 후속 Yong-Gil Lee 의 public-to-private 기술 이전 duration · patent licensing 분석 (2008). 본 paper 는 기술경영경제정책전공 의 바이블리오메트릭 + 한국 catching-up fork point.
See also
- 영변환 포아송 모형
- 영변환 음이항 모형
- 계수 데이터 회귀
- 특허 인용 수
- 일본 기술 domain 의존
- 지식 흐름
- 추격형 발전
- 한국 혁신체계
- An Analysis of Citation Counts of ETRI-Invented US Patents
- A Study on Factors Affecting Patent Citation Counts and Patent Licensing in Chemistry Field
- Yong-Gil Lee
- 이정동
인접 그래프
- 인물 4
- 개관 1
- 방법론 4
- 개념 3
- 주제 3
- 수록처 1
- 논문 3