Evaluating the Productivity of Researchers and their Communities: The RP-Index and the CP-Index
Jörn Altmann, Alireza Abbasi, 황준석 (2010) · TEMEP Discussion Paper Series 2010:48
연구자와 연구 커뮤니티의 생산성을 평가하기 위한 RP-Index (Researcher Productivity Index) 와 CP-Index (Community Productivity Index) 를 제안한 TEMEP 워킹 페이퍼. h-지수 (Hirsch 2005) 와 g-Index (Egghe 2006) 가 (a) integer 만 산출, (b) 시간이 지나도 감소하지 않음, (c) 공저자 수 무반영, (d) lead author 무반영 같은 한계를 가지는 점을 비판하고, 정규화된 인용 수 = (인용 수 / 논문 연수) × contribution factor 를 기반으로 RP-Index 와 CP-Index 를 정식화한다. 5 개 iSchool (PITT, UCB, UMD, MICH, SYR) 의 2139 publications · 1815 authors · 5310 co-authorships (2001~2005, Maryland 만 2002→2006 대체) 데이터로 검증. CP-Index 순위는 UCB 9.3 > MICH 9.2 > SYR 8.9 > PITT 7.8 > UMD 6.9. Spearman 상관 (n=91) 으로 RP-Index 가 기존 h/g 보다 약하게 상관 (RP-h 0.62, RP-g 0.72) 됨을 보여 진정한 차별 정보 임을 입증.
- RQ: 개별 연구자와 그가 속한 연구 커뮤니티의 생산성을 동시에 평가할 수 있는 계량서지학 지표는 어떻게 설계되어야 하는가. 기존 h-지수 · g-Index 의 4 가지 한계 (integer-only, monotonic-increasing, no co-author weighting, no leadership) 를 어떻게 보완할 수 있는가.
- 방법론: 계량서지학 (RP-Index + CP-Index 신규 지표), spearman-correlation (기존 지표와의 차별성 검증)
- 데이터: 5 iSchool (PITT, UCB, UMD, MICH, SYR) 의 2139 publications · 1815 authors · 5310 co-authorships, 2001~2005 (UMD 만 2002 → 2006 대체). Google Scholar + ACM Portal + DBLP + 학교 보고서. 509 publications 는 신문·잡지·웹사이트로 인용 0. AcaSoNet (저자 자체 도구) 으로 추출.
- 주요 발견: (1) RP-Index 정의: 가 큰 순으로 정렬된 top-x 논문의 평균 가 이상인 최대 (real number). (2) CP-Index 정의: 커뮤니티 멤버의 RP-Index 가 큰 순으로 정렬된 top-y 의 평균이 이상인 최대 . (3) iSchool CP-Index: UCB 9.3, MICH 9.2, SYR 8.9, PITT 7.8, UMD 6.9. (4) Top RP-Index 연구자: Lada Adamic (MICH) 15.48, AnnaLee Saxenian (UCB) 11.37, Kevin Crowston (SYR) 10.58, Peter Brusilovsky (PITT) 10.57. (5) RP-Index 가 h/g-Index 보다 9 단위 vs 5-6 단위로 더 fine-grained (분포 폭 넓음). (6) Spearman: RP-h 0.62, RP-g 0.72 — 기존 지표 간 (h-g 0.86, h-c 0.9) 보다 약해 차별 정보 보유.
- 시사점: 연구 평가·grant 배분·faculty hiring 의 의사결정에 individual-only 지표가 아닌 community-aware 지표를 사용해야. 시간 가중·공저자 수·lead author 기여까지 반영한 RP-Index 가 monotonic-only h-Index 의 active/inactive 미구별 한계를 극복.

요약
본 워킹 페이퍼는 황준석 · Jörn Altmann · Alireza Abbasi 협력의 계량서지학 작업으로, 황준석 그룹이 그리드 컴퓨팅 자원 시장에서 신뢰·평판 측정 문제를 다루며 축적한 통찰을 학술 평가 영역으로 이식한 결과로 읽을 수 있다. 출발 진단은 Hirsch (2005, PNAS) 의 h-지수 와 Egghe (2006, Scientometrics) 의 g-Index 가 (a) 인용 수 외 다른 핵심 지표 (논문 수, lead author, 출판 연도) 를 무시, (b) integer 만 산출해 fine-grained 비교 불가, (c) monotonic increasing 으로 active/inactive 연구자 미구별 (Sidiropoulos 2007), (d) 공저자 수 미반영 (Batista et al. 2006 의 수정안 있음), (e) 커뮤니티 단위 평가 부재 (Prathap 2006, Tol 2008 의 g1-Index 변형들 있음) 같은 한계를 가진다는 것이다.
RP-Index 의 빌딩 블록은 정규화된 인용 수:
여기서 는 연구자 의 논문 기여도 (저자 모두 동등하면 , lead author 면 더 큰 값). RP-Index 는 가 큰 순 정렬된 top-x 논문의 평균 가 이상인 최대 실수 :
CP-Index 는 커뮤니티 의 멤버의 RP-Index 가 큰 순 정렬된 top-y 의 평균이 이상인 최대 실수 :
검증은 5 iSchool (Pittsburgh, Berkeley, Maryland, Michigan, Syracuse — 정보학 분야의 유사 프로그램들; TEMEP 자체는 2003 시작이라 데이터 부족으로 제외) 의 2139 publications, 1815 authors, 5310 co-authorships, 2001-2005 (UMD 만 2002 → 2006 대체) 데이터로 수행. 데이터 수집은 자체 도구 AcaSoNet (publication 정보 + 저자 관계 자동 추출 + DB 저장). Google Scholar 가 Web of Science / Scopus 와 high correlation (Ruane & Tol 2007) 이라 충분히 정밀. 509 publications 는 신문·잡지·웹사이트라 Google Scholar 인용 0 (예: PITT 의 Prof. Cox).
결과는 (a) NC top-10 publication: AnnaLee Saxenian 의 “Bangalore boom: From brain drain to brain circulation” (2004, 119 인용, NC 29.75) 같은 비교적 신규 논문이 NC 로 보면 절대 인용 수 더 높은 오래된 논문보다 위에 옴. (b) Brusilovsky 의 top-20 publication 으로 NC 계산 → RP-Index 10.57. (c) 전체 top-20 RP-Index 연구자: Lada Adamic (MICH) 15.48, AnnaLee Saxenian (UCB) 11.37, Kevin Crowston (SYR) 10.58, Peter Brusilovsky (PITT) 10.57. (d) iSchool CP-Index 순위: UCB 9.3 > MICH 9.2 > SYR 8.9 > PITT 7.8 > UMD 6.9. (e) Spearman 상관 (n=91, 모두 publication 10+ & citation 50+) 결과 RP-h 0.62, RP-g 0.72, RP-r 0.8 로 RP-Index 가 기존 지표보다 약한 상관 — 즉 차별 정보 보유. RP-Index 값 분포 폭 9 단위 vs h/g 의 5-6 단위로 fine-grained. 황준석 · Jörn Altmann 협력의 ServiceMission/그리드 컴퓨팅 평판 측정 라인 (Trust Embedded Grid System for the Harmonization of Practical Requirements) 의 통찰을 학술 평가 영역으로 이식. TEMEP Discussion Paper 시리즈 (Almas Heshmati 편집장) 의 2010 년 작업.
핵심 결과
| 측정 | 정의 | iSchool 순위 |
|---|---|---|
| CP-Index | RP-Index 분포의 top-y 평균이 y 이상인 최대 y (real) | UCB 9.3 > MICH 9.2 > SYR 8.9 > PITT 7.8 > UMD 6.9 |
| Top RP-Index | NC top-x 평균이 x 이상인 최대 x | Lada Adamic (MICH) 15.48 > Saxenian (UCB) 11.37 > Crowston (SYR) 10.58 > Brusilovsky (PITT) 10.57 |
| Spearman 상관 (n=91) | p | c | m | h | r | g | RP |
|---|---|---|---|---|---|---|---|
| p (publication) | 1 | 0.55 | -0.2 | 0.63 | 0.49 | 0.77 | 0.45 |
| c (citation) | 1 | 0.78 | 0.9 | 0.99 | 0.87 | 0.79 | |
| m (avg citation) | 1 | 0.62 | 0.82 | 0.52 | 0.6 | ||
| h | 1 | 0.88 | 0.86 | 0.62 | |||
| g | 1 | 0.72 | |||||
| RP | 1 |
RP-Index 가 기존 지표보다 약한 상관 = 차별 정보. 분포 폭 9 단위 (RP) vs 5 단위 (h) vs 6 단위 (g).
방법론 노트
정규화된 인용 수 의 두 핵심 요소는 (1) age normalization (오래된 논문의 누적 인용 수에 의한 불공정 보정) 과 (2) contribution factor (공저자 균등 분배 또는 lead author 가중치). RP-Index 는 self-referential 정의 ─ “top-x 평균이 이상” ─ 로 cutoff 자체가 데이터에 의해 결정되는 점에서 h-지수 와 같은 구조 (h-Index 는 “top-h 논문이 각 h 인용”) 지만 real-valued. CP-Index 도 같은 self-referential 구조를 커뮤니티 멤버의 RP-Index 분포 위에서 반복한다. 이는 Tol (2008) 의 -Index 와 유사한 community-level 확장이지만, integer 가 아닌 real-valued 라 fine-grained.
비교한 7 가지 productivity 측정의 trade-off (Table 1): (1) NP — quantity 만, impact 무시. (2) total citation — impact 측정하나 일부 highly-cited paper 에 inflated. (3) avg citation — age 보정 가능하나 다작 연구자 penalize. (4) NSP (number of significant papers, y 인용 이상) — y 임의. (5) NSP top-y 인용 합 — 단일 수 아님. (6) h-Index — quantity + broad impact 동시 측정하나 NP 에 bound, scientific age 의존, monotonic. (7) g-Index — h 와 동일 단점.
데이터 의의: Google Scholar 가 Web of Science / Scopus 와 ranking 상관 매우 높음 (Ruane & Tol 2007, Kousha & Thelwall 2007) 이라 절대값보다 ranking 차이가 중요. publication type (proceedings / journal / book / presentation) 미구분, leadership 데이터 부재로 균등 분배 가정.
연구 계보
본 워킹 페이퍼의 직접 선행은 Hirsch (2005, PNAS) 의 h-지수, Egghe (2006, Scientometrics) 의 g-Index, Batista et al. (2006, Scientometrics) 의 공저자 수 보정 h-Index, Sidiropoulos et al. (2007, Scientometrics) 의 시간 가중 contemporary h-Index, Jin et al. (2006, 2007) 의 A-Index / AR-Index 등 단일 연구자 계량서지학 지표 문헌이다. 커뮤니티 단위 확장은 Tol (2008, Journal of Informetrics) 의 -Index, Prathap (2006, Current Science) 의 institutional /-Index, Braun et al. (2005) 의 journal Hirsch-type, Schubert (2007) 의 nation successive h-Index 라인. Klavans & Boyak (2008, Scientometrics) 의 thought leadership 지표가 leadership factor 의 motivation. 황준석 · Jörn Altmann 협력은 Trust Embedded Grid System for the Harmonization of Practical Requirements 등 그리드 컴퓨팅 평판/신뢰 측정 라인에서 시작되어 본 작업에서 학술 평가로 확장. 동시기 TEMEP Discussion Paper 시리즈 (Almas Heshmati 편집) 의 다른 Altmann/Hwang 작업들 ─ 2009-36 software resource management, 2010-39 GridEcon Platform, Determinants of Participation in Global Volunteer Grids: A Cross-Country Analysis (2010-40 Determinants of Participation in Global Volunteer Grids), 2010-41~44 Davoyan 의 intercarrier compensation 라인 ─ 과 한 클러스터. 한국 MIC 지원. 황준석 2기 ICT 정책 라인의 응용 영역 확장 작업.
See also
- 황준석
- Jörn Altmann
- Alireza Abbasi
- TEMEP Discussion Paper Series
- h-지수
- 계량서지학
- spearman-correlation
- 연구 생산성 평가
- Trust Embedded Grid System for the Harmonization of Practical Requirements
- Determinants of Participation in Global Volunteer Grids: A Cross-Country Analysis
인접 그래프
- 인물 3
- 방법론 1
- 개념 1
- 주제 3
- 수록처 1
- 분류 2
- 논문 2