Evaluating the Productivity of Researchers and their Communities: The RP-Index and the CP-Index

Jörn Altmann, Alireza Abbasi, 황준석 (2010) · TEMEP Discussion Paper Series 2010:48

연구자와 연구 커뮤니티의 생산성을 평가하기 위한 RP-Index (Researcher Productivity Index) 와 CP-Index (Community Productivity Index) 를 제안한 TEMEP 워킹 페이퍼. h-지수 (Hirsch 2005) 와 g-Index (Egghe 2006) 가 (a) integer 만 산출, (b) 시간이 지나도 감소하지 않음, (c) 공저자 수 무반영, (d) lead author 무반영 같은 한계를 가지는 점을 비판하고, 정규화된 인용 수 $NC_{ji}$ = (인용 수 / 논문 연수) × contribution factor 를 기반으로 RP-Index 와 CP-Index 를 정식화한다. 5 개 iSchool (PITT, UCB, UMD, MICH, SYR) 의 2139 publications · 1815 authors · 5310 co-authorships (2001~2005, Maryland 만 2002→2006 대체) 데이터로 검증. CP-Index 순위는 UCB 9.3 > MICH 9.2 > SYR 8.9 > PITT 7.8 > UMD 6.9. Spearman 상관 (n=91) 으로 RP-Index 가 기존 h/g 보다 약하게 상관 (RP-h 0.62, RP-g 0.72) 됨을 보여 진정한 차별 정보 임을 입증.

RQ: 개별 연구자와 그가 속한 연구 커뮤니티의 생산성을 동시에 평가할 수 있는 계량서지학 지표는 어떻게 설계되어야 하는가. 기존 h-지수 · g-Index 의 4 가지 한계 (integer-only, monotonic-increasing, no co-author weighting, no leadership) 를 어떻게 보완할 수 있는가.
방법론: 계량서지학 (RP-Index + CP-Index 신규 지표), spearman-correlation (기존 지표와의 차별성 검증)
데이터: 5 iSchool (PITT, UCB, UMD, MICH, SYR) 의 2139 publications · 1815 authors · 5310 co-authorships, 2001~2005 (UMD 만 2002 → 2006 대체). Google Scholar + ACM Portal + DBLP + 학교 보고서. 509 publications 는 신문·잡지·웹사이트로 인용 0. AcaSoNet (저자 자체 도구) 으로 추출.
주요 발견: (1) RP-Index 정의: $NC$ 가 큰 순으로 정렬된 top-x 논문의 평균 $NC$ 가 $x$ 이상인 최대 $x$ (real number). (2) CP-Index 정의: 커뮤니티 멤버의 RP-Index 가 큰 순으로 정렬된 top-y 의 평균이 $y$ 이상인 최대 $y$ . (3) iSchool CP-Index: UCB 9.3, MICH 9.2, SYR 8.9, PITT 7.8, UMD 6.9. (4) Top RP-Index 연구자: Lada Adamic (MICH) 15.48, AnnaLee Saxenian (UCB) 11.37, Kevin Crowston (SYR) 10.58, Peter Brusilovsky (PITT) 10.57. (5) RP-Index 가 h/g-Index 보다 9 단위 vs 5-6 단위로 더 fine-grained (분포 폭 넓음). (6) Spearman: RP-h 0.62, RP-g 0.72 — 기존 지표 간 (h-g 0.86, h-c 0.9) 보다 약해 차별 정보 보유.
시사점: 연구 평가·grant 배분·faculty hiring 의 의사결정에 individual-only 지표가 아닌 community-aware 지표를 사용해야. 시간 가중·공저자 수·lead author 기여까지 반영한 RP-Index 가 monotonic-only h-Index 의 active/inactive 미구별 한계를 극복.

연구자와 커뮤니티의 생산성을 함께 평가하는 RP·CP 지표 설계.

요약

본 워킹 페이퍼는 황준석 · Jörn Altmann · Alireza Abbasi 협력의 계량서지학 작업으로, 황준석 그룹이 그리드 컴퓨팅 자원 시장에서 신뢰·평판 측정 문제를 다루며 축적한 통찰을 학술 평가 영역으로 이식한 결과로 읽을 수 있다. 출발 진단은 Hirsch (2005, PNAS) 의 h-지수 와 Egghe (2006, Scientometrics) 의 g-Index 가 (a) 인용 수 외 다른 핵심 지표 (논문 수, lead author, 출판 연도) 를 무시, (b) integer 만 산출해 fine-grained 비교 불가, (c) monotonic increasing 으로 active/inactive 연구자 미구별 (Sidiropoulos 2007), (d) 공저자 수 미반영 (Batista et al. 2006 의 수정안 있음), (e) 커뮤니티 단위 평가 부재 (Prathap 2006, Tol 2008 의 g1-Index 변형들 있음) 같은 한계를 가진다는 것이다.

RP-Index 의 빌딩 블록은 정규화된 인용 수:

NC_{ji} = \frac{\text{NumberOfPaperCitations}_i}{\text{AgeOfPaper}_{ji}} \times C_{ji}, \quad 0 \leq C_{ji} \leq 1

여기서 $C_{ji}$ 는 연구자 $j$ 의 논문 $i$ 기여도 (저자 모두 동등하면 $1/N$ , lead author 면 더 큰 값). RP-Index 는 $NC$ 가 큰 순 정렬된 top-x 논문의 평균 $NC$ 가 $x$ 이상인 최대 실수 $x$ :

RP_j = \max \left( \frac{1}{x} \sum_{i=1}^x NC_{ji} \,\bigg|\, \frac{1}{x} \sum_{i=1}^x NC_{ji} \geq x \right), \quad x \in \mathbb{N}

CP-Index 는 커뮤니티 $k$ 의 멤버의 RP-Index 가 큰 순 정렬된 top-y 의 평균이 $y$ 이상인 최대 실수 $y$ :

CP_k = \max \left( \frac{1}{y} \sum_{j=1}^y RP_{kj} \,\bigg|\, \frac{1}{y} \sum_{j=1}^y RP_{kj} \geq y \right), \quad y \in \mathbb{N}

검증은 5 iSchool (Pittsburgh, Berkeley, Maryland, Michigan, Syracuse — 정보학 분야의 유사 프로그램들; TEMEP 자체는 2003 시작이라 데이터 부족으로 제외) 의 2139 publications, 1815 authors, 5310 co-authorships, 2001-2005 (UMD 만 2002 → 2006 대체) 데이터로 수행. 데이터 수집은 자체 도구 AcaSoNet (publication 정보 + 저자 관계 자동 추출 + DB 저장). Google Scholar 가 Web of Science / Scopus 와 high correlation (Ruane & Tol 2007) 이라 충분히 정밀. 509 publications 는 신문·잡지·웹사이트라 Google Scholar 인용 0 (예: PITT 의 Prof. Cox).

결과는 (a) NC top-10 publication: AnnaLee Saxenian 의 “Bangalore boom: From brain drain to brain circulation” (2004, 119 인용, NC 29.75) 같은 비교적 신규 논문이 NC 로 보면 절대 인용 수 더 높은 오래된 논문보다 위에 옴. (b) Brusilovsky 의 top-20 publication 으로 NC 계산 → RP-Index 10.57. (c) 전체 top-20 RP-Index 연구자: Lada Adamic (MICH) 15.48, AnnaLee Saxenian (UCB) 11.37, Kevin Crowston (SYR) 10.58, Peter Brusilovsky (PITT) 10.57. (d) iSchool CP-Index 순위: UCB 9.3 > MICH 9.2 > SYR 8.9 > PITT 7.8 > UMD 6.9. (e) Spearman 상관 (n=91, 모두 publication 10+ & citation 50+) 결과 RP-h 0.62, RP-g 0.72, RP-r 0.8 로 RP-Index 가 기존 지표보다 약한 상관 — 즉 차별 정보 보유. RP-Index 값 분포 폭 9 단위 vs h/g 의 5-6 단위로 fine-grained. 황준석 · Jörn Altmann 협력의 ServiceMission/그리드 컴퓨팅 평판 측정 라인 (Trust Embedded Grid System for the Harmonization of Practical Requirements) 의 통찰을 학술 평가 영역으로 이식. TEMEP Discussion Paper 시리즈 (Almas Heshmati 편집장) 의 2010 년 작업.

핵심 결과

측정	정의	iSchool 순위
CP-Index	RP-Index 분포의 top-y 평균이 y 이상인 최대 y (real)	UCB 9.3 > MICH 9.2 > SYR 8.9 > PITT 7.8 > UMD 6.9
Top RP-Index	NC top-x 평균이 x 이상인 최대 x	Lada Adamic (MICH) 15.48 > Saxenian (UCB) 11.37 > Crowston (SYR) 10.58 > Brusilovsky (PITT) 10.57

Spearman 상관 (n=91)	p	c	m	h	r	g	RP
p (publication)	1	0.55	-0.2	0.63	0.49	0.77	0.45
c (citation)		1	0.78	0.9	0.99	0.87	0.79
m (avg citation)			1	0.62	0.82	0.52	0.6
h				1	0.88	0.86	0.62
g						1	0.72
RP							1

RP-Index 가 기존 지표보다 약한 상관 = 차별 정보. 분포 폭 9 단위 (RP) vs 5 단위 (h) vs 6 단위 (g).

방법론 노트

정규화된 인용 수 $NC_{ji}$ 의 두 핵심 요소는 (1) age normalization (오래된 논문의 누적 인용 수에 의한 불공정 보정) 과 (2) contribution factor $C_{ji}$ (공저자 균등 분배 또는 lead author 가중치). RP-Index 는 self-referential 정의 ─ “top-x 평균이 $x$ 이상” ─ 로 cutoff $x$ 자체가 데이터에 의해 결정되는 점에서 h-지수 와 같은 구조 (h-Index 는 “top-h 논문이 각 h 인용”) 지만 real-valued. CP-Index 도 같은 self-referential 구조를 커뮤니티 멤버의 RP-Index 분포 위에서 반복한다. 이는 Tol (2008) 의 $g_1$ -Index 와 유사한 community-level 확장이지만, integer 가 아닌 real-valued 라 fine-grained.

비교한 7 가지 productivity 측정의 trade-off (Table 1): (1) NP — quantity 만, impact 무시. (2) total citation — impact 측정하나 일부 highly-cited paper 에 inflated. (3) avg citation — age 보정 가능하나 다작 연구자 penalize. (4) NSP (number of significant papers, y 인용 이상) — y 임의. (5) NSP top-y 인용 합 — 단일 수 아님. (6) h-Index — quantity + broad impact 동시 측정하나 NP 에 bound, scientific age 의존, monotonic. (7) g-Index — h 와 동일 단점.

데이터 의의: Google Scholar 가 Web of Science / Scopus 와 ranking 상관 매우 높음 (Ruane & Tol 2007, Kousha & Thelwall 2007) 이라 절대값보다 ranking 차이가 중요. publication type (proceedings / journal / book / presentation) 미구분, leadership 데이터 부재로 $C_{ji} = 1/N$ 균등 분배 가정.

연구 계보

본 워킹 페이퍼의 직접 선행은 Hirsch (2005, PNAS) 의 h-지수, Egghe (2006, Scientometrics) 의 g-Index, Batista et al. (2006, Scientometrics) 의 공저자 수 보정 h-Index, Sidiropoulos et al. (2007, Scientometrics) 의 시간 가중 contemporary h-Index, Jin et al. (2006, 2007) 의 A-Index / AR-Index 등 단일 연구자 계량서지학 지표 문헌이다. 커뮤니티 단위 확장은 Tol (2008, Journal of Informetrics) 의 $g_1$ -Index, Prathap (2006, Current Science) 의 institutional $h_1$ / $h_2$ -Index, Braun et al. (2005) 의 journal Hirsch-type, Schubert (2007) 의 nation successive h-Index 라인. Klavans & Boyak (2008, Scientometrics) 의 thought leadership 지표가 leadership factor 의 motivation. 황준석 · Jörn Altmann 협력은 Trust Embedded Grid System for the Harmonization of Practical Requirements 등 그리드 컴퓨팅 평판/신뢰 측정 라인에서 시작되어 본 작업에서 학술 평가로 확장. 동시기 TEMEP Discussion Paper 시리즈 (Almas Heshmati 편집) 의 다른 Altmann/Hwang 작업들 ─ 2009-36 software resource management, 2010-39 GridEcon Platform, Determinants of Participation in Global Volunteer Grids: A Cross-Country Analysis (2010-40 Determinants of Participation in Global Volunteer Grids), 2010-41~44 Davoyan 의 intercarrier compensation 라인 ─ 과 한 클러스터. 한국 MIC 지원. 황준석 2기 ICT 정책 라인의 응용 영역 확장 작업.

인접 그래프

1-hop 이웃 13개

인물 3
방법론 1
개념 1
주제 3
수록처 1
분류 2
논문 2

휠 = 확대/축소 · 드래그 = 이동 · hover = 강조 · 클릭 = 페이지 이동

Evaluating the Productivity of Researchers and their Communities: The RP-Index and the CP-Index

요약

핵심 결과

방법론 노트

연구 계보

See also

인접 그래프