How Bounded Rationality of Individuals in Social Interactions Impacts Evolutionary Dynamics of Cooperation


Somayeh Koohborfardhaghighi, Juan Pablo Romero, Sira Maliphol, YuLin Liu, Jörn Altmann (2017) · ACM International Conference on Web Intelligence ‘17, Leipzig · DOI ↗

진화적 죄수의 딜레마 게임 에서 협력(cooperation) 의 출현이 제한된 합리성 (bounded rationality) 의 두 가지 동시적 표현 — 네트워크 위상(topology) 과 기억 지속(memory duration) — 에 어떻게 영향받는지를 에이전트 기반 모형 으로 분석한다. 100 agent · 200 link 의 small-world / random 그래프 위에서 NetLogo 시뮬레이션을 돌려, 네트워크의 평균 최단 경로(average shortest path length)와 군집 계수(clustering coefficient)가 평형 도달 속도를 결정하고, 짧은 기억이 (놀랍게도) 더 빠른 협력 평형을 유도함을 보인다. 사회 시스템 내 행위자 간 협력의 동학을 구조 + 인지 한계 두 layer 의 상호작용으로 해석하는 복잡계 관점의 conference paper.

  • RQ: 개인의 제한된 합리성 이 네트워크 위상과 상호작용 기억 두 채널을 통해 동시에 작동할 때, 진화적 죄수의 딜레마 게임의 협력 동학은 어떻게 변하는가?
  • 방법론: 에이전트 기반 모형, 죄수의 딜레마 게임, 네트워크 위상 분석
  • 데이터: NetLogo 시뮬레이션, 100 agents · 200 links · 3 topology (small-world rewiring 0.02, 0.20, random 1.0), memory duration {10, 13, 30, 50, 70, 90}, defector seeds {10, 20, 30, 40, 50}, 시나리오당 100 회 평균
  • 주요 발견: (1) 짧은 평균 최단 경로 + 낮은 군집 계수의 random network 는 4000 step 후에도 평형 미도달, 반면 rewiring 0.02 의 small-world (평균 경로 7.24, 군집 0.46) 는 빠르게 협력 평형 도달. (2) 짧은 기억 (M=10) 이 긴 기억 (M=90) 보다 협력 평형에 더 빨리 수렴 — 초기 배신자가 누적 utility 우위를 차지한 기록을 빨리 잊을수록 협력 학습이 가속. (3) 초기 배신자 수(defector seeds)는 spike 의 높이를 결정하나, 결국 협력으로 수렴.
  • 시사점: 협력 촉진 정책 설계 시 행위자 합리성을 키우는 것 이 항상 좋은 처방은 아님 — 구조적 근접성을 늘리거나 기억을 짧게 만드는 것이 오히려 협력을 가속할 수 있다는 reframing.

Figure 1. 세 가지 networking topology (small-world rewiring 0.02 · 0.20 · random) 에서 PD game step 에 따른 평균 배신자 수. random network 는 평형 미도달, low-randomness small-world 가 가장 빨리 협력으로 수렴 — 짧은 평균 경로 + 낮은 군집이 배신 전염을 가속시켜 협력 학습이 늦어지는 역설 을 보여준다.

요약

협력의 출현은 진화생물학·심리학·게임이론에서 오랜 핵심 질문이며, Axelrod (1984) 이후 공간 구조 (networking topology) 가 협력 진화의 핵심 변수임이 확립됐다. 그러나 기존 연구들은 (a) 네트워크 위상의 효과 (Nowak & May 1992, Ohtsuki et al. 2006), (b) 파트너 기억의 효과 (Winkler et al. 2008, Stevens et al. 2010) 를 개별 분석했을 뿐, 두 채널이 동시에 작동하는 bounded rationality 의 이중 표현 을 함께 다루지 않았다. 이 paper 는 그 빈자리를 에이전트 기반 모형 시뮬레이션으로 채운다.

죄수의 딜레마 게임 의 표준 payoff (협력-협력 3·3, 배신-협력 4·0, 배신-배신 1·1) 를 100 agent · 200 link 의 세 그래프 (small-world rewiring 0.02 → 평균 경로 7.24·군집 0.46, rewiring 0.20 → 4.14·0.26, random → 3.44·0.06) 위에서 돌린다. 매 step 각 agent 는 직접 연결된 이웃 중 하나와 PD 1 회 진행, payoff 를 자신의 기억 버퍼 MM 에 누적. agent 는 사회적 학습 규칙(직접 이웃 중 누적 utility 가 더 높은 자의 전략을 모방) 으로 전략을 갱신. NetLogo + BehaviorSpace 로 시나리오당 100 회 평균. 결과: (i) 위상이 random 에 가까울수록 배신 전염 (defection contagion) 이 빠르게 퍼져 협력 평형까지 step 수가 증가, (ii) 기억이 짧을수록 초기 배신자의 누적 우위를 빨리 잊어 협력 평형이 가속, (iii) defector seeds 의 효과는 초기 spike 의 높이로 제한.

이 paper 는 Maliphol 의 SNU TEMEP 박사 과정 시기 (siramaliphol.md 의 1기) 에 Jörn Altmann · Koohborfardhaghighi 라인의 복잡계 / agent-based 연구 환경에서 산출됐다. 직접적 후속은 NIS 분석 자체가 아니나, 시스템 수준에서 행위자 간 상호작용을 모델링하는 사고방식 이 이후 국가혁신체계 의 행위자-제도 분석 (Maliphol et al. 2024 의 NIS 회복력 논의 등) 으로 연결되는 인지적 배경이 된다. paper 자체의 한계: 정적 네트워크 (link 형성·해체 없음), 단일 학습 규칙. 저자들이 결론에서 향후 dynamic network model 로 확장 계획을 명시.

핵심 결과

네트워크 위상rewiring평균 최단 경로군집 계수협력 평형 도달
Small-world (low randomness)0.027.240.46가장 빠름
Small-world (high randomness)0.204.140.26중간
Random1.003.440.064000 step 후에도 미도달
기억 길이 MM협력 평형까지 step비고
10가장 빠름초기 배신자 누적 우위를 빨리 망각
13 (baseline)중간scenario 1·2 의 default
30 ~ 90점진적으로 느려짐긴 기억이 협력 학습을 지연

(N = 100 agents, 200 links, 시나리오당 100 회 평균)

방법론 노트

각 agent 의 학습은 “이웃 중 누적 utility 우위자의 전략을 모방” 하는 사회적 학습 규칙에 따른다. 핵심 정의식은 시점 tt 의 집단 utility 와 agent ii 의 누적 utility:

Wt=i=1nUiW_t = \sum_{i=1}^{n} U_i Ui=j=1MPayoffjU_i = \sum_{j=1}^{M} \text{Payoff}_j

여기서 WtW_t 는 시점 tt 의 전체 utility, UiU_i 는 agent ii 의 누적 utility, Payoffj\text{Payoff}_jii 의 기억 버퍼 jj 번째 cell 에 저장된 과거 PD payoff, MM 은 기억 버퍼 최대 크기 (memory duration).

식별 전략: 세 변수 (topology, memory duration MM, defector seeds) 를 factorial design 으로 분리. 다른 두 변수를 고정한 채 한 변수만 움직여 한계 효과를 추출. 네트워크는 Watts-Strogatz rewiring 방식으로 생성, 위상별 기저 속성 (평균 경로 · 군집 계수) 을 동시에 통제. 시뮬레이션은 NetLogo + BehaviorSpace (Railsback & Grimm 2012) 로 100 회 반복 후 평균.

연구 계보

이 paper 는 Axelrod (1984) 의 죄수의 딜레마 게임 진화 협력 연구 라인을 직접 building on 하며, 공간 구조의 효과 (Nowak & May 1992, Ohtsuki et al. 2006) 와 기억의 효과 (Winkler et al. 2008, Stevens et al. 2010) 를 동시에 다루는 확장이다. 1저자 Koohborfardhaghighi 의 이전 single-author / Altmann 공저 작업들 (Koohborfardhaghighi & Altmann 2014, 2016) — 네트워크의 구조적 변화와 조직 학습 성과 관계 — 이 직접 선행 자료. Maliphol 본인의 연구 궤적 안에서는 Sira Maliphol 의 SNU TEMEP 1기 (2012–2019) 의 시작 지점에 위치하며 (siramaliphol.md 의 1기 분류), 이후 NIS 회복력·trustworthy AI 연구의 복잡계·행위자 기반 사고방식 의 인지적 기반이 된다.

See also

인접 그래프

1-hop 이웃 14
  • 인물 5
  • 방법론 3
  • 개념 2
  • 주제 2
  • 수록처 1
  • 논문 1
Jörn AltmannJuan Pablo RomeroSira MalipholSomayeh Koohborfa…YuLin Liu네트워크 위상 분석에이전트 기반 모형죄수의 딜레마 게임제한된 합리성좁은 세상 네트워크국가혁신체계협력 행동ACM International… How Bounded Rationali…
휠 = 확대/축소 · 드래그 = 이동 · hover = 라벨 · 클릭 = 페이지 이동