🤖 AI의 사회성과 조작 능력을 측정하는 새로운 시대
기존의 객관식 문제 풀이를 넘어, AI가 인간 사회의 복잡한 관계를 이해하고 조작할 수 있는지 평가하는 벤치마크가 등장했습니다. '늑대인간 벤치마크(Werewolf Benchmark)'는 6개의 대형 언어 모델(LLM)이 사회적 추론 게임을 플레이하며, 거짓말, 조작, 신뢰 구축, 논리적 추론 능력을 겨루는 실험입니다. 이는 AI가 미래 사회에서 자율 에이전트로 활동하기 위해 필수적인 능력에 대한 첫 번째 체계적인 평가로 주목받고 있습니다.
벤치마크 결과, 모델 간 능력 차이가 뚜렷하게 나타났으며, 특히 장기적인 계획 수립과 맥락 인식에서 고성능 모델의 우위가 확인되었습니다. 이는 단순한 지식이 아닌, 전략적 사고와 사회적 지능이 AI 평가의 새로운 척도가 되고 있음을 시사합니다.

🎯 벤치마크의 핵심: '늑대인간' 게임 구조
늑대인간 벤치마크는 6명의 플레이어(2늑대, 4마을 주민)가 참여하는 사회적 추론 게임을 기반으로 합니다. 각 AI 모델은 게임의 규칙과 목표를 이해하고, 자신의 역할(늑대 또는 주민)에 맞춰 다른 플레이어와 채팅을 통해 상호작용해야 합니다.
📋 주요 역할 및 승리 조건
- 늑대 (2명): 밤마다 협의하여 한 명을 공격합니다. 낮에는 자신의 정체를 숨기고 마을 주민을 의심하게 만들어 투표로 제거해야 합니다.
- 주민 (4명): 낮 동안의 논의와 투표를 통해 늑대를 찾아 제거해야 합니다.
- 예언자 (주민 중 1명): 밤마다 한 플레이어의 정체를 확인할 수 있습니다.
- 마녀 (주민 중 1명): 살인을 저지하거나 늑대를 처형할 수 있는 포션을 각각 하나씩 보유합니다.
이 게임을 통해 AI의 **'조작 능력'(늑대 역할 시)**과 **'조작 저항력'(주민 역할 시)**이라는 두 가지 핵심 역량을 정량적으로 평가합니다.

📊 모델별 성능 분석 및 순위: 데이터로 본 AI의 '사회적 지능'
실험 결과, 모델마다 뚜렷한 성격과 전략 패턴을 보였습니다. 특히 ELO 레이팅 시스템을 도입해 늑대 역할과 주민 역할을 각각 평가한 순위는 다음과 같습니다.
🏆 모델별 ELO 레이팅 (늑대 역할 기준)
| 모델명 | 핵심 전략 특징 | ELO 레이팅 (늑대) | 승률 추정 |
|---|---|---|---|
| GPT-5 | '냉철한 설계자' - 게임에 질서를 부여하고 논의를 구조화하며 장기적인 통제력 발휘 | 1위 | 96.7% |
| Gemini 2.5 Pro | 고위험·고수익 스타일, 초반 압박 강하나 후반 변동성 큼 | 2위 | 데이터 미공개 |
| Kim K2 Instruct | '대담한 도박사' - 빠르게 모멘텀을 만들지만 일관성 부족 | 3위 | 데이터 미공개 |
| GPT-5 OSS | 방어적 성향, 압박 받으면 후퇴하는 경향 | 최하위 | 데이터 미공개 |
🛡️ 모델별 ELO 레이팅 (주민 역할 기준)
| 모델명 | 핵심 방어 특징 | ELO 레이팅 (주민) | |---|---|---|---| | GPT-5 | 정보 위생 유지, 공개적 사실에 기반한 질문, 공개적 신념 업데이트 | 1위 | | Gemini 2.5 Pro | '방어 전문가' - 측정된 어조, 엄격한 증거 처리, 유인책에 물리지 않음 | 2위 | | GPT-5 Mini | 기본적인 논리 추론 가능, 복잡한 조작에는 취약 | 중간 순위 | | Kim K2 Instruct | 고에너지·감정적 대응, 늑대 역할보다 주민 역할 성능 낮음 | 상대적 하위 |
이 표에서 알 수 있듯, GPT-5는 두 역할 모두에서 압도적인 성능을 보였습니다. 반면, 일부 오픈소스 모델은 역할에 따른 성능 편차가 크거나, 장기적인 계획의 일관성을 유지하는 데 어려움을 겪었습니다. 이러한 평가는 단순한 AI 버블이 꺼질 수 있다? 붕괴를 부를 두 가지 결정적 위험 요인 분석 🔥에 대한 논의보다, AI의 실제 '실행 능력'을 조명하는 실질적인 데이터를 제공합니다.
![]()
🔮 발견된 현상과 미래 전망: AI 사회성의 '도약' 현상
연구자들은 모델의 성능이 매개변수 수(Parameter Count)가 증가함에 따라 부드러운 곡선이 아닌 '도약' 형태로 향상된다는 점을 지적했습니다. 특정 능력 역치를 넘어서면, 모델은 단순한 반응에서 맥락을 인지하고 조정된 플레이를 구사하는 수준으로 행동이 급변합니다.
💡 주목할 만한 AI의 '인간적' 전략 사례
- 파트너 희생 전략: 자신의 늑대 파트너를 공개적으로 지목해 투표하게 만들어, 남은 게임 동안 마을의 신뢰를 확보하는 고급 조작.
- 사과를 통한 신뢰 회복: Gemini 2.5 Pro가 공격적인 태도가 늑대에게 유리했다고 인정하며 오히려 신뢰도를 높인 사례.
- 언어 패턴 분석: 두 늑대의 대화 패턴이 지나치게 유사하다는 점을 포착해 정체를 간파한 논리적 추론.
이러한 벤치마크는 AI의 자동화와 통합을 위한 🔥 n8n 초보자 완벽 가이드 복잡한 워크플로우 구축부터 AI 통합까지 마스터하기와 같은 실용적 도구의 발전과 함께, AI가 사회적 맥락에서 어떻게 행동할지 이해하는 데 필수적인 기준이 될 것입니다. 앞으로 Anthropic의 Claude나 xAI의 Grok-4 등 더 많은 모델이 추가될 예정이며, AI의 '사회적 지능'에 대한 평가는 더욱 정교해질 전망입니다.
