🔍 대형 모델 시대에 등장한 초소형 AI의 역습
AI 업계는 거대 언어모델(LLM)의 파라미터 수 경쟁이 치열한 가운데, 단 7백만 파라미터로 대형 모델들을 제친 초소형 모델 'TRM(Tiny Recursive Model)'이 주목받고 있습니다. 삼성의 단일 연구자가 발표한 이 논문은 모델 크기가 0.01%에 불과함에도 ARC AGI 1에서 45%, ARC AGI 2에서 8%의 정확도를 기록하며 제미니 2.5 프로(4.9%)와 딥씩 R1을 능가했습니다. 이는 단순한 크기 축소가 아닌, '재귀적 계층적 추론'이라는 근본적인 접근법의 변화에서 비롯된 결과로, AI 효율성 패러다임 전환의 신호탄으로 평가됩니다.
![]()
🤔 기존 LLM의 추론 한계와 해결책 탐구
대형 언어모델은 자동회귀적 방식으로 다음 토큰을 예측하기 때문에, 복잡한 추론 문제에서 단일 토큰 오류가 전체 답변을 무효화시키는 취약점을 가집니다. 이를 보완하기 위해 등장한 '생각의 사슬(Chain of Thought)'과 'Pass@K' 기법은 추론 품질을 향상시켰지만, 여전히 많은 계산 자원(Test-Time Compute)을 소모하며 근본적인 추론 능력 부족 문제를 해결하지 못했습니다.
🧠 HRM에서 TRM으로: 생물학적 유사성에서 순수 효율성으로
이전 연구인 HRM(Hierarchical Reasoning Model)은 인간 뇌의 계층적 작용을 모방해 두 개의 네트워크를 사용했으나, 생물학적 유사성에 지나치게 의존해 실제 작동 원리가 불분명했습니다. TRM은 이러한 복잡성을 제거하고, 재귀(Recursion) 라는 단일 핵심 메커니즘에 집중했습니다. AI 노트북 성능 비교 가이드에서도 확인할 수 있듯, 복잡한 기술을 단순화하는 접근이 종종 혁신을 이끕니다.

⚙️ TRM의 핵심 메커니즘: 2층 네트워크의 재귀적 루프
TRM은 놀랍게도 단 2개의 층(Layer)으로 구성된 아주 작은 네트워크를 반복적으로 실행(재귀)하는 방식으로 작동합니다. 각 재귀 단계마다 모델은 현재 추측과 그 추측에 이르는 추론 흔적이라는 두 가지 '기억'을 업데이트합니다. 이는 스도쿠에서 한 수를 두고, 그 결과를 평가한 후 조정해 다시 시도하는 인간의 사고 과정과 유사합니다.
| 모델 | 파라미터 수 | ARC AGI 1 정확도 | ARC AGI 2 정확도 | 주요 특징 |
|---|---|---|---|---|
| TRM | 7백만 | 44.6% | 7.8% | 재귀적 추론, 2층 네트워크 |
| Gemini 2.5 Pro | 수조 개 | 4.9% | 데이터 없음 | 대규모 테스트 타임 컴퓨팅 |
| Deepseek R1 | 수백억 개 | 31.2% | 데이터 없음 | 추론 특화 모델 |
| Grok-2 (Thinking) | 수조 개 | 63.0% | 데이터 없음 | 대규모 전문 추론 모델 |
데이터를 종합해 볼 때, TRM은 파라미터 대비 효율성이 압도적으로 높습니다. 연구에 따르면, 층을 줄이고 재귀 횟수를 비례적으로 늘리는 것이 일반화 성능을 최대화하는 최적의 전략으로 확인되었습니다.

💡 작은 크기, 큰 의미: AGI를 향한 새로운 길
7백만 파라미터 모델의 성공은 '가상의 깊이(Virtual Depth)'를 창출하는 재귀가 새로운 스케일링 법칙이 될 가능성을 시사합니다. 이는 스마트폰이나 일반 컴퓨터에서도 고도로 추론 가능한 AI를 구동할 수 있는 미래를 예고하며, 하드웨어 의존도를 낮추고 AI 접근성을 혁신할 수 있습니다.
커뮤니티의 공통된 의견에 따르면, TRM의 등장은 단순한 모델 최적화를 넘어 AI의 근본적인 '추론' 방식을 재고하도록 만드는 계기가 될 것입니다. 글로벌 금융 스캔들의 교훈에서 보듯, 복잡한 시스템을 이해하려면 핵심 메커니즘에 대한 명확한 통찰이 필수적입니다. TRM은 AI 연구에 있어 그런 통찰을 제공한 사례입니다.
📅 정보 기준일: 2023년 10월 27일
