본 테스트는 8천 개 이상의 스타를 보유한 ‘omni-tools’ 프로젝트에 두 가지 기능을 구현하는 방식으로 진행되었습니다. 과제는 전역 액션 팔레트(Ctrl + K) 추가와 도구 사용 분석 대시보드 구현이었습니다.
모델별 성능 요약
- Claude Opus 4.5:
- 강점: 전반적으로 가장 일관되고 신뢰할 수 있는 성능을 보였습니다. 두 과제 모두 완벽하게 작동하는 결과와 최상의 UI 완성도를 제공했으며, 빌드 문제 해결 능력도 뛰어났습니다. 처리 속도 또한 가장 빨랐습니다 (예: 과제 1은 7분 50초).
- 약점: 높은 비용이 단점으로 지적되었습니다.
- GPT-5.2-Codex (high):
- 강점: 높은 추론 수준을 통해 우수한 코드 품질과 견고한 구조를 제공했습니다. i18n 지원, 데이터 모델링 등 복잡한 기능을 세심하게 구현하며 높은 완성도를 보였습니다.
- 약점: 처리 시간이 가장 길었습니다 (예: 과제 1은 약 20분, 과제 2는 약 26분).
- Gemini 3 Pro:
- 강점: 가장 효율적이고 빠른 처리 시간을 자랑했습니다 (예: 과제 2는 약 5분). 낮은 비용으로 작업을 수행했습니다.
- 약점: 결과물이 최소 기능 구현 수준에 머물렀으며, UI 완성도와 기능의 깊이가 부족했습니다. 일부 기능 누락(언어 전환, 액션 팔레트 연동 부족)이 관찰되었습니다.
종합적으로, Claude Opus 4.5는 실제 기능 구현 작업에서 가장 안전하고 신뢰할 수 있는 선택으로 평가되었으며, GPT-5.2는 높은 품질의 코드를, Gemini 3 Pro는 속도와 비용 효율성을 강점으로 보였습니다.