1. 테스트 시나리오 및 모델별 성능
두 가지 복잡한 문제(통계적 이상 감지, 분산 알림 중복 제거)에 대한 테스트에서 각 모델은 뚜렷한 강점과 약점을 보였습니다.
-
Claude Opus 4.5: 방대한 구현과 정교한 아키텍처 설계를 제공했으나, 실제 시스템 통합 시 치명적인 런타임 오류와 상태 관리 문제로 인해 프로덕션에 부적합했습니다. 아키텍처적 사고는 뛰어나지만, 안정화 및 추가 엔지니어링 작업이 필수적입니다.
-
GPT-5.1 Codex: 고처리량 이상 감지에서 견고하고 효율적인 솔루션을 제공했으며, 엣지 케이스 방어력이 뛰어났습니다. 중복 제거에서도 깨끗하고 프로덕션 지향적인 아키텍처를 구현하여 최소한의 개입으로 배포 가능한 코드를 제공했습니다. 오류를 사전에 처리하고 실제 배포를 고려한 가장 실용적인 선택이었습니다.
-
Gemini 3 Pro: 이상 감지에서 O(1) 메모리 사용량을 보장하는 저지연 아키텍처를 구현했으며, 엣지 케이스 처리가 뛰어났습니다. 중복 제거에서는 PostgreSQL 기반의 간결한 통합 솔루션을 제공했습니다. 빠르고 비용 효율적이며 간결한 솔루션으로 신속한 프로토타이핑에 적합하나, 일부 심층적인 엣지 케이스에 대한 수동 검토가 필요했습니다.
2. 비용 효율성
총 비용은 Opus 4.5가 1.76달러로 가장 비쌌고, GPT-5.1 Codex는 0.51달러, Gemini 3 Pro는 0.25달러로 가장 저렴했습니다. Opus는 방대한 코드와 추론으로 인해 비용이 높았으며, GPT-5.1은 간결하고 효율적이었고, Gemini는 가장 압축된 구현으로 최저 비용을 기록했습니다.