1. 프롬프트 준수 테스트: 엄격한 요구사항 이행 능력
이 테스트에서는 Python Rate Limiter 구현에 대한 10가지 엄격한 요구사항을 제시하여 모델이 지시를 얼마나 정확하게 따르는지 평가했습니다.
-
Gemini 3.0 (99/100점): 명시된 요구사항을 문자 그대로 따르며 간결하고 깔끔한 코드를 생성하여 가장 높은 점수를 받았습니다.
-
Claude Opus 4.5 (98/100점): 요구사항에 충실하면서도 더 나은 문서화를 포함한 깔끔한 코드를 작성했으나, 내부 변수명에서 미미한 불일치가 있었습니다.
-
GPT-5.1 (97/100점): 요구사항에 명시되지 않은 입력 유효성 검사 및 추가 기능을 추가하는 방어적인 접근 방식을 취하여 점수가 다소 낮아졌습니다.
2. 코드 리팩토링 테스트: 복잡한 레거시 코드 개선 능력
20개 이상의 SQL 인젝션 취약점, 일관성 없는 명명 규칙, 입력 유효성 검사 부재 등 심각한 문제가 있는 365라인의 TypeScript API 핸들러를 제공하고, 이를 리팩토링하여 계층 분리, Zod 유효성 검사, 보안 취약점 해결 등을 요구했습니다.
-
Claude Opus 4.5 (100/100점): 유일하게 요청된 10가지 요구사항(속도 제한, 환경 변수 사용 포함)을 모두 구현하여 만점을 기록했습니다.
-
GPT-5.1 (9/10개 요구사항 충족): 누락된 권한 확인, 안전하지 않은 데이터베이스 작업 등 보안 취약점을 발견하고 트랜잭션 및 하위 호환성을 고려하는 방어적인 접근 방식을 보였습니다.
-
Gemini 3.0 (8/10개 요구사항 충족): 더 깔끔하고 빠르게 코드를 생성했지만, 일부 깊은 아키텍처적 결함을 놓치고 트랜잭션 구현 대신 주석을 남기는 등 부분적인 해결책을 제시했습니다.
3. 시스템 확장 테스트: 기존 아키텍처 이해 및 확장 능력
Webhook 및 SMS를 지원하는 400라인의 알림 시스템을 제공하고, 기존 아키텍처를 설명한 후 이메일 핸들러를 추가하도록 요청했습니다.
-
Claude Opus 4.5: 1분 만에 가장 빠르고 완벽한 구현(7가지 알림 이벤트에 대한 템플릿 포함, 936라인)을 제공했습니다. 아키텍처 분석에서도 Mermaid 다이어그램과 실행 가능한 코드 제안을 포함했습니다.
-
GPT-5.1: 상세한 아키텍처 감사(Mermaid 시퀀스 다이어그램, 특정 라인 참조, 숨겨진 버그 발견 포함)를 제공했으며, 기존 시스템에 완벽하게 맞는 풍부한 기능(TO, CC, BCC 처리)의 이메일 지원을 추가했습니다.
-
Gemini 3.0: 간결하고 높은 수준의 요약(51라인)을 제공했으며, 이메일 핸들러는 기본적인 기능만 구현하여 첨부 파일이나 CC/BCC 배열과 같은 고급 기능을 생략했습니다.
종합 평가 및 스타일 분석
-
속도 및 비용: Opus 4.5는 가장 빠른 총 처리 시간(7분)을 기록했으며, Gemini 3.0은 가장 저렴했지만 복잡한 작업에서 더 많은 토큰을 소비하여 GPT-5.1보다 비용이 높게 책정될 수 있습니다.
-
코딩 스타일: GPT-5.1은 JSDoc 주석, 명시적 타입 정의, 에러 처리 등 상세하고 방어적인 스타일을 선호합니다. Gemini 3.0은 주석과 타입 정의를 생략하고 최소한의 작동 가능한 코드를 생성합니다. Opus 4.5는 명확한 섹션 헤더와 커스텀 에러 클래스를 사용하는 체계적이고 완전한 스타일을 보여줍니다.