코딩 성능: 압도적인 우위
Opus 4.5는 현존하는 코딩 모델 중 최고로 평가받습니다.
-
계획 모드 개선: 사용자 중심의 직관적 계획을 수립하며, 복잡한 리팩토링에서 Codex Max 5.1보다 우수한 통찰력을 제공합니다.
-
병렬 워크플로우: 여러 프로젝트 동시 진행 시 컨텍스트를 유지합니다. Cora 이탈 감지 기능 완성, 자동화된 코드 리뷰어 구축, David Heinemeier Hansson의 Ruby on Rails 코딩 패턴 및 Andrew Kane의 Ruby Gem 작성 원칙 학습 등 복잡한 작업을 효율적으로 처리했습니다.
-
디자인 반복: 20회 UX 디자인 반복 작업에서도 일관된 개선 방향을 유지하며, 이전 모델들의 ‘제자리걸음’ 없이 꾸준한 발전을 이루었습니다.
글쓰기 성능: 자연스러운 문체, 아쉬운 편집 능력
Opus 4.5는 AI-스러운 표현 없이 자연스러운 문체를 구사하나, 편집 능력에는 한계가 있습니다.
-
편집: Sonnet 4.5나 GPT-5.1 Thinking과 달리 초고 검토 시 미미한 수정 사항만을 제시하여, 심층적인 비판 능력이 부족함을 드러냈습니다.
-
장문 작성: 작가의 의도를 깊이 이해하기보다 내용을 요약하는 경향을 보였습니다.
-
단문 작성: X와 LinkedIn 홍보 문구 작성에서는 간결하고 핵심을 잘 포착하여 뛰어난 성능을 보였습니다. 다만, 행동 유도 문구(Call to Action) 누락은 아쉬운 점입니다.
AI Diplomacy: 전략적이지만 고집스러운 플레이
Opus 4.5는 AI Diplomacy 벤치마크에서 Gemini 3, GPT-5.1, Grok 4.1을 상대로 승리하며 Claude 모델 중 첫 승리를 기록했습니다.
-
배신 역설: 동맹 배신율이 높았지만, 타인의 배신을 예상하지 못하는 경향을 보였습니다.
-
플레이 스타일: Gemini 3 Pro나 Grok 4.1보다 장황하고, GPT-5.1보다 정직하며, 관계 중심적이고 투명하게 의도를 드러내 숙련된 상대에게 약점이 될 수 있습니다.
-
조정 가능성: 프롬프트 최적화에 반응하나, GPT-5나 Gemini 3만큼 극적인 성능 향상을 보이지 않아, 고집스러운 특성이 강하게 나타났습니다.