저자는 ReqLLM 프로젝트의 이미지 생성 지원 기능 구현 계획에 대해 세 가지 LLM의 성능을 분석했습니다. 다음은 각 모델에 대한 평가와 전반적인 경험에 대한 세부 사항입니다.
LLM 계획 평가 순위
저자의 평가 순위는 GPT 5.2 > Opus 4.5 > Gemini 3 Pro였습니다. 흥미롭게도, 세 모델 모두 이 평가에 동의했습니다.
각 모델별 상세 평가
-
GPT 5.2: 저자는 GPT의 계획을 유일하게 ‘정확한’ 계획으로 간주했습니다. 이는 이미지 지원 확장, 스트리밍 추가 등 향후 확장성을 고려할 때 가장 적합한 접근 방식을 제시했기 때문입니다.
-
Claude Opus 4.5: Claude의 계획은 기능적으로는 작동하지만, 본질적으로 병렬 응답 파싱 인프라를 도입하여 향후 이미지 지원 확장이나 스트리밍 추가를 어렵게 만들거나 불가능하게 할 수 있다고 평가되었습니다. 또한, Claude는 계획의 일부로 큰 구현 청크를 작성하는 경향이 있었습니다.
-
Gemini 3 Pro: Gemini의 계획은 가장 구체성이 떨어지고 정확도가 낮았습니다. 또한, 잘못된 이미지 생성 엔드포인트를 사용하는 문제가 발견되었습니다.
일상적인 작업 경험
저자는 Claude Code와 Codex(GPT)를 매일 사용하며 얻은 경험을 공유했습니다.
-
Claude Code: 더 깔끔한 출력, 병렬/백그라운드 실행과 같은 더 많은 기능, 더 빠른 작업 속도를 제공합니다.
-
Codex(GPT): 훨씬 더 철저하며 대부분 더 높은 품질의 코드를 생성합니다. 특히 Codex의 ‘/review’ 기능은 과소평가되어 있으며, 저자 자신, Claude, 또는 다른 Codex가 작성한 코드에 대해 항상 ‘/review’를 실행하여 최신 패치로 인해 도입된 미묘한 엣지 케이스와 버그를 찾는 데 탁월하다고 강조했습니다.