ChatGPT 에이전트 모드는 OpenAI 서버에서 가상 컴퓨터를 실행하며, 기존 자동화 도구와 달리 사람처럼 웹 페이지를 보고 상호 작용할 수 있습니다. 본 실험은 에이전트가 명시적인 테스트 케이스 없이 시각적 및 기능적 문제를 식별할 수 있는지 검증했습니다.
자동화된 QA 실험 과정 및 성공 사례
-
실험 설정: 에이전트에게 ‘FrontrowMD 품질 보증 에이전트’ 역할을 부여하고, 정상 작동하는 웹 페이지를 기준점(working implementation)으로 제시했습니다.
-
문제 식별: 수동으로 오류를 발생시킨 페이지를 제공하고 기준 페이지와의 ‘차이점’ 또는 ‘문제점’을 보고하도록 요청했습니다.
-
주요 성과:
- 부정확한 배지 크기, 누락된 리뷰 섹션, 작동하지 않는 CTA, 레이아웃 문제 등을 정확히 식별했습니다.
- 단순한 픽셀 차이 대신, 문제의 본질을 전체적으로 평가하는 능력을 보였습니다. (예: ‘고정된 높이 상자에 갇혀 세로 스크롤바가 생겨 텍스트를 읽기 어렵다’).
- 여러 URL 목록 검사에서도 문제 페이지를 성공적으로 보고했으며, 에이전트가 스스로 오류를 수정하는 자율성을 보여주었습니다.
에이전트 모드의 한계
-
프로그래밍 가능성 부족: API 부재로 ChatGPT 인터페이스를 통해서만 사용 가능하며, 확장성이 제한됩니다.
-
높은 비용: 각 명령이 에이전트 크레딧을 소모하여 대규모 테스트 시 비용이 빠르게 증가합니다.
-
개인 정보 보호: 특히 규제 산업에서는 데이터 및 개인 정보 보호 우려가 있습니다.
-
블랙박스 특성: 에이전트의 내부 작업 단계를 명시적으로 볼 수 없어 프로세스 미세 조정이 어렵습니다.
이러한 한계로 인해 에이전트 모드는 탐색적 QA나 일회성 감사에는 적합하지만, 프로덕션 환경의 지속적인 QA 자동화에는 더 스크립트 가능한 솔루션이 필요함을 시사합니다.