1. AI를 추상화 계층으로 활용한 설계 철학
Gusto는 특정 AI 모델에 종속되지 않기 위해 AI를 하나의 추상화 계층으로 정의했습니다. 이는 모델이 변경되더라도 전체 시스템을 재작성할 필요 없이 하부의 지능만 진화시킬 수 있음을 의미합니다.
- 의도와 구현의 분리: 무엇을 이해하려 하는지(예: W-2에서 이름 추출)는 선언적으로 정의하고, 어떤 모델이나 프롬프트를 사용할지는 플랫폼이 결정합니다.
- 모델 불가지론(Model-agnostic): OCR에 강한 모델이나 구조화된 추출에 강한 모델 등 각 단계에 최적화된 AI 모델을 유연하게 선택하여 결합할 수 있습니다.
- 결정론적 규칙과 확률적 지능의 결합: AI의 유연함과 9자리 SSN 형식 검증과 같은 엄격한 결정론적 규칙을 병합하여 데이터의 신뢰성을 보장합니다.
2. UDP 플랫폼의 5단계 핵심 아키텍처
문서 처리 과정을 5개의 독립적인 API 서비스로 분해하여 복잡성을 관리하고 재사용성을 높였습니다.
- 수집(Ingestion): 스캔된 PDF, 이메일 첨부 파일 등 다양한 소스의 문서를 공통 표현 형식으로 정규화하여 소스와 처리 로직을 분리합니다.
- 분류(Classification): 문서가 특정 연도의 W-2인지, 세금 통지서인지 등을 판별하여 이후 적용할 추출 로직과 검증 규칙을 결정합니다.
- 추출(Extraction): AI를 활용해 비구조화된 콘텐츠에서 필요한 구조화 데이터를 뽑아냅니다. 문서 유형에 따라 최적의 추출 전략을 투명하게 라우팅합니다.
- 검증(Validation): 추출된 데이터의 형식을 확인하고 AI의 신뢰도 점수가 임계치를 넘는지 판단합니다. 신뢰도가 낮으면 자동으로 수동 검토로 전달합니다.
- 매핑(Mapping): 추출된 원시 데이터를 Gusto의 내부 급여 시스템이나 비즈니스 스키마에 맞게 변환하여 비즈니스 로직과의 가교 역할을 수행합니다.
3. 플랫폼 전환의 교훈과 비즈니스 가치
플랫폼 도입 이후, 문서 처리는 엔지니어링 병목 구간에서 셀프 서비스 역량으로 탈바꿈했습니다. Gusto 팀이 얻은 주요 교훈은 다음과 같습니다.
- 도메인 이해가 우선: 모델 선택보다 문서의 특성, 변경 빈도, 하류 시스템의 요구사항을 먼저 파악하는 것이 중요합니다.
- 신뢰도 점수의 중요성: 모델의 단순 정확도보다 ‘언제 틀렸는지’를 알려주는 신뢰도 신호를 확보하고 이를 기반으로 라우팅 로직을 구축하는 데 집중했습니다.
- 매핑 계층의 가치: 원시 데이터를 비즈니스 데이터 모델로 변환하는 매핑 과정은 매우 복잡하며, 이를 비즈니스 사용자가 직접 관리할 수 있게 만든 것이 큰 성과였습니다.
- 실패를 고려한 설계: 문서 스캔 상태 불량이나 양식 업데이트는 필연적이므로, 재시도, 폴백, 명확한 에스컬레이션 경로를 아키텍처의 핵심으로 포함했습니다.