본문으로 건너뛰기

Gusto의 범용 문서 처리 플랫폼: 개별 파서에서 셀프 서비스 플랫폼으로의 전환

Universal Document Processing at Gusto: From One-Off Parsers to a Self-Service Platform

작성자
발행일
2026년 02월 24일
https://engineering.gusto.com/universal-document-processing-at-gusto-from-one-off-parsers-to-a-self-service-platform-5be6c9764f09?gi=27fccc2fd9b8&source=rss----645edd256348---4

핵심 요약

  • 1 Gusto는 기존의 취약한 템플릿 기반 파서와 수동 검토 방식의 한계를 극복하기 위해 AI를 추상화 계층으로 활용한 범용 문서 처리(UDP) 플랫폼을 구축하였습니다.
  • 2 UDP 플랫폼은 수집, 분류, 추출, 검증, 매핑의 5단계 모듈형 아키텍처를 통해 다양한 문서 유형에 대해 유연하고 확장 가능한 데이터 추출 프로세스를 제공합니다.
  • 3 신뢰도 점수 기반의 라우팅과 비즈니스 로직 매핑 계층을 분리함으로써 엔지니어링 개입 없이도 비즈니스 사용자가 직접 새로운 문서 유형을 온보딩할 수 있는 환경을 조성했습니다.

도입

급성장하는 핀테크 기업 Gusto는 매년 수백만 건의 세무 양식, 신분 증명서, 규제 통지서 등 방대한 문서를 처리해야 하는 과제에 직면했습니다. 과거에는 특정 문서마다 개별 파서를 만들거나 수동 검토에 의존했으나, 문서 형식의 빈번한 변경과 기하급수적인 물량 증가로 인해 확장이 불가능한 임계점에 도달했습니다. 이에 Gusto 엔지니어링 팀은 단순한 도구 개선을 넘어, 어떤 형태의 문서라도 구조화된 데이터로 변환할 수 있는 '범용 문서 처리(UDP)' 플랫폼을 설계하여 운영 효율성을 극대화하고 자동화의 새로운 지평을 열었습니다.

1. AI를 추상화 계층으로 활용한 설계 철학

Gusto는 특정 AI 모델에 종속되지 않기 위해 AI를 하나의 추상화 계층으로 정의했습니다. 이는 모델이 변경되더라도 전체 시스템을 재작성할 필요 없이 하부의 지능만 진화시킬 수 있음을 의미합니다.

  • 의도와 구현의 분리: 무엇을 이해하려 하는지(예: W-2에서 이름 추출)는 선언적으로 정의하고, 어떤 모델이나 프롬프트를 사용할지는 플랫폼이 결정합니다.
  • 모델 불가지론(Model-agnostic): OCR에 강한 모델이나 구조화된 추출에 강한 모델 등 각 단계에 최적화된 AI 모델을 유연하게 선택하여 결합할 수 있습니다.
  • 결정론적 규칙과 확률적 지능의 결합: AI의 유연함과 9자리 SSN 형식 검증과 같은 엄격한 결정론적 규칙을 병합하여 데이터의 신뢰성을 보장합니다.

2. UDP 플랫폼의 5단계 핵심 아키텍처

문서 처리 과정을 5개의 독립적인 API 서비스로 분해하여 복잡성을 관리하고 재사용성을 높였습니다.

  1. 수집(Ingestion): 스캔된 PDF, 이메일 첨부 파일 등 다양한 소스의 문서를 공통 표현 형식으로 정규화하여 소스와 처리 로직을 분리합니다.
  2. 분류(Classification): 문서가 특정 연도의 W-2인지, 세금 통지서인지 등을 판별하여 이후 적용할 추출 로직과 검증 규칙을 결정합니다.
  3. 추출(Extraction): AI를 활용해 비구조화된 콘텐츠에서 필요한 구조화 데이터를 뽑아냅니다. 문서 유형에 따라 최적의 추출 전략을 투명하게 라우팅합니다.
  4. 검증(Validation): 추출된 데이터의 형식을 확인하고 AI의 신뢰도 점수가 임계치를 넘는지 판단합니다. 신뢰도가 낮으면 자동으로 수동 검토로 전달합니다.
  5. 매핑(Mapping): 추출된 원시 데이터를 Gusto의 내부 급여 시스템이나 비즈니스 스키마에 맞게 변환하여 비즈니스 로직과의 가교 역할을 수행합니다.

3. 플랫폼 전환의 교훈과 비즈니스 가치

플랫폼 도입 이후, 문서 처리는 엔지니어링 병목 구간에서 셀프 서비스 역량으로 탈바꿈했습니다. Gusto 팀이 얻은 주요 교훈은 다음과 같습니다.

  • 도메인 이해가 우선: 모델 선택보다 문서의 특성, 변경 빈도, 하류 시스템의 요구사항을 먼저 파악하는 것이 중요합니다.
  • 신뢰도 점수의 중요성: 모델의 단순 정확도보다 ‘언제 틀렸는지’를 알려주는 신뢰도 신호를 확보하고 이를 기반으로 라우팅 로직을 구축하는 데 집중했습니다.
  • 매핑 계층의 가치: 원시 데이터를 비즈니스 데이터 모델로 변환하는 매핑 과정은 매우 복잡하며, 이를 비즈니스 사용자가 직접 관리할 수 있게 만든 것이 큰 성과였습니다.
  • 실패를 고려한 설계: 문서 스캔 상태 불량이나 양식 업데이트는 필연적이므로, 재시도, 폴백, 명확한 에스컬레이션 경로를 아키텍처의 핵심으로 포함했습니다.

결론

Gusto의 사례는 기술적 난제를 해결하기 위해 최신 AI를 도입할 때, 단순한 도구로서가 아니라 플랫폼의 핵심 추상화 계층으로 설계하는 것이 얼마나 중요한지 보여줍니다. 특히 추출만큼이나 어려운 '매핑' 계층에 투자하고, 실패 케이스를 고려한 신뢰도 기반 설계를 구축한 점은 시사하는 바가 큽니다. 이러한 접근 방식은 문서 처리의 혼란을 확장 가능하고 미래 지향적인 자산으로 변화시켰으며, 이는 복잡한 비즈니스 프로세스를 자동화하려는 모든 기술 기업에게 중요한 이정표가 될 것입니다.

댓글0

댓글 작성

댓글 삭제 시 비밀번호가 필요합니다.

이미 계정이 있으신가요? 로그인 후 댓글을 작성하세요.

0/1000
정중하고 건설적인 댓글을 작성해 주세요.