1. 시스템 아키텍처와 기술 스택
Jarvis는 Rails 8을 기반으로 하며, LLM과의 모든 상호작용은 RubyLLM 라이브러리를 통해 처리됩니다. 이 시스템의 핵심은 Redis, Node, Webpack과 같은 외부 의존성을 배제하고 Rails의 내장 기능만으로 고성능 AI 앱을 만드는 데 있습니다.
- RubyLLM Mixins:
acts_as_chat,acts_as_message,acts_as_tool_call을 통해 대화 이력과 도구 호출 기록을 ActiveRecord 모델에 간편하게 영속화합니다. - 실시간 처리: Hotwire(Turbo Streams)와 Solid Cable을 사용하여 LLM의 응답을 실시간으로 브라우저에 스트리밍합니다.
- 비동기 작업: Solid Queue를 활용하여 에이전트의 실행 루프를 백그라운드에서 처리함으로써 사용자 경험을 최적화하고 서버 자원을 효율적으로 관리합니다.
2. 에이전트 설계: 오케스트레이터와 전문 에이전트
Jarvis는 모든 요청을 하나의 거대 모델이 처리하는 대신, 역할을 분담하는 구조를 취하여 정확도를 높였습니다.
- BaseAgent: 모든 에이전트의 부모 클래스로,
#system_prompt와#tools메서드를 구현하도록 강제하여 일관된 인터페이스를 유지합니다. - OrchestratorAgent: 사용자의 입력을 분석하여 직접 처리할지, 아니면 전문 에이전트에게 위임할지 결정하는 관제탑 역할을 수행합니다.
- Specialized Agents: ResearchAgent(웹 검색, PDF 분석), SchedulingAgent(캘린더 관리), EmailAgent(이메일 발송) 등 특정 도구 세트만 보유한 에이전트들로 구성되어 동작의 예측 가능성을 극대화합니다.
3. 도구(Tools)와 기술(Skills)의 구현
에이전트가 현실 세계와 상호작용하는 접점은 Tool 클래스로 정의됩니다.
- RubyLLM::Tool: 각 도구는 파라미터를 선언하고
#execute메서드를 구현합니다. LLM은 도구 설명을 보고 인자를 구성하며, RubyLLM이 함수 호출 프로토콜을 자동으로 처리합니다. - DelegateToAgentTool: 오케스트레이터가 다른 에이전트에게 작업을 넘길 때 사용하는 핵심 도구입니다. 서브 에이전트는 일시적으로 생성되어 작업을 수행하고 결과를 반환한 뒤 소멸하는 휘발성 구조를 가집니다.
- Skills: 에이전트의 기본 로직을 수정하지 않고도 행동을 변경할 수 있는 프롬프트 믹스인입니다. 예를 들어
InterviewSkill은 에이전트가 작업을 수행하기 전 사용자에게 확인 질문을 던지도록 유도하여 실수를 방지합니다.
4. 사용자 경험과 신뢰성 확보
AI 에이전트의 블랙박스 문제를 해결하기 위해 Jarvis는 투명성을 강조하는 UI/UX를 채택했습니다.
- 실시간 토큰 스트리밍: 사용자는 에이전트가 답변을 생성하는 과정을 실시간으로 지켜볼 수 있어 대기 시간의 지루함을 줄입니다.
- 도구 실행 가시성: Task 레코드와 연동하여 에이전트가 실제로 어떤 도구(예: DomainCheckerTool)를 사용했는지 UI에 배지 형태로 명시합니다. 이는 에이전트가 거짓 정보를 생성하는 것을 방지하고 사용자의 신뢰를 구축하는 ‘신뢰 및 검증(Trust-but-verify)’ 모델을 실현하는 핵심 요소입니다.
5. Rails 컨벤션의 승리
결론적으로 Rails의 컨벤션은 AI 오케스트레이션에 매우 최적화되어 있습니다. 모델은 에이전트와 태스크가 되고, 잡은 에이전트의 실행 루프를 담당하며, Turbo Streams는 복잡한 설정 없이 실시간 업데이트를 제공합니다. 이는 복잡한 전용 프레임워크 없이도 순수 Ruby와 Rails만으로 충분히 확장 가능하고 강력한 AI 에이전트 플랫폼을 구축할 수 있음을 시사합니다.