Google은 Chrome에 Gemini Nano 모델을 내장하여 브라우저 내 AI 실행 기능을 제공하지만, 실제 모델 파일은 별도로 다운로드해야 합니다. 구현에는 다음과 같은 주요 고려사항이 따릅니다.
-
구현 및 대체: 개발자는 특정 Gemini Nano 모델을 제어할 수 없으며, 1.5~2GB의 모델 파일이 Chrome 프로필별로 비동기 백그라운드에서 다운로드됩니다. Gemini Nano 사용이 불가능한 경우, OpenRouter를 통해 제공되는 무료 Google Gemma 3N 모델(성능 우수)로 대체되며, 이는 서버 기반 AI 추론의 저렴함을 시사합니다.
- 실제 성능 및 적합성:
- 적합성: 2026년 1월 기준, 사용자 중 약 41%만이 Gemini Nano 사용이 가능했습니다. 이는 Chrome 버전, 데스크톱, 영어 외에 CPU/GPU/OS 등 까다로운 하드웨어 요구사항 때문입니다.
- 추론 성능: Gemini Nano(기기 내)는 중앙값 7.7초, Gemma 3N(서버 API)은 1.3초로, 기기 내 모델이 약 6배 느렸습니다. 네트워크 지연 이점은 노트북 GPU와 데이터센터 간의 컴퓨팅 파워 차이에 압도되었으며, Gemini Nano의 p90+ 범위에서 긴 추론 시간은 하드웨어 한계로 추정됩니다.
-
예상치 못한 결과: 모델 다운로드는 사용자에게 완전히 보이지 않게 백그라운드에서 진행됩니다. 로컬 추론이 서버 API보다 느렸고, 비용 절감 효과도 미미했습니다.
- Rails Turbo 트랩: Rails의 Turbo 기능(링크 호버 시 프리페치)이 동시에 여러 AI 추론을 유발하여 초기 데이터 측정(8배 느림)을 왜곡했습니다.
data-turbo="false"로 수정 후 실제로는 6배 느린 것으로 확인되었으며, 이는 클라이언트 측 성능에 AI 추론이 미치는 영향이 크다는 교훈을 주었습니다.