도전 과제: 소형 모델의 전문화
클라우드 기반 LLM은 개인 정보 보호(GDPR 등) 및 지연 시간 요구 사항으로 인해 모바일 앱에 항상 적합하지 않습니다. 따라서 모델을 기기 내에서 로컬로 실행하는 것이 필수적입니다. 그러나 대부분의 스마트폰에는 특수 MPU가 부족하여 개발자들은 고효율의 소형 모델을 필요로 합니다. Gemma(270M 또는 1B 매개변수)와 같은 모델은 효율적이지만, 특정 모바일 애플리케이션(예: 의료 영상 보조, 법률 문서 분석)에 유용하려면 도메인 전문가로 미세 조정되어야 합니다. 문제는 대부분의 앱 개발자가 ML 인프라 전문가가 아니라는 점입니다. 복잡한 훈련 파이프라인 설정, 종속성 관리, 가파른 학습 곡선은 상당한 진입 장벽을 만듭니다.
해결책: Google Colab에서 Tunix를 통한 SFT
Cactus는 이러한 문제를 해결하기 위해 Colab에서 Tunix의 SFT(Supervised Fine Tuning) API를 사용하는 Python 스크립트를 구현하여 “저마찰” 워크플로우를 구축했습니다.
- 1. 엔진: Tunix
- Google의 경량 모듈형 LLM 후처리 라이브러리로, SFT 및 주요 RL 알고리즘을 지원하며 TPU에서 네이티브로 실행됩니다.
- 무거운 프레임워크의 복잡성을 제거하고, Supervised Fine-Tuning(SFT)에 대한 간소화된 경로를 제공합니다.
- 2. 접근성: Google Colab 무료 티어
- 개발자가 복잡한 클라우드 결제 및 프로젝트 ID를 즉시 설정할 필요 없이 Google Colab Notebook 내에서 전체 워크플로우가 작동합니다.
- 무료 티어를 통해 개발자는 Gemma 3 모델 로드, 특정 데이터셋 업로드, Tunix를 사용한 SFT 작업 실행, 그리고 변환을 위한 가중치 내보내기가 가능합니다.
- 3. 배포: Cactus
- 미세 조정된 모델은 Cactus 그래프 형식으로 변환됩니다.
- 이를 통해 전문화된 Gemma 3 모델을 Flutter 또는 네이티브 모바일 앱에 몇 줄의 코드만으로 직접 배포할 수 있으며, 광범위한 스마트폰 하드웨어에서 효율적으로 실행됩니다.
이 솔루션의 중요성
Cactus의 공동 설립자 Henry Ndubuaku는 “우리의 사용자는 앱 개발자이지 ML 엔지니어가 아니다. 그들은 모델을 선택하고, 데이터를 업로드하고, ‘미세 조정’을 클릭하기를 원한다”고 강조합니다. Tunix와 Colab을 활용함으로써 미세 조정의 부담을 없애는 ‘복제 후 실행’ 경험을 제공할 수 있습니다. 이 워크플로우는 AI 민주화의 가장 쉬운 접근 방식을 대표합니다: 복잡한 로컬 환경 설정 불필요, 초기 인프라 비용 없음, 선도적인 OSS 모델(Gemma)을 미세 조정하는 고성능 JAX 네이티브 Tunix 라이브러리 사용.