T5Gemma 2는 단순한 재훈련을 넘어 Gemma 3 제품군의 강력한 차세대 기능을 계승하면서도 상당한 아키텍처적 변화를 통합했습니다.
효율성을 위한 아키텍처 혁신
소규모 모델에서 효율성을 극대화하기 위해 다음과 같은 핵심 구조적 개선이 도입되었습니다.
-
묶인 임베딩 (Tied embeddings): 인코더와 디코더 간에 임베딩을 묶어 전체 파라미터 수를 크게 줄였습니다. 이는 특히 새로운 270M-270M 모델과 같이 메모리 공간이 제한적인 환경에서 더 많은 기능을 통합하는 데 중요합니다.
-
병합된 어텐션 (Merged attention): 디코더에서 셀프 어텐션과 크로스 어텐션을 단일 통합 어텐션 레이어로 결합하는 병합된 어텐션 메커니즘을 채택했습니다. 이는 모델 파라미터와 아키텍처 복잡성을 줄여 모델 병렬화를 개선하고 추론 성능에 이점을 제공합니다.
차세대 기능
Gemma 3의 혁신을 바탕으로 T5Gemma 2는 모델 기능 면에서도 상당한 업그레이드를 나타냅니다.
-
멀티모달리티 (Multimodality): T5Gemma 2 모델은 텍스트와 함께 이미지를 이해하고 처리할 수 있습니다. 고효율 비전 인코더를 활용하여 시각적 질문 답변 및 멀티모달 추론 작업을 원활하게 수행할 수 있습니다.
-
확장된 장문맥 (Extended long context): 문맥 창이 획기적으로 확장되었습니다. Gemma 3의 교대 로컬 및 글로벌 어텐션 메커니즘을 활용하여 T5Gemma 2는 최대 128K 토큰의 문맥 창을 처리할 수 있습니다.
-
대규모 다국어 지원 (Massively multilingual): 더 크고 다양한 데이터셋으로 훈련된 이 모델은 이제 기본적으로 140개 이상의 언어를 지원합니다.