T5Gemma 2: 차세대 멀티모달 및 장문맥 인코더-디코더 모델

T5Gemma 2: The next generation of encoder-decoder models

작성자
HackerNews
발행일
2025년 12월 18일

핵심 요약

  • 1 T5Gemma 2는 Gemma 3 기반의 차세대 인코더-디코더 모델로, 멀티모달 및 장문맥 기능을 통합하여 효율성을 극대화했습니다.
  • 2 이 모델은 파라미터 절감을 위해 묶인 임베딩과 병합된 어텐션을 채택했으며, 270M부터 4B까지의 소형 모델로 빠른 실험 및 온디바이스 배포에 적합합니다.
  • 3 T5Gemma 2는 Gemma 3의 혁신을 계승하여 멀티모달리티, 최대 128K 토큰의 확장된 장문맥, 140개 이상의 언어 지원 기능을 제공합니다.

도입

T5Gemma 2는 구글의 Gemma 3를 기반으로 하는 인코더-디코더 모델 계열의 최신 진화형입니다. 기존 T5Gemma가 강력한 디코더 전용 모델을 인코더-디코더 아키텍처로 성공적으로 전환하여 새로운 다재다능함을 입증한 데 이어, T5Gemma 2는 이를 멀티모달 및 장문맥 처리 영역으로 확장합니다. 스크래치부터 훈련하는 막대한 비용 없이 고품질의 추론 효율적인 모델을 제공하는 것을 목표로 합니다.

T5Gemma 2는 단순한 재훈련을 넘어 Gemma 3 제품군의 강력한 차세대 기능을 계승하면서도 상당한 아키텍처적 변화를 통합했습니다.

효율성을 위한 아키텍처 혁신

소규모 모델에서 효율성을 극대화하기 위해 다음과 같은 핵심 구조적 개선이 도입되었습니다.

  • 묶인 임베딩 (Tied embeddings): 인코더와 디코더 간에 임베딩을 묶어 전체 파라미터 수를 크게 줄였습니다. 이는 특히 새로운 270M-270M 모델과 같이 메모리 공간이 제한적인 환경에서 더 많은 기능을 통합하는 데 중요합니다.

  • 병합된 어텐션 (Merged attention): 디코더에서 셀프 어텐션과 크로스 어텐션을 단일 통합 어텐션 레이어로 결합하는 병합된 어텐션 메커니즘을 채택했습니다. 이는 모델 파라미터와 아키텍처 복잡성을 줄여 모델 병렬화를 개선하고 추론 성능에 이점을 제공합니다.

차세대 기능

Gemma 3의 혁신을 바탕으로 T5Gemma 2는 모델 기능 면에서도 상당한 업그레이드를 나타냅니다.

  • 멀티모달리티 (Multimodality): T5Gemma 2 모델은 텍스트와 함께 이미지를 이해하고 처리할 수 있습니다. 고효율 비전 인코더를 활용하여 시각적 질문 답변 및 멀티모달 추론 작업을 원활하게 수행할 수 있습니다.

  • 확장된 장문맥 (Extended long context): 문맥 창이 획기적으로 확장되었습니다. Gemma 3의 교대 로컬 및 글로벌 어텐션 메커니즘을 활용하여 T5Gemma 2는 최대 128K 토큰의 문맥 창을 처리할 수 있습니다.

  • 대규모 다국어 지원 (Massively multilingual): 더 크고 다양한 데이터셋으로 훈련된 이 모델은 이제 기본적으로 140개 이상의 언어를 지원합니다.

결론

T5Gemma 2는 소형 인코더-디코더 모델이 달성할 수 있는 새로운 표준을 제시합니다. 이 모델은 Gemma 3 아키텍처의 강력한 멀티모달 및 장문맥 기능을 계승하며, 핵심 기능 영역에서 뛰어난 성능을 보여줍니다. 효율적인 아키텍처 혁신과 확장된 기능 덕분에 T5Gemma 2는 온디바이스 애플리케이션을 비롯한 다양한 환경에서 신속한 실험과 배포에 이상적인 솔루션을 제공합니다.

댓글 0

로그인이 필요합니다

댓글을 작성하거나 대화에 참여하려면 로그인이 필요합니다.

로그인 하러 가기

아직 댓글이 없습니다

첫 번째 댓글을 작성해보세요!