발표자는 현재의 기계 번역 기술이 가진 한계점을 명확히 지적하며 프로젝트의 필요성을 설명합니다. 구글과 같은 기업들이 통계적 기계 번역에 열정적이지만, 이 기술은 여전히 많은 오류를 발생시킵니다. 웹사이트 콘텐츠를 읽는 데는 큰 문제가 없으나, 이메일 작성 등 능동적인 작문 활동에 기계 번역을 사용하면 심각한 문제가 발생할 수 있습니다. 수신자가 기계 번역 사용 여부를 알 수 없어 작성자에 대한 부정적인 인상을 형성할 수 있기 때문입니다. 이는 웹사이트 읽기와 작문 커뮤니케이션 간의 근본적인 차이에서 비롯됩니다. 따라서 작문 커뮤니케이션에는 기계 번역에 전적으로 의존할 수 없으며, 비원어민은 결국 제2외국어로 직접 작문해야 하는 상황에 놓입니다. 이 문제를 해결하기 위해 발표자는 다음과 같은 접근 방식을 제안하고 구현했습니다.
Lingo 프로젝트의 핵심 구성 요소
-
문제 정의: 기계 번역의 부정확성과 작문 커뮤니케이션에서의 신뢰성 부족. 비원어민 작문 시 실시간 교정 및 개선 제안의 필요성.
-
데이터 수집 및 코퍼스 구축: 여러 언어 학습 웹사이트를 크롤링하여 원어민 영어 화자가 직접 수정한 방대한 양의 영어 작문 교정 데이터를 수집했습니다. 이 데이터를 기반으로 ‘자동 영어 작문 교정 도구’ 개발에 최적화된 맞춤형 코퍼스를 구축했습니다.
-
클라이언트 소프트웨어 개발: 구축된 코퍼스를 활용하는 클라이언트 소프트웨어인 ‘Lingo’를 개발했습니다. 이 소프트웨어는 파이어폭스(Firefox) 플러그인 형태로 작동하며, 사용자가 텍스트를 입력하는 즉시 적절한 교정 제안과 팁을 제공합니다.
-
실시간 교정 시스템: Lingo의 가장 중요한 특징은 사용자가 작문을 멈추지 않고도 실시간으로 교정 및 팁을 받을 수 있다는 점입니다. 이는 작문 흐름을 방해하지 않으면서도 효과적인 학습 및 교정을 가능하게 합니다.