Машинный перевод (группа тюркских языков, русско-татарский)
Сайт: translate.tatar
Для разработки системы машинного перевода изначально был выбран статистический подход. Это определило приоритетные задачи, заключающиеся в построении морфологического анализатора татарского языка, способного снизить зависимость моделей от сложности татарской морфологии, и накоплении параллельных русско-татарских предложений, необходимых для обучения статистических моделей. Результатом работы по созданию статистического русско-татарского переводчика по технологии phrase-based MT стала общедоступная версия переводчика от компании Яндекс, запущенная в 2015 году. Первая версия Яндекс.Переводчика для данной языковой пары была обучена, в том числе, с использованием морфоанализатора и параллельного корпуса, разработанных в Институте.
Однако наибольший рост качества работы систем машинного перевода произошел в последние годы благодаря использованию нейросетевых подходов. Начиная с 2016 года, системы машинного перевода, основанные на нейронных сетях, превзошли по качеству работы систем перевода, основанных на статистике. С тех пор многие компании разработали нейронные версии своих переводчиков для самых популярных языковых пар. С целью создания системы машинного перевода, способной демонстрировать хорошее качество работы для татарско-русской малоресурсной языковой пары, были использовали последние достижения в области машинного обучения. Текущая система включает в себя инструменты, которые позволяют дополнить обучающие данные, выполняют алгоритмы предварительной обработки текстов совместно с алгоритмом перевода на основе внимания.
Для решения задачи построения системы татарско-русского перевода необходимо создание достаточно большого параллельного корпуса. Ограничением здесь является небольшой объем источников, на основе которых он может быть построен. Одним из основных источников двуязычной информации являются веб-сайты министерств и других государственных ведомств. Другим источником данных являются литературные произведения - печатные книги с доступным переводом. Собранные данные были отфильтрованы в соответствии со следующими критериями: как исходное, так и переведенное предложения должны содержать от 1 до 80 слов; повторяющиеся предложения были удалены; все собранные тексты были выровнены с помощью инструмента ABBYY Aligner 2.0.
Основные этапы подготовки параллельного корпуса для обучения татарско-русского направления перевода:
- Формирование базового корпуса на основе Интернет ресурсов и литературных произведений;
- Фильтрация, автоматическое выравнивание и ручная корректировка результатов (328 тысяч пар предложений);
- Построение промежуточных систем русско-татарского переводчика;
- Ручной и полуавтоматический перевод новостных текстов на русском языке (189 тысяч пар предложений);
- Построение финальной версии русско-татарского переводчика;
- Расширение обучающего корпуса за счет back-translated алгоритма: с помощью русско-татарского переводчика было автоматически подготовлено дополнительно 409 тысяч пар параллельных предложений;
- Построение финальной версии татарско-русского переводчика.
Татарский язык является агглютинативным языком с богатой морфологией, что требует решения проблемы большого количества внесловарных слов из-за ограниченного размера словаря и данных для обучения. Чтобы преодолеть эту проблему, использовались базовые единицы, построенные на основе алгоритма byte-pair encoding. Модель разбиения слов на составляющие части была применена к объединенному русско-татарском корпусу.
Результаты построения системы машинного перевода для русско-татарской языковой пары показывают, что современные нейросетевые алгоритмы и подходы способны решать поставленную задачу перевода на достаточно высоком уровне. Подготовленный обучающий корпус параллельных русско-татарских текстов, а также методы расширения объема данных позволяют проводить дальнейшие исследования в этой области. Полученная система перевода превосходит единственную существующую систему перевода в этой языковой паре от компании Яндекс по показателю BLEU.
Проект выполняется в рамках Государственной программы «Сохранение, изучение и развитие государственных языков Республики Татарстан и других языков в Республике Татарстан на 2014 – 2020 годы»