Морфологический анализатор татарского языка
Морфологический анализатор является базовой составляющей во всех полнофункциональных лингвистических процессорах. Морфологический анализатор татарского языка разработан с помощью технологии трансдьюсеров конечных состояний инструментария Helsinki Finite State Transducer (HFST) на основе двухуровневой морфологической модели языка (модель Koskenniemi, 1983).
Используемая морфологическая модель различает 12 типов корневых аффиксов (часть речи, pos), 81 словообразовательных и словоизменительных аффиксов, + 11 доп. обозначений. Также в модуле реализовано разрешение морфологической многозначности на основе контекстных правил и статистико-вероятностных моделей. Скорость обработки порядка 10.000 токенов в секунду.
Код программного модуля открыт (за исключением правил и словарей) и доступен по адресу bitbucket.org/yaugear/py_tat_morphan.
Морфологический анализатор внедрен в систему татарского национального корпуса «Туган тел» для грамматической аннотации словоформ, используется в Университетской информационной системе РОССИЯ (УИС РОССИЯ) для поддержки поискового функционала в русско-татарской коллекции текстов, в Интернет-сервисе Яндекс.Переводчик для поддержки машинного перевода в русско-татарской языковой паре и применяется в учебном процессе по направлению 45.03.01 «Филология: прикладная филология» в Казанском федеральном университете.