Многофункциональная модель тюркской морфемы

Сайт: modmorph.turklang.net

Морфология татарского языка используется для следующих целей в задаче информационного поиска:
  • исходный морфологический разбор текста для построения поискового образа;
  • морфологический разбор запроса пользователя для сопоставления результата морфологического разбора с поисковым индексом;
  • подсветка в найденных текстах слов запроса.

Решение поставленных задач обеспечивается морфологическими модулями (TatParser и ConsoleParser), в основе которых лежит двухуровневая модель татарской морфологии. Первая версия морфологического анализатора татарского языка была реализована на базе программного инструментария PC-KIMMO, в котором морфологическая модель языка описывается при помощи алфавита языка, фонологических и морфотактических правил. При этом существует ряд ограничений по применению данной модели. В частности, допускается использование только латинского алфавита для описания языка, что первоначально потребовало реализации промежуточных процедур конвертации входного кириллического текста в латинский алфавит, что в свою очередь влияло на время разбора. Поэтому в последующей версии морфологического анализатора разработана библиотека функции PC-KIMMO для работы с кириллическими символами, что позволило выйти на допустимый по быстродействию уровень разбора запроса. Для оптимизированного морфологического анализатора время обработки в среднем составляет 0,014 сек. для 100-байтного текста.

В настоящее время разработаны различные модели морфологии татарского языка: генеративная, парадигматическая и гибридная. Генеративная модель морфологии, основанная на правилах словоизменения, хотя и уступает другим моделям по быстродействию, обеспечивает полноту анализа словоформы, позволяя в полной мере учитывать агглютинативный характер языка, распознавая словоформы потенциально неограниченной длины. Данная модель,  разработанная  в Институте, использована при разработке корректора татарских текстов TatCorr. Эта же модель включена в состав распознавателя текстов фирмы ABBYY, начиная с версии OCR FineReader 4.0. Парадигматическая модель (также продукт Института прикладной семиотики) используется в текстовом процессоре фирмы Microsoft, начиная с MS Word 2007.

Другая модель морфологического анализатора на основе морфем активно развивается с 2014 г. в рамках проекта по разработке многофункционального многоязычного интернет-сервиса на базе структурно-параметрической функциональной модели тюркской морфемы. Модель морфем описывает свойства морфем на разных языковых уровнях, в том числе, определяет правила классификации и сочетания языковых единиц. База данных многоязычного интернет-сервиса позволяет создавать программы морфологического анализа и синтеза для различных тюркских языков.