Молодежный грант РТ за 2010 г.
Молодежный грант РТ за 2010 г.
Система обработки лингвистических данных для электронного корпуса татарских текстов
(рук. к.фил.н. Хакимов Б.Э.)
Цель проекта: разработка концептуальной модели и системы морфологической разметки электронного корпуса татарских текстов.
Результаты научно-исследовательской работы
1. Концептуальная модель электронного корпуса татарских текстов. Электронный корпус – информационная система, представляющая пользователю объективную релевантную информацию о функционировании и взаимодействии языковых единиц. Электронный корпус татарских текстов представляется как интегрированный комплекс концептуально-функциональных моделей различных уровней татарского языка, в котором происходит реализация различных концептуально-функциональных лингвистических моделей. В корпусе объединяются морфологическая модель, синтаксическая модель и семантическая модели. На данном этапе в корпусе реализована морфологическая модель. Информационная модель электронного корпуса включает морфологическую, синтаксическую, семантическую и другую лингвистическую информацию. Все эти типы информации взаимосвязаны, информация структурирована в форме лингвистических параметров, выраженных при помощи специальных формальных обозначений, обеспечивающих их автоматизированную обработку. Носителями параметров лингвистической информации являются единицы корпуса.
Система корпуса иерархически структурирована: текст – абзац – предложение – словоупотребление. Основной единицей корпуса является текст с метатекстовыми атрибутами, единицей-носителем собственно лингвистической информации – словоупотребление, а в перспективе с добавлением синтаксической разметки и предложение. Абзац является лишь структурной единицей текста и не несет специальной лингвистической информации. Структура корпусных единиц представляется при помощи специальной структурной разметки.
Модель корпуса представляется как технологическая схема, которая имеет следующие элементы: система обработки (подготовки) данных для корпуса – собственно корпус (БД на основе коллекции размеченных текстов) – система работы с корпусом (управление БД и поиск лингвистической информации). При таком подходе получается, что результаты НИР представляют программную реализацию системы обработки лингвистических данных, а также поисковый модуль системы работы с корпусом. Данные модули составляют разработанный программный комплекс корпуса татарских текстов.
2. Система параметров морфологической разметки татарских текстов. Морфологическая разметка в электронном корпусе татарских текстов представляет собой систему условных обозначений – тэгов, приписываемых каждой словоформе текста в результате работы уже упомянутого модуля морфологического анализа. Принадлежность к агглютинативному типу определяет особенности морфологического строения слова в татарском языке: аффиксы последовательно присоединяются к корню, каждое грамматическое значение, как правило, выражается отдельным аффиксом, аффиксы однозначны и регулярны, т.е. способны присоединяться ко всем словам определенной части речи. По этой причине предлагается подход, при котором морфологические характеристики словоформ в корпусе являются отражением его морфемного состава, т.н. «аффиксальной цепочки».
Перспективные задачи в данном направлении
- разработка средств контекстного анализа словоформ;
- разработка правил автоматического определения значений полифункциональных и омонимичных аффиксов, «нулевых» форм, правил автоматического распознавания однородных групп и других сложных случаев в обработке лингвистических данных;
- исследование возможностей создания специальных фонологических и морфотактических правил для специфичных классов лексических единиц, не подчиняющихся общим закономерностям;
- разработка методов и средств «обучения» лингвопроцессоров и корректировки лингвистических моделей посредством корпусного анализа частотности различных аффиксальных цепочек, анализа случаев присоединения к лексемам одного класса аффиксов из другой парадигмы.
- разработка синтаксических и семантических моделей электронного корпуса татарских текстов, реализация соответствующих систем разметки.
Основные публикации
- Хакимов Б.Э., Гильмуллин Р.А. К разработке системы параметров морфологической разметки для электронного корпуса татарских текстов // Труды Казанской школы по компьютерной и когнитивной лингвистике TEL-2008. – Казань: КГУ, 2009. – С. 24-29.
- Сулейманов Д.Ш., Хакимов Б.Э. Электронный корпус татарского языка и перспективы совместных прикладных исследований в тюркских языках / Д.Ш. Сулейманов, Б.Э. Хакимов // Материалы Форума Тюркского лингвистического общества, Баку, 23-26 июня 2010 г. (в печати).
- Хакимов Б.Э., Гильмуллин Р.А. Морфологическая разметка в корпусе татарского языка / Б.Э. Хакимов, Р.А. Гильмуллин // Труды Международной конференции “Компьютерная лингвистика: научное направление и учебная дисциплина”, Гомель, 3-4 ноября 2010 г. (в печати).