Национальный корпус татарского языка «Туган тел»

Главная
НИИ «Прикладная семиотика»
Научная деятельность
Фундаментальные и прикладные разработки

Национальный корпус татарского языка «Туган тел»

Национальный корпус татарского языка «Туган тел» является лингвистическим ресурсом современного литературного татарского языка, предназначенным для широкого круга пользователей - лингвистов, специалистов в области татарского, тюркского и общего языкознания, типологов, преподавателей татарского языка, деятелей культуры, а также для всех, кто изучает и интересуется татарским языком. Данный электронный корпус является базовой составляющей программно-инструментального комплекса для исследования и разработок в тюркских языках.

Проект разработки электронного корпуса включает:

разработку концептуальной модели корпуса татарских текстов.
формирование текстовой коллекции, ее техническая и орфографическая нормализация.
разработку методологии лингвистической аннотации татарских текстов в части системы морфологической разметки и способов ее автоматизации.
реализацию функции поиска в корпусе и визуализация результатов поиска.
разработку методологии лингвистической аннотации в части системы семантико-синтаксической разметки и способов ее автоматизации.

Для управления данными корпуса разработана специализированная система управления лингвистическими данными – система «корпус-менеджер». Эта система ориентирована на работу с тюркскими языками, но может быть использована для работы с электронными корпусами других языков. Поисковая система корпуса позволяет реализовать поиск по:

Словоформе;
Лемме (лексеме);
Набору морфологических параметров.

Поисковая система также поддерживает поиск минус-слов (слова, которые требуется исключить из поиска), поиск по части слова, поиск с использованием логических формул, фразовый поиск; таким образом, пользователь может задавать сложные запросы, обусловленные спецификой своего исследования.

В целях быстрого и удобного извлечения результатов поиска для их дальнейшей обработки в прикладных приложениях разработаны программные инструменты Corpus API – набор функциональных API, позволяющих извлекать и представлять в различных форматах выборки по корпусу на основе заданных критериев.

Проект выполняется в рамках Государственной программы «Сохранение, изучение и развитие государственных языков Республики Татарстан и других языков в Республике Татарстан на 2014-2020 годы».

Корпус включает татарские тексты различных жанров общим объемом более 180 млн. словоупотреблений (на декабрь 2019 года).

Академия наук Республики Татарстан

Институт прикладной семиотики

Национальный корпус татарского языка «Туган тел»