Национальный корпус татарского языка «Туган тел»

Сайт: tugantel.tatar

Национальный корпус татарского языка «Туган тел» является лингвистическим ресурсом современного литературного татарского языка, предназначенным для широкого круга пользователей - лингвистов, специалистов в области татарского, тюркского и общего языкознания, типологов, преподавателей татарского языка, деятелей культуры, а также для всех, кто изучает и интересуется татарским языком. Данный электронный корпус является базовой составляющей программно-инструментального комплекса для исследования и разработок в тюркских языках.

Проект разработки электронного корпуса включает:
  • разработку концептуальной модели корпуса татарских текстов.
  • формирование текстовой коллекции, ее техническая и орфографическая нормализация.
  • разработку методологии лингвистической аннотации татарских текстов в части системы морфологической разметки и способов ее автоматизации.
  • реализацию функции поиска в корпусе и визуализация результатов поиска. 
  • разработку методологии лингвистической аннотации в части системы семантико-синтаксической разметки и способов ее автоматизации.
Для управления данными корпуса разработана специализированная система управления лингвистическими данными – система «корпус-менеджер». Эта система ориентирована на работу с тюркскими языками, но может быть использована для работы с электронными корпусами других языков. Поисковая система корпуса позволяет реализовать поиск по:
  • Словоформе;
  • Лемме (лексеме);
  • Набору морфологических параметров.
Поисковая система также поддерживает поиск минус-слов (слова, которые требуется исключить из поиска), поиск по части слова, поиск с использованием логических формул, фразовый поиск; таким образом, пользователь может задавать сложные запросы, обусловленные спецификой своего исследования.
В целях быстрого и удобного извлечения результатов поиска для их дальнейшей обработки в прикладных приложениях разработаны программные инструменты Corpus API – набор функциональных API, позволяющих извлекать и представлять в различных форматах выборки по корпусу на основе заданных критериев.

Проект выполняется в рамках Государственной программы «Сохранение, изучение и развитие государственных языков Республики Татарстан и других языков в Республике Татарстан на 2014-2020 годы».

Корпус  включает татарские тексты различных жанров общим объемом более 180 млн. словоупотреблений (на декабрь 2019 года).