Национальный корпус татарского языка «Туган тел»
Сайт: tugantel.tatar
Национальный корпус татарского языка «Туган тел» является лингвистическим ресурсом современного литературного татарского языка, предназначенным для широкого круга пользователей - лингвистов, специалистов в области татарского, тюркского и общего языкознания, типологов, преподавателей татарского языка, деятелей культуры, а также для всех, кто изучает и интересуется татарским языком. Данный электронный корпус является базовой составляющей программно-инструментального комплекса для исследования и разработок в тюркских языках.
Проект разработки электронного корпуса включает:
- разработку концептуальной модели корпуса татарских текстов.
- формирование текстовой коллекции, ее техническая и орфографическая нормализация.
- разработку методологии лингвистической аннотации татарских текстов в части системы морфологической разметки и способов ее автоматизации.
- реализацию функции поиска в корпусе и визуализация результатов поиска.
- разработку методологии лингвистической аннотации в части системы семантико-синтаксической разметки и способов ее автоматизации.
Для управления данными корпуса разработана специализированная система управления лингвистическими данными – система «корпус-менеджер». Эта система ориентирована на работу с тюркскими языками, но может быть использована для работы с электронными корпусами других языков. Поисковая система корпуса позволяет реализовать поиск по:
- Словоформе;
- Лемме (лексеме);
- Набору морфологических параметров.
Поисковая система также поддерживает поиск минус-слов (слова, которые требуется исключить из поиска), поиск по части слова, поиск с использованием логических формул, фразовый поиск; таким образом, пользователь может задавать сложные запросы, обусловленные спецификой своего исследования.
В целях быстрого и удобного извлечения результатов поиска для их дальнейшей обработки в прикладных приложениях разработаны программные инструменты Corpus API – набор функциональных API, позволяющих извлекать и представлять в различных форматах выборки по корпусу на основе заданных критериев.
Проект выполняется в рамках Государственной программы «Сохранение, изучение и развитие государственных языков Республики Татарстан и других языков в Республике Татарстан на 2014-2020 годы».
Корпус включает татарские тексты различных жанров общим объемом более 180 млн. словоупотреблений (на декабрь 2019 года).