Фундаментальные и прикладные разработки
Программные продукты «Tatsoft»
Проект Tatsoft предназначен для всех, кого интересует использование татарского языка в современных информационно-коммуникационных технологиях. Основной целью проекта является предоставление в одном месте информации о локализации компьютеров и программного обеспечения, мобильных устройств и приложений, а также веб-ресурсов на татарский язык.
Национальный корпус татарского языка «Туган тел»
Национальный корпус «Туган тел» является лингвистическим ресурсом современного литературного татарского языка, предназначенным для широкого круга пользователей - лингвистов, специалистов в области татарского, тюркского и общего языкознания, типологов, преподавателей татарского языка, деятелей культуры, а также для всех, кто изучает и интересуется татарским языком. Данный электронный корпус является базовой составляющей программно-инструментального комплекса для исследования и разработок в тюркских языках.
Русско-татарский общественно-политический тезаурус
Русско-татарский тезаурус общественно-политической лексики разработан на основе тезауруса РуТез. Тематически охватывает следующие основные сферы: политику и сферу управления, международные отношения, экономику и финансы, производство и промышленность, армию и военные отношения, социальную сферу, культуру и искусство, религию, спорт. Кроме того, в тезаурус включены отдельные значимые подобласти общего лексикона, смежные с общественно-политической зоной.
Русско-татарский машинный переводчик
Русско-татарский переводчик разработан с использованием последних достижений в области машинного обучения. Результаты построения системы машинного перевода для русско-татарской языковой пары показывают, что нейросетевые алгоритмы способны решать задачу перевода на достаточно высоком уровне. Подготовленный обучающий корпус параллельных русско-татарских текстов, а также методы расширения объема данных позволяют проводить дальнейшие исследования в этой области. Полученная система перевода превосходит единственную существующую систему перевода в этой языковой паре от компании Яндекс по показателю близости к профессиональному переводу.
Электронный атлас татарских народных говоров
Атлас татарских народных говоров включает в себя все основные районы расселения татар и отражает сведения по фонетике, морфологии, лексике и синтаксису татарского языка, собранные в 28 регионах России. База данных электронного атласа содержит атрибутивную часть, в которой представлена информация по распределению значений 215 языковых явлений по 1047 населенным пунктам, и картографическую часть. Карты отображают особенности татарских говоров по разделам фонетики, морфологии, лексики и синтаксиса.
Морфологический анализатор татарского языка
Морфологический анализатор является базовой составляющей во всех полнофункциональных лингвистических процессорах. Данный анализатор внедрен в систему татарского национального корпуса «Туган тел, используется в Университетской информационной системе РОССИЯ, в Интернет-сервисе Яндекс.Переводчик и применяется в учебном процессе по направлению «Филология: прикладная филология» в Казанском федеральном университете.
Многофункциональная модель тюркской морфемы
В рамках проекта разработаны различные модели морфологии татарского языка: генеративная, парадигматическая и гибридная. Генеративная модель морфологии, основанная на правилах словоизменения, обеспечивает полноту анализа словоформы, позволяя в полной мере учитывать агглютинативный характер языка, распознавая словоформы потенциально неограниченной длины. Другая модель морфологического анализатора на основе морфем активно развивается в рамках проекта по разработке многофункционального многоязычного интернет-сервиса на базе структурно-параметрической функциональной модели тюркской морфемы.
Система анализа и синтеза татарской речи
Задача создания речевого интерфейса с компьютером является одной из важных задач из области интеллектуальных информационных технологий. Для создания универсальной системы распознавания речи собрана база данных голосов более 400 дикторов общей продолжительностью около 60 часов. Созданы необходимые программы и модели, запущена первая экспериментальная версия системы распознавания, понимающая 200 тысяч татарских слов. Достигнутые результаты сравнимы с мировыми аналогами и позволяют организовать «общение» с компьютером с помощью голосовых команд.
Онтолингвистическая система «OntoIntegrator»
Система «OntoIntegrator» является онтолингвистической научно-исследовательской инструментальной средой для решения как стандартных лингвистических задач, так и прикладных задач, связанных с автоматической обработкой текстов, при помощи метода декомпозиции задачи в структурные компоненты системы онтологических моделей.