Синтезатор татарской речи

Задача создания речевого интерфейса с компьютером является одной из важных задач из области интеллектуальных информационных технологий. В основе построения синтезатора лежит хорошо зарекомендовавшая себя технология конкатенативного синтеза. Процесс синтеза речи в рамках данной модели можно представить как склеивание по правилам фонетики заранее озвученных фрагментов языка в слова и затем - в предложения.

Преобразование текста в речь включает следующие этапы, поддерживаемые соответствующими программными модулями:
  • нормализация входной фразы (расшифровка аббревиатур, названия дат, числовой информации и т.д.),
  • фонематическая транскрипция входного предложения,
  • семантико-синтаксический анализ предложения,
  • фонетическая транскрипция синтезированной фразы,
  • просодическое оформление выходной фразы,
  • озвучивание синтезированной фразы.

На данный момент для разработки накапливаются и анализируются базы данных текстовой и речевой информации на татарском языке, разрабатываются технологии машинного обучения, происходит интеграция речевого интерфейса на татарском языке в современные ПК и мобильные устройства. Для создания универсальной системы распознавания речи собрана база данных голосов более 400 дикторов общей продолжительностью около 60 часов. Созданы необходимые программы и модели, запущена первая экспериментальная версия системы распознавания, понимающая 200 тысяч татарских слов. Достигнутые результаты сравнимы с мировыми аналогами и позволяют организовать «общение» с компьютером с помощью голосовых команд (речевой перевод, мобильные ассистенты, диктовка сообщений, чтение новостей).

Основные предполагаемые приложения разрабатываемой системы:
  • обеспечение доступа к информации для людей с ослабленным зрением;
  • оказание помощи в общении при нарушениях артикуляции; 
  • применение в сети Интернет: чтение электронной почты, сайтов, баз знаний;
  • робототехника  и дистанционное управление; 
  • использование в справочных диалоговых системах;
  • применение в системах мобильной связи;
  • автоматизированные системы обучения языку;
  • использования для озвучивания фоновых текстов;
  • системы обеспечения аудио-визуального контроля приборов в условиях, недоступных для непосредственного наблюдения и др.
Проект выполняется в рамках Государственной программы «Сохранение, изучение и развитие государственных языков Республики Татарстан и других языков в Республике Татарстан на 2014 – 2020 годы».