«Татсофт» русча-татарча машина тәрҗемәчесе

Сайт: translate.tatar 

Машина тәрҗемәсе системасын эшләү өчен иң элек статистика юлы сайланган. Моңа карап түбәндәге приоритет мәсьәләләр билгеләнгән: татар теле өчен модельләрнең татар морфологиясенең катлаулылыгына бәйлелеген киметерлек морофологик анализатор төзү, статистик модельләрне өйрәтү өчен кирәк булган параллель русча-татарча җөмләләр туплау. “Phrase-based MT” технологиясе буенча статистик русча-татарча тәрҗемәчесен төзү эшенең нәтиҗәсе буларак 2015 елда Яндекс компаниясенең тәрҗемәчесе гомуми кулланылышка ачыла. “Яндекс.Тәрҗемәче”нең әлеге тел пары өчен беренче версиясе шул исәптән Институтта ясалган морфоанализатор һәм параллель корпус кулланып өйрәтелгән.

Ләкин машина тәрҗемәсе системаларының эш сыйфаты нейрочелтәрләр ысулларын куллану аркасында иң зур үсешкә ирешә. 2016 елдан башлап, нейрон челтәрләренә нигезләнгән машина тәрҗемәсе системалары статистика юлына нигезләнгән тәрҗемә системаларын эш сыйфаты буенча узып китә. Шул вакыттан бирле күп кенә компанияләр иң популяр тел парлары өчен үз тәрҗемәчеләренең нейрон версияләрен эшләп чыгардылар. Татарча-русча аз ресурслы тел парында яхшы эш сыйфатын күрсәтерлек машина тәрҗемәсе системасын ясау өчен машина өйрәтүе өлкәсендәге соңгы казанышлар кулланылды. Гамәлдәге системага өйрәтүче мәгълүматларны тулыландыра һәм текстларны алдан эшкәртү алгоритмларын башкара торган кораллар керә.

Татарча-русча тәрҗемә системасын төзү мәсьәләсен чишәргә җитәрлек зурлыктагы параллель корпус җыярга кирәк. Ләкин аны төзерлек чыганакларның аз булуы комачаулый. Ике телле мәгълүматның төп чыганагы – министрлыкларның һәм башка дәүләт ведомстволарының  веб-сайтлары. Башка мәгълүмат чыганаклары булып әдәби әсәрләр – тәрҗемәсе булган басма китаплар тора. 
Татарча-русча тәрҗемә юнәлешен өйрәтү өчен параллель корпус түбәндәгечә төзелде:
  • Интернет ресурслары һәм әдәби әсәрләр нигезендә төп корпус формалаштырылды;
  • Нәтиҗәләр фильтрланды, автоматик тигезләнде һәм кулдан төзәтелде;
  • Русча-татарча тәрҗемә системаларының башлангыч версияләре ясалды;
  • Рус телендәге яңалык текстлары кулдан һәм ярым автоматик тәрҗемә ителде;
  • Русча-татарча тәрҗемәчесенең финаль версиясе төзелде;
  • back-translation алгоритмы ярдәмендә өйрәтү корпусы киңәйтелде: русча-татарча тәрҗемәче белән автомат рәвештә берничә мең параллель җөмлә әзерләнде;
  • Русча-татарча тәрҗемәчесенең финаль версиясе төзелде.
Русча-татарча тел пары өчен машина тәрҗемәсе системасын төзү нәтиҗәләре күрсәткәнчә, заманча нейрочелтәр алгоритмнары, әзерләнгән өйрәтү корпусы һәм мәгълүмат күләмен киңәйтү ысуллары әлеге өлкәдә алга таба да эзләнүләр алып барырга юл ача.

Проект “Татарстан Республикасының дәүләт телләрен һәм Татарстан Республикасындагы башка телләрне саклау, өйрәнү һәм үстерү” дәүләт программасы кысаларында башкарыла.