«Туган тел» татар гомумтел корпусы
Сайт: tugantel.tatar
«Туган тел» татар гомумтел корпусы хәзерге татар әдәби теленең лингвистик ресурсы булып тора. Ул киң даирә кулланучыларга атап ясалган: телчеләр, татар, төрки һәм гомуми тел белгечләре, типологлар, татар телен укытучылар, мәдәният эшлеклеләре һәм барлык татар телен өйрәнүче һәм аның белән кызыксынучылар. Әлеге электрон корпус төрки телләрне тикшерү һәм гамәли эшләнмәләр ясау өчен программалы чара комплексының төп элементларыннан берсе булып тора.
Электрон корпус төзү проектына түбәндәге адымнар керә:
- татарча текстлар корпусының концептуаль моделен ясау;
- текст тупланмасын формалаштыру, техник һәм орфографик яктан төзәтү;
- татарча текстларны, лингвистик аннотацияләү методологиясенә туры китереп, морфологик тамгалау системасын һәм аны автоматлаштыру ысулларын булдыру;
- эзләү функциясен гамәлгә ашыру һәм эзләү нәтиҗәләрен визуальләштерү;
- лингвистик аннотацияләү методологиясенә туры китереп, семантик-синтаксик тамгалау системасын һәм аны автоматлаштыру ысулларын булдыру.
Корпустагы лингвистик мәгълүматлар белән идарә итү өчен махсуслаштырылган “корпус-менеджер” системасы төзелгән. Ул төрки телләр белән эшләүгә юнәлтелгән, ләкин башка телләрнең электрон корпуслары белән эшләү өчен дә кулланылырга мөмкин. Корпусның эзләү системасы төрлечә эзли ала:
- сүз формасы буенча,
- лемма (лексема) буенча;
- морфологик параметрлар буенча.
Эзләү системасы минуслы сүзләр буенча (эзләүгә кертелмәскә тиеш булган), сүзнең өлеше буенча, логик формулаларны кулланып һәм фразалап эзли белә; шулай итеп, кулланучы үз эзләнүенең үзенчәлекләренә карап катлаулы сораулар да бирә ала.
Эзләү нәтиҗәләрен тиз һәм уңайлы рәвештә чыгарып, алга таба гамәли кушымталарда эшкәртү өчен Corpus API программа чаралары эшләнгән. Бу функциональ API тупланмасы билгеләнгән критерийлар нигезендә корпустан сайланмаларны төрле форматларда чыгарырга һәм тәкъдим итәргә мөмкинлек бирә.
Проект “Татарстан Республикасының дәүләт телләрен һәм Татарстан Республикасындагы башка телләрне саклау, өйрәнү һәм үстерү” дәүләт программасы кысаларында башкарылды.
Гомумән алганда, корпуска 180 млн сүздән торган төрле жанрдагы татарча текстлар керә (2022 елның декабрь мәгълүматлары).