Morfologie finštiny a estonštiny
Před časem jsme dokončili vývoj formálního popisu morfologie finštiny a estonštiny. Tyto jazyky jsou zajímavé tím, že patří do skupiny ugrofinských jazyků, které jsou charakteristické velmi bohatou flexí, čili tvořením desítek až stovek různých tvarů od jednoho základního tvaru. Finština i estonština například používá 14 pádů, tedy 2x více než čeština. Obecným rysem je připojování přípon, kdy každá nese pouze jednu gramatickou funkci , zatímco v češtině koncovky nesou více funkcí najednou (číslo, pád). Výsledkem je několik set tvarů odvoditelných od jednoho kmene, což klade větší nároky na výrazový aparát celého popisu formální morfologie takového jazyka. Pro nás to naštěstí nebylo nic nového, protože podobný úkol jsme řešili před lety při zpracování morfologie maďarštiny.
A k čemu je vlastně takový formální popis morfologie dobrý? Dalo by se říct, že se jedná o základní stavební kámen mnoha lingvistických aplikací. Ukažme si aspoň některé z nich.
Korektor překlepů, anglicky spell checker, jistě každý zná z textových editorů jako je např. Microsoft Word. To je ta šikovná věcička, která podtrhne slovo, ve kterém máte překlep. Pro jednoduché jazyky by se takový nástroj dal realizovat i tak, že by se každé slovo porovnalo se seznamem všech správných tvarů. V případě češtiny a slovenštiny by se ovšem už jednalo o seznam více než 3 milionů různých tvarů a v případě finštiny či maďarštiny až stovky milionů tvarů. Jistě uznáte, že takový seznam by se spravoval a kontroloval velmi obtížně. Proto se i korektor překlepů realizuje pomocí inteligentnějších postupů, jejichž základem je právě komplexní popis morfologie.
Lemmatizátor je komponenta, která k libovolnému slovu vrátí jeho základní tvar. Např. ke slovu psům slovo pes, k lidé člověk, ke slovesu nemůžu základní tvar moci atp. Díky tomu např. v programu Lexicon nebo na portálu dict.com nemusíte slova zadávat v základním tvaru, ale stačí v libovolném tvaru. Je pochopitelné, že když člověk s jazykem teprve začíná a narazí např. na neznámé slovo teette, nemusí nutně vědět, že se jedná o tvar slovesa tehdä (dělat).
Fulltextové hledání: pokud hledáte např. na internetu zahradní nábytek, jistě oceníte, když vyhledávač najde i dokumenty obsahující věty např. Vyberte si set kvalitního zahradního nábytku… nebo Posezení na zahradě si lze zpříjemnit hezkým zahradním nábytkem. Slova zahradní i nábytek se zde vyskytují v jiných než základních tvarech a to, že je vyhledávač najde, je zásluhou právě lemmatizátoru.
Rozpoznání jazyka: v mnoha aplikacích je důležité hned z první věty nebo i pouhých několik slov rozpoznat, ve kterém jazyku je text napsán. Někdy je to relativně snadné, např. řečtina či arménština používají své vlastní písmo. V případě latinky či cyrilice je však potřeba dokonalejší nástroj, jehož základem je opět popis morfologie pro všechny používané jazyky.
Nástroje pracující s morfologií přirozeně nacházejí uplatnění v mnoha dalších oblastech, jako jsou např. korektor gramatiky, překladače, dialogové systémy, korpusové nástroje či řečové aplikace. Proto nás těší, že můžeme našim zákazníkům nabídnout kvalitní a jednotné řešení této problematiky v současné době až pro 30 jazyků češtinou počínaje a japonštinou či lotyštinou konče.