Analýza textů

Obzvlášť dnes platí, že vyhrává ten, kdo umí lépe pracovat s informacemi. Nezáleží na tom, zda jste firma, politická strana nebo malá či velká země. Všechny spojuje a zajímá například to, jak zákazníci hodnotí produkt či jak vnímají značku i jaká témata jsou citlivá pro určité skupiny, jako jsou senioři nebo zemědělci. Problematiku vyhodnocování informací řeší celá řada aplikací a nástrojů s různými metrikami a funkcemi. Níže najdete klíčové komponenty, bez kterých se například při expanzi do dalších zemí neobejdete ani vy.

Slovní druhy

Tato funkce dokáže ke každému slovu přiřadit jeho slovní druh. Označí podstatná a přídavná jména, číslovky i slovesa nebo umožní vyloučení předložek, spojek a částic z dalšího zpracování. Navíc určí typy zájmen, číslovek, příslovcí i spojek, v případě nejednoznačností nabídne všechny možnosti. Funguje spolehlivě pro všech 30 podporovaných jazyků.

Lemmatizace

Tato funkce určí základní tvar libovolného slova. Lze volit některý z více módů a tak např. k deverbativním substantivům či adjektivům přiřadit i základové sloveso nebo k různým druhům číslovek přiřadit odpovídající číslovku základní včetně její číselné reprezentace. Morfologické slovníky většiny jazyků obsahují více než 100 000 různých kmenů, další průběžně doplňujeme z našich překladových slovníků a aktuálních korpusů. O zvláštnostech lemmatizace pro různé jazyky se můžete dočíst v Formální morfologie.

Morfologie

Lemmatizací a určením slovního druhu to zdaleka nekončí. Ke každému slovu může volající aplikace získat všechny gramatické kategorie, tedy rod, číslo a pád u jmen, čas, způsob a vid sloves a také všechny další informace, které se v tom kterém jazyku pro dané slovo určují. Zásadní výhodou nástrojů Lingea je jednotné označení napříč různými jazyky, např. stejné označení pádů (např. ve finštině a estonštině 14 pádů), typů zájmen či různých slovesných způsobů v románských jazycích.

Segmentace

Zdrojový text je pro další zpracování (např. automatický překlad, analýza věty, data mining) obvykle nutné rozdělit na jednotlivé věty. Většinu případů lze řešit pomocí interpunkce a velkých písmen, situaci ale komplikují vlastní jména a zkratky, např. K. H. Borovský. V některých jazycích (např. čínština a japonština) je navíc potřeba rozdělit větu na jednotlivá slova, protože na rozdíl od evropských jazyků nepoužívají mezery mezi slovy. K vyřešení těchto úkolů využíváme rozsáhlé slovníky v kombinaci s algoritmy a různými heuristikami.