Lingea Translator – nejčastější otázky

Jak funguje frázový překladač?

Jedná se o přístup, který je založený na velkých korpusech paralelních i jednojazyčných dat a na matematických vzorcích. Označuje se také jako statistický strojový překlad. Překlady vět jsou vytvářeny skládáním z překladů frází nalezených ve zdrojové větě. Fráze je sekvence slov, která se vyskytla v trénovacích datech, a pro kterou známe sekvenci slov, která je jejím překladem. Výběr a uspořádání překladů frází v přeložené větě jsou ovlivněny několika statistickými modely, které modelují zejména pravděpodobnost, že zdrojová fráze bude přeložena konkrétním způsobem a pravděpodobnost, že se v daném kontextu v přeložené větě bude vyskytovat právě daný text překladu fráze. Vzhledem k tomu, že některá slova jsou víceznačná (mají více významů a v různých kontextech se překládají jinak), u jiných nalezneme ustálená slovní spojení nebo fráze, tak čím více dvojjazyčných textů máme k dispozici, tím větší je pravděpodobnost, že přeložený text bude správně.

Jak funguje neuronový překladač?

Text ve zdrojovém jazyce se rozdělí na věty, věty se rozdělí na slova, slova se rozdělí na podslova. Posloupnosti podslov odpovídající jednotlivým větám se dají na vstup neuronové sítě, která z nich vytvoří reprezentaci celé věty, kterou následně převede na posloupnost podslov v cílovém jazyce. Podslova se spojí do slov, slova do vět, a ty se spojí do přeloženého textu. Alternativně mohou během tohoto postupu probíhat ještě další kroky, jejichž účelem může být například zachování formátování v cílovém dokumentu.

Co je neuronová síť?

Jedná se o jeden z výpočetních modelů, které se používají v umělé inteligenci. Neuron je výpočetní jednotka, která má velké množství vstupů a jeden výstup, který může být zase vstupem mnoha dalších neuronů. Neuronová síť je pak tvořena skupinou těchto umělých neuronů, které jsou mezi sebou navzájem propojeny obrovským množstvím spojení výstupů a vstupů.
Neuronovou síť lze předkládáním vstupů a k nim požadovaných výstupů naučit obecný vztah mezi vstupy a výstupy. Naučená neuronová síť je pak použitelná k odhadování správných výstupů i pro vstupy, které nebyly při trénování použity. Neuronový překladač se na velkém množství paralelního textu (text v jednom jazyce a jeho překlad do druhého jazyka) učí, jak přeložit zadaný text, aby co nejlépe odpovídal tréninkovým datům (paralelnímu textu použitému pro učení).

K čemu je dobrá grafická karta?

Grafické karty se v překladu používají pro výpočty neuronových sítí. Využívá se zde toho, že v neuronové síti lze velké množství výpočtů dělat paralelně, a tak výkonné grafické karty mohou v této činnosti dosahovat výkonu srovnatelného s desítkami procesorů. Díky grafickým kartám jsou tedy neuronové překladače mnohokrát rychlejší, než by byly bez nich, což se projevuje zejména ve zrychlení odezvy, schopnosti přeložit za stejnou dobu více textu, a při daném výkonu v úsporách za hardware.

Jaké jsou výhody vašeho řešení oproti konkurenci?

Lingea Translator nabízí oproti jiným dostupným překladačům tyto výhody:

Pro dosažení lepších výsledků využíváme vlastních jazykových dat a technologií: paralelní i jednojazyčné korpusy, slovníky, další data a morfologické a jiné nástroje
Překladače mohou běžet na (off-line) serveru přímo u zákazníka – zajistí se tak bezpečnost citlivých dat - data kvůli překladu nejsou svěřena nikomu jinému.
Malé jazyky používané ve střední Evropě jsou pro nás stejně důležité jako jazyky, kterými mluví stovky miliónů lidí, proto i jim věnujeme maximální pozornost a úsilí, zatímco například Google řeší primárně jazyky západoevropské a asijské.
Umožňujeme natrénování překladače na určitou doménu (automotive, strojírenství, bankovnictví, farmacie atd.) – takto specializovaný překladač většinou dosahuje výrazně lepších výsledků než překladač obecný.
Při překladu dokážeme zajistit zachování formátování původního dokumentu. Překlad tak může mít stejné formátování (nadpisy, odstavce, slova tučným písmem nebo kurzívou, odkazy apod.), jako původní text, jen je v jiném jazyce. Podporu různých formátů lze nastavit. Je například možné v XML dokumentu překládat jen určité části a jiné nechat beze změn, případně na různé části dokumentů použít různé překladače.
Můžeme kombinovat překladače se slovníkem nebo dalšími jazykovými nástroji – například před překladem do textu automaticky doplnit chybějící diakritiku (relevantní například pro maily a diskuse), pak text přeložit, a při čtení kliknutím vyhledávat slova ve slovníku.

Co se stane, když překladač něco přeloží špatně?

Překladač nikdy nemůže přeložit vše dobře z jednoho velmi prozaického důvodu, a sice že vstupní věta není jednoznačná. V každém jazyku jsou víceznačnosti, spousta vět předpokládá určitou znalost kontextu, buď z předchozího odstavce, nebo článku anebo jednoduše z všeobecných znalostí. Může docházet k záměně podmětu a předmětu, aktiva a pasiva, špatnému pochopení struktury věty nebo špatnému pochopení významu konkrétního slova. Řadu vět je obtížné správně pochopit a přeložit i pro zkušeného člověka ovládajícího zdrojový i cílový jazyk, protože zdrojová věta nemusí vždy obsahovat všechny informace potřebné pro správný překlad. Většinu vět je možné přeložit několika různými způsoby a všechny jsou správné, jen jsou některé například méně vhodné v daném kontextu nebo méně vhodné stylisticky. Překladač není náhradou za soudního překladatele. Překladač je nástroj plnící nějaký konkrétní úkol, pro který je připraven. Například může usnadnit práci lidskému překladateli (kterému ušetří čas) nebo umožnit člověku neznalému zdrojového jazyka zjistit nějakou informaci z textu. Pro tento účel se velmi hodí integrovaný slovník pro kontrolu správnosti důležitých částí překladu uživatelem. Uživatel bez znalosti zdrojového jazyka je při využití překladače a slovníku schopen si z textu s přiměřenou jistotou rychle zjistit potřebnou informaci bez zadávání práce překladateli a čekání na překlad.

Je možnost off-line nasazení?

Pokud pracujete s citlivými daty (například s maily od klientů nebo s jejich dokumenty), určitě řešíte jejich zabezpečení, a kopírování důvěrných textů do on-line překladačů je pravděpodobně nepřípustné. Pro tento případ umožňujeme nasazení překladačů přímo do infrastruktury zákazníka (off-line) – citlivá data tak nikdy neopustí vaši síť. Toto řešení ovšem vyžaduje další investici do překladového serveru. Hardwarové nároky se liší podle nasazených technologií, překladových směrů (z jakého do jakého jazyka se překládá), a požadované rychlosti překladu. Orientačně lze říci, že ceny použitelného hardwaru začínají kolem 20 tisíc korun, nicméně jsou velmi závislé na nasazených technologiích, požadované rychlosti překladu a předpokládané zátěži, a mohou se vyšplhat i na několikanásobek této částky. Konfiguraci proto upřesníme na základě další diskuse, výrazně se liší podle toho, zda zvolíte tradiční řešení statistického překladu, které je náročné zejména na paměť, nebo použijete neuronový překlad, který není tak náročný na paměť, ale vyžaduje výkonné grafické karty.

Jak se neuronový překladač dá „natrénovat“?

Vhodnou volbou trénovacích dat a jejich použití v různých fázích trénování dokážeme připravit překladače na míru určité problematice. Takto se postupovalo například pro oblast veřejného zdraví v EU projektu HimL nebo pro překlad textů z oblasti turistického ruchu pro interní lokalizace turistických průvodců. Tímto způsobem je možné připravit kvalitnější překladače, které dávají v dané tematické a stylové oblasti (tzv. doméně) lepší výstup než překladače obecné (nespecializované) a lépe zachovávají sémantickou přesnost. Kvalita výsledku závisí na složitosti domény a množství doménově specifických dat, která bylo možné použít. Nejužitečnější jsou tzv. paralelní data, tedy originální texty spolu s jejich překlady. Velmi užitečné jsou ale i doménově specifické texty v cílovém jazyce a využít lze i texty v jazyce zdrojovém. U všech tří typů dat platí, že čím více, tím lépe. Užitečné jsou také na doménu specializované glosáře, kde je ale důležitější kvalita než množství dat. Kvalita výsledného překladače tedy bývá dosti závislá na možnostech a ochotě klienta poskytnout (samozřejmě na základě smlouvy) data vhodná pro trénování těchto specifických modelů, nebo alespoň jejich popis, který lze následně využít pro získání dat z jiných zdrojů.

Je slovník, který se dá přidat, výkladový nebo překladový?

Přestože překladače využívající neuronové sítě zaznamenaly výrazný posun v kvalitě překladu, ještě to neznamená, že je překlad vždy věcně správný. Jazyky obsahují velké množství nejednoznačností, idiomů, odborných výrazů i běžných ustálených spojení a vy si nemusíte být jisti, jestli použitý překlad je skutečně správný. Naproti tomu překladové slovníky stále vytvářejí lidé, lingvisté a zkušení překladatelé, takže všechny uvedené překlady jsou zaručeně správně a stačí si vybrat ten, který je vhodný v daném kontextu. Pokud si tedy chcete ověřit správnost nebo opravit výsledek z překladače, můžete si zobrazit plné slovníkové heslo ze zdrojového textu nebo z překladu (lze obojí) v překladovém nebo výkladovém (opět lze obojí) slovníku, který může být součástí uživatelského rozhraní překladače.