Nedávno jsme publikovali článek, který se zabýval doménovou adaptací modelů pro strojový překlad. Dalším úzce souvisejícím nástrojem, který je velmi užitečný obzvlášť při překladu textů specializovaných na určitý obor, je integrace terminologických databází (někdy nazývané glosáře) do překladového procesu. Samotná doménová adaptace obecně přizpůsobí jazyk požadovanému oboru, často i zlepší překlad specializovaných termínů, ale integrace terminologie zajistí, že odborné termíny jsou za každých okolností přeloženy v souladu se zavedenými pravidly.
Pro příklad si uveďme anglickou větu určenou k překladu do češtiny:
Such was the decision by the Court of Justice of the European Union.
Z oficiální terminologické databáze pro instituce EU se dozvíme, že správný překlad Court of Justice of the European Union zní Soudní dvůr Evropské unie.
Nejdříve zkusme přeložit větu překladačem bez integrované terminologie, výsledkem je věta:
Takto rozhodl Evropský soudní dvůr.
Vidíme, že nebyl zachován správný překlad termínu. Jak to lze řešit?
Nejjednodušším přístupem je nahrazení termínu ve zdroji zástupnou značkou, kterou překladový model nechá nepřeloženou (ale na správném místě v cílové větě). Po překladu je tato značka nahrazena cílovou částí termínu.
Such was the decision by the <term-1>.
Takto rozhodl <term-1>. -> Takto rozhodl Soudní dvůr Evropské unie.
Tento přístup může dobře fungovat v jednoduchých případech, jeho nevýhodou je potřeba speciálně natrénovaného překladového modelu, který “ví”, že značku má kopírovat. Navíc při tomto postupu odstraňujeme část vstupní informace - překladač nevidí termín, který před nahrazením značkou obsahovala vstupní věta, což může vést ke zhoršení kvality překladu.
Například, pokud bychom ve větě These sandwiches are free nahradili slovo sandwich značkou pro termín (tedy vstup pro překladač by zněl These <term-1> are free), není jasné, jak přeložit výraz free - zdarma, nebo svobodný?
Další možností je překladači “napovědět”, tedy ve speciálním odděleném vstupu poskytnout požadované překlady termínů a upravit proces překladu tak, aby tyto byly vynuceny v překladu.
Such was the decision by the Court of Justice of the European Union + Soudní dvůr Evropské unie -> Takto rozhodl Soudní dvůr Evropské unie.
Tento jednoduchý přístup funguje uspokojivě pro jazyky, které nemají bohatou morfologii a k vyjadřování gramatických funkcí používají převážně jiné prostředky, než skloňování a podobné modifikace slov. Mezi ně patří například angličtina, která jako tzv. analytický jazyk používá k vyjádření velké části gramatických kategorií předložky a pomocná slova (výjimku tvoří např. časování sloves).
V jazycích aglutinačních (např. maďarština) a flektivních (např. čeština) však nastává problém - před překladem nevíme, v jaké formě se má termín v cílové větě přeložit, to lze určit až při znalosti kontextu celé přeložené věty. U popsaného postupu tedy může nastat tato situace:
Such was the decision by the Court of Justice of the European Union + Soudní dvůr Evropské unie -> Takové je rozhodnutí Soudní dvůr Evropské unie.
Jednou možností by bylo přeložit text se základním tvarem termínů a následně použít nástroj pro opravu gramatiky, ale tento přístup je těžkopádný a neposkytuje optimální výsledky (například proto, že model generuje překlad slovo po slovu a vždy se “dívá” na už vygenerovaná slova a termíny použité v nesprávném tvaru by mohly být matoucí).
Náš přístup využívá toho, že překladové modely založené na neuronových sítích dokáží velmi dobře modelovat jazyk, jinými slovy málokdy udělají chybu v gramatice (což může být někdy i jejich nevýhoda, stává se, že model vygeneruje velmi pěkně a důvěryhodně znějící větu, které ale není přesným překladem zdroje). Tuto schopnost modelů využíváme tak, že na vstupu poskytujeme pouze základní tvar termínu, který nazýváme lemma. Určení tohoto základního tvaru využívá dat připravených našimi lingvisty a slovníkáři v kombinaci s algoritmy pro zpracování slov, které se ve slovníku nenachází. Překladový model při trénování “naučíme”, že má takto poskytnuté termíny vždy ohnout tak, aby v kontextu celého vygenerovaného překladu byly ve správném tvaru. Výsledný překlad pak vypadá takto:
Such was the decision by the Court of Justice of the European Union + Soudní dvůr Evropské unie -> Takové je rozhodnutí Soudního dvoru Evropské unie.
Podrobnější informace o naší metodě lze nalézt buď přímo v článku, na kterém je založena, nebo v blogu poskytujícím shrnutí tohoto článku.