Praktični vidiki uporabe podbesednih enot v strojnem prevajanju slovenščina-angleščina-Reference-Cited by-同舟云学术

Praktični vidiki uporabe podbesednih enot v strojnem prevajanju slovenščina-angleščina

Published:2023-09-12 Issue:1 Volume:11 Page:275-301
ISSN:2335-2736
Container-title:Slovenščina 2.0: empirical applied and interdisciplinary research
language:
Short-container-title:SLO2.0

Author:

Donaj Gregor^ORCID,Sepesy Maučec Mirjam

Abstract

Večina sodobnih sistemov za strojno prevajanje temelji na arhitekturi nevronskih mrež. To velja za spletne ponudnike strojnega prevajanja, za raziskovalne sisteme in za orodja, ki so lahko v pomoč poklicnim prevajalcem v njihovi praksi. Čeprav lahko sisteme nevronskih mrež uporabljamo na običajnih centralnih procesnih enotah osebnih računalnikov in strežnikov, je za delovanje s smiselno hitrostjo potrebna uporaba grafičnih procesnih enot. Pri tem smo omejeni z velikostjo slovarja, kar zmanjšuje kakovost prevodov. Velikost slovarja besednih enot je še posebej pereč problem visoko pregibnih jezikov. Rešujemo ga z uporabo podbesednih enot, s katerimi dosežemo večjo pokritost jezika. V članku predstavljamo različne metode razcepljanja besed na podbesedne enote z različno velikimi slovarji in primerjamo njihovo uporabo v strojnem prevajalniku za jezikovni par slovenščina-angleščina. V primerjavo vključujemo še prevajalnik brez razcepljanja besed. Predstavljamo rezultate uspešnosti prevajanja z metriko BLEU, hitrosti učenja modelov in hitrosti prevajanja ter velikosti modelov. Dodajamo pregled praktičnih vidikov uporabe podbesednih enot v strojnem prevajalniku, ki ga uporabljamo skupaj z orodji za računalniško podprto prevajanje.

Publisher

University of Ljubljana

Subject

Linguistics and Language,Language and Linguistics

Reference23 articles.

1. Bahdanau D., Cho K., & Bengio Y. (2014). Neural Machine Translation by Jointly Learning to Align and Translate. In 3rd International Conference on Learning Representations.

2. Banerjee, T., & Bhattacharyya, P. (2018). Meaningless yet meaningful: Morphology grounded subword-level nmt. In Proceedings of the second workshop on subword/character level models (pp. 55–60). Retrieved from https://aclanthology.org/W18-1207.pdf

3. Bañón, M., Chen, P., Haddow, B., Heafield, K., Hoang, H., Esplà-Gomis, M., Forcada, M. L., …, & Zaragoza, J. (2020). ParaCrawl: Web-scale acquisition of parallel corpora. In Proceedings of the 58th annual meeting of the association for computational linguistics (pp. 4555–4567). doi: 10.18653/v1/2020.acl-main.417

4. Brown, P. F., Della Pietra, S. A., Della Pietra, V. J., & Mercer, R. L. (1993). The mathematics of statistical machine translation: Parameter estimation. Computational linguistics, 19(2), 263–311.

5. Creutz, M., & Lagus, K. (2002). Unsupervised discovery of morphemes. In Proceedings of the workshop on morphological and phonological learning of ACL-02 (pp. 21–30). doi: 10.3115/1118647.1118650