Abstract
En este artículo se presenta UnderRL Tagger, un programa informático de acceso libre diseñado para el etiquetado morfosintáctico (POS tagging) en lenguas que no cuentan con etiquetadores automáticos. El programa busca facilitar el trabajo con corpus en estas lenguas infrasoportadas tecnológicamente y en las lenguas minoritarias, aportando así a los procesos de revitalización desde la investigación descriptiva y las herramientas computacionales. UnderRL Tagger permite que el proceso manual de etiquetado se convierta poco a poco en automático gracias a un sistema que permite recordar y reutilizar las etiquetas, manejar grandes cantidades de textos y generar archivos de salida en formato XML con etiquetas basadas en el sistema estandarizado EAGLES. Este artículo muestra el proceso de modelado y elaboración del sistema, sus diferentes funcionalidades y las perspectivas de trabajos posteriores.
Publisher
Universidad Nacional de Colombia
Subject
Linguistics and Language,Language and Linguistics
Reference36 articles.
1. Anthony, L. (2022). TagAnt (Version 2.0.5) [Software]. https://www.laurenceanthony.net/software
2. Besacier, L., Barnard, E., Karpov, A., & Schultz, T. (2014). Automatic speech recognition for under-resourced languages: A survey. Speech Communication, 56, 85-100. https://doi.org/10.1016/j.specom.2013.07.008
3. Bonilla, J. E., Rubio López, R. Y., Llanos Chávez, A. L., Bejarano, D. E., & Bernal Chávez, J. A. (2020). Proyecto de Digitalización y Nuevas Perspectivas Tecnológicas del Atlas Lingüístico-Etnográfico de Colombia. En Gallego, A., & Roca Urgell, F. (eds.), Dialectología digital del español, 13, pp. 13-28. Santiago de Compostela: Universidad de Santiago de Compostela.
4. Camacho, L., & Zevallos, R. (2020). Lingüística computacional para la revitalización y el poliglotismo. Letras, 91(134), 184-198. http://doi.org/10.30920/letras.91.134.9
5. Cunliffe, D., Vlachidis, A., Williams, D., & Tudhope, D. (2022). Natural language processing for under-resourced languages: Developing a Welsh natural language toolkit. Computer Speech & Language, 72, 101311. https://doi.org/10.1016/j.csl.2021.101311