Comparación de algoritmos de resumen de texto para el procesamiento de editoriales y noticias en español

Author:

López-Trujillo SebastiánORCID,Torres-Madroñero María C.ORCID

Abstract

El lenguaje se ve afectado, no solo por las reglas gramaticales, sino también por el contexto y las diversidades socioculturales, por lo cual, el resumen automático de textos (un área de interés en el procesamiento de lenguaje natural - PLN), enfrenta desafíos como la identificación de fragmentos importantes según el contexto y el tipo de texto analizado. Trabajos anteriores describen diferentes métodos de resúmenes automáticos, sin embargo, no existen estudios sobre su efectividad en contextos específicos y tampoco en textos en español. En este artículo se presenta la comparación de tres algoritmos de resumen automático usando noticias y editoriales en español. Los tres algoritmos son métodos extractivos que buscan estimar la importancia de una frase o palabra a partir de métricas de similitud o frecuencia de palabras. Para esto se construyó una base de datos de documentos donde se incluyeron 33 editoriales y 27 noticias, obteniéndose un resumen manual para cada texto. La comparación de los algoritmos se realizó cuantitativamente, empleando la métrica Recall-Oriented Understudy for Gisting Evaluation. Asimismo, se analizó el potencial de los algoritmos seleccionados para identificar los componentes principales del texto. En el caso de las editoriales, el resumen automático debía incluir un problema y la opinión del autor, mientras que, en las noticias, el resumen debía describir las características temporales y espaciales de un suceso. En términos de porcentaje de reducción de palabras y precisión, el método que permite obtener los mejores resultados, tanto para noticias como para editoriales, es el basado en la matriz de similitud. Este método permite reducir en un 70 % los textos, tanto editoriales como noticiosos. No obstante, es necesario incluir la semántica y el contexto en los algoritmos para mejorar su desempeño en cuanto a precisión y sensibilidad.  

Publisher

Instituto Tecnologico Metropolitano (ITM)

Reference19 articles.

1. K. R. Chowdhary, “Natural language processing,” en Fundamentals of Artificial Intelligence, New Delhi: Springer, 2020, pp- 603-649. https://doi.org/10.1007/978-81-322-3972-7_19

2. A. Cortez Vásquez; H. Vega Huerta; J. Pariona Quispe; A. M. Huayna, “Procesamiento de lenguaje natural”, Revista de Investigación de Sistemas e Informática, vol. 6, no. 2, pp. 45-54, dic. 2009. https://revistasinvestigacion.unmsm.edu.pe/index.php/sistem/article/view/5923

3. A. Gelbukh, “Procesamiento de Lenguaje Natural y sus Aplicaciones”, Komputer Sapiens, vol. 1, pp. 6-11, jun. 2010. https://www.gelbukh.com/CV/Publications/2010/Procesamiento%20de%20lenguaje%20natural%20y%20sus%20aplicaciones.pdf

4. A. Rivera Arrizabalaga; S. Rivera Velasco, “Origen del lenguaje: un enfoque multidisciplinar”, Ludus Vitalis, vol. 17, no. 31, pp. 103-141, 2009. http://ludus-vitalis.org/ojs/index.php/ludus/article/view/277

5. V. Gupta; G. S. Lehal, “A Survey of Text Mining Techniques and Applications”, Journal of Emerging Technologies in Web Intelligence, vol. 1, no. 1, pp. 60-76, Aug. 2009. http://learnpunjabi.org/pdf/gslehal-pap18.pdf

同舟云学术

1.学者识别学者识别

2.学术分析学术分析

3.人才评估人才评估

"同舟云学术"是以全球学者为主线,采集、加工和组织学术论文而形成的新型学术文献查询和分析系统,可以对全球学者进行文献检索和人才价值评估。用户可以通过关注某些学科领域的顶尖人物而持续追踪该领域的学科进展和研究前沿。经过近期的数据扩容,当前同舟云学术共收录了国内外主流学术期刊6万余种,收集的期刊论文及会议论文总量共计约1.5亿篇,并以每天添加12000余篇中外论文的速度递增。我们也可以为用户提供个性化、定制化的学者数据。欢迎来电咨询!咨询电话:010-8811{复制后删除}0370

www.globalauthorid.com

TOP

Copyright © 2019-2024 北京同舟云网络信息技术有限公司
京公网安备11010802033243号  京ICP备18003416号-3