Abstract
Ante la creciente generación de datos digitales, surgen retos en su gestión y categorización. Este estudio enfatiza en la clasificación automática de textos, poniendo especial énfasis en el impacto del preprocesamiento. Al emplear el conjunto de datos Reuters 21578 y aplicar algoritmos de aprendizaje supervisado como Random Forest, k-Vecinos Más Cercanos y Naïve Bayes, se analizó cómo técnicas como la tokenización y eliminación de palabras vacías influencian la precisión clasificatoria. Los hallazgos resaltan el valor agregado del preprocesamiento, destacando a "Random Forest" como el algoritmo óptimo, alcanzando una precisión del 92.2%. Este trabajo ilustra la potencialidad de combinar técnicas de preprocesamiento y algoritmos para mejorar la categorización de textos en la era digital.
Reference21 articles.
1. C. Guardiola González, “Clasificador de textos mediante técnicas de aprendizaje automático,” 2020. Accessed: Sep. 27, 2023. [Online]. Available: https://riunet.upv.es:443/handle/10251/133840
2. Y. Li, “Automatic Classification of Chinese Long Texts Based on Deep Transfer Learning Algorithm,” in 2021 2nd International Conference on Artificial Intelligence and Computer Engineering (ICAICE), IEEE, Nov. 2021, pp. 17–20. doi: 10.1109/ICAICE54393.2021.00011.
3. D. Onita, “Active Learning Based on Transfer Learning Techniques for Text Classification,” IEEE Access, vol. 11, pp. 28751–28761, 2023, doi: 10.1109/ACCESS.2023.3260771.
4. M. A. Tayal, V. Bajaj, A. Gore, P. Yadav, and V. Chouhan, “Automatic Domain Classification of Text using Machine Learning,” in 2023 International Conference on Communication, Circuits, and Systems (IC3S), IEEE, May 2023, pp. 1–5. doi: 10.1109/IC3S57698.2023.10169470.
5. L. Zhang, B. Sun, F. Shu, and Y. Huang, “Comparing paper level classifications across different methods and systems: an investigation of Nature publications,” Scientometrics, 2022, doi: 10.1007/s11192-022-04352-3.