Affiliation:
1. Universidad de Murcia, España
2. Universidade Estadual Paulista, Júlio de Mesquita Filho, Brasil
3. Universidade Federal do Pará, Brasil
Abstract
Resumen El número de libros electrónicos que ingresan en las bibliotecas en formato PDF cada día es mayor, complicando y haciendo casi inviables algunos procesos realizados tradicionalmente de forma manual por los bibliotecarios, como es la asignación de materias. En este contexto, se hace necesario el diseño y desarrollo de aplicaciones que asistan a los bibliotecarios. Teniendo esto en consideración, presentamos en este trabajo la evaluación de herramientas de extracción de información de libros en PDF que podrían usarse posteriormente como materia prima para un sistema de indización automática. Para ello, realizamos una primera evaluación de cinco softwares (PDFMiner.six, PDFAct, PDF-extract, PDFExtract y Grobib) y, posteriormente, como PDFAct consiguió el mejor rendimiento, hicimos una segunda evaluación para averiguar su capacidad para identificar y extraer informaciones de los libros, tales como títulos, índices, secciones, títulos de tablas y gráficos y referencias bibliográficas, informaciones relevantes para cualquier sistema de indización. Se concluye que ninguna de las herramientas evaluadas extrae adecuadamente las diferentes partes de libros en PDF, si bien, PDFAct ha logrado un rendimiento superior al del resto.
Subject
Library and Information Sciences,Museology,Information Systems
Reference22 articles.
1. A rule-based information extraction approach for extracting metadata from PDF books;Alamoudi A;ICIC Express Letters, Part B: Applications,2021
2. Resume extraction with conditional random field method;Anggakusuma J;IOP Conference Series: Materials Science and Engineering,2020
3. PDF text classification to leverage information extraction from publication reports;Bui D. D. A;Journal of Biomedical Informatics,2016
Cited by
1 articles.
订阅此论文施引文献
订阅此论文施引文献,注册后可以免费订阅5篇论文的施引文献,订阅后可以查看论文全部施引文献
1. Método para avaliação direta da indexação automática via julgamento por indexadores;Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação;2024-03-02