Extracción de información de documentos PDF para su uso en la indización automática de e-books-Reference-Cited by-同舟云学术

Extracción de información de documentos PDF para su uso en la indización automática de e-books

Published:2022 Issue: Volume:34 Page:
ISSN:2318-0889
Container-title:Transinformação
language:
Short-container-title:Transinformação

Author:

GIL-LEIVA Isidoro¹^ORCID,FUJITA Mariângela Spotti Lopes²^ORCID,REDIGOLO Franciele Marques³^ORCID,SARAN Jordan Ferreira²^ORCID

Affiliation:

1. Universidad de Murcia, España

2. Universidade Estadual Paulista, Júlio de Mesquita Filho, Brasil

3. Universidade Federal do Pará, Brasil

Abstract

Resumen El número de libros electrónicos que ingresan en las bibliotecas en formato PDF cada día es mayor, complicando y haciendo casi inviables algunos procesos realizados tradicionalmente de forma manual por los bibliotecarios, como es la asignación de materias. En este contexto, se hace necesario el diseño y desarrollo de aplicaciones que asistan a los bibliotecarios. Teniendo esto en consideración, presentamos en este trabajo la evaluación de herramientas de extracción de información de libros en PDF que podrían usarse posteriormente como materia prima para un sistema de indización automática. Para ello, realizamos una primera evaluación de cinco softwares (PDFMiner.six, PDFAct, PDF-extract, PDFExtract y Grobib) y, posteriormente, como PDFAct consiguió el mejor rendimiento, hicimos una segunda evaluación para averiguar su capacidad para identificar y extraer informaciones de los libros, tales como títulos, índices, secciones, títulos de tablas y gráficos y referencias bibliográficas, informaciones relevantes para cualquier sistema de indización. Se concluye que ninguna de las herramientas evaluadas extrae adecuadamente las diferentes partes de libros en PDF, si bien, PDFAct ha logrado un rendimiento superior al del resto.

Publisher

FapUNIFESP (SciELO)

Subject

Library and Information Sciences,Museology,Information Systems

Link

http://www.scielo.br/scielo.php?script=sci_pdf&pid=S0103-37862022000100509&tlng=es

Reference22 articles.

1. A rule-based information extraction approach for extracting metadata from PDF books;Alamoudi A;ICIC Express Letters, Part B: Applications,2021

2. Resume extraction with conditional random field method;Anggakusuma J;IOP Conference Series: Materials Science and Engineering,2020

3. PDF text classification to leverage information extraction from publication reports;Bui D. D. A;Journal of Biomedical Informatics,2016

Cited by 1 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

1. Método para avaliação direta da indexação automática via julgamento por indexadores;Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação;2024-03-02