Affiliation:
1. Pontifícia Universidade Católica de Minas Gerais, Brazil
2. Universidade Federal de Minas Gerais, Brazil
3. Centro Federal de Educação Tecnológica de Minas Gerais, Brasil
Abstract
Resumo O processo de categorização requer a extração de elementos representativos de um documento de modo que sua essência possa ser utilizada na identificação de similaridades e na geração de categorias. O objetivo deste trabalho é analisar as dificuldades e os resultados encontrados em dois processos diferentes de categorização de documentos de um domínio de conhecimento restrito, o primeiro, baseado no uso de palavras-chave e o segundo, na utilização de citações para representação dos documentos. Para exemplificar a utilização de diferentes atributos na representação dos documentos foram realizados dois experimentos. O pri-meiro utilizou um algoritmo de categorização baseado em palavras-chave. O segundo experimento gerou as categorias, utilizando Redes Neurais Artificiais, a partir das citações dos artigos. Em um domínio de conhecimento restrito, como o utilizado neste trabalho, foi possível evidenciar a dificuldade na formação de grupos que utilizam palavras-chave como atributo do processo de categorização devido à grande similaridade existente entre aquelas utilizadas pelos autores dos artigos. As citações podem ser, como mostrado no segundo experimento, um atributo alternativo e mais eficiente para esse processo. A formação de um grupo de artigos com um expressivo acoplamento bibliográfico e uma forte relação semântica comprovou a validade do método proposto. A presente pesquisa detalha a metodologia utilizada nos experimentos, mostrando a importância de uma criteriosa fase de pré-processamento para a confiabilidade das bases de dados. Este estudo pode contribuir com as pesquisas relacionadas à representação de documentos em processos de categorização e de recuperação de informação.
Subject
Library and Information Sciences,Museology,Information Systems
Reference31 articles.
1. Bibliometria e arqueologia do saber de Michel Foucault: traços de identidade teórico-metodológica;Alvarenga L.;Ciência da Informação,1998
2. Análise de referências utilizadas por pesquisadores na revista Gestão & Produção;Andrade F.S.;Transinformação,2013
3. Scholarly communication and bibliometrics;Borgman C.L.;Annual Review of Information Science and Technology,2002
4. Redes neurais artificiais: teoria e aplicações;Braga A.P.,2000