Affiliation:
1. Universidade Federal de Minas Gerais, Brasil
Abstract
Resumo Diante do crescimento exponencial de dados e informações, proporcionado por sensores e mídias sociais, um ecossistema composto por novas infraestruturas de armazenamento e processamento, denominado Big Data, foi desenvolvido. Todo esse desenvolvimento redundou em uma nova área do conhecimento, denominada Ciência de Dados. Apesar de haver um ecossistema e uma área do conhecimento para tratar esse bloco massivo de dados e informação, o incomodo da superabundância de dados ainda permanece, e se torna mais expressivo quando as empresas tomam consciência que podem usar zetabytes de dados e informações para direcionarem a estratégia e as operações. Baseado nisso, essa pesquisa buscou desenvolver um método para resumir as notícias do setor de mineração do Brasil, identificando o efeito da similaridade semântica na análise, possibilitando a recuperação da informação e uso em processos de compreensão do setor. Nesse método foi aplicado o transformer BERTSUM para sumarizar as notícias, e após sumarizadas o transformer BERT foi aplicado para medir a similaridade entre as notícias. O método permitiu reduzir em 75% todo o bloco de texto, retirar notícias com o mesmo teor semântico, e deduzir que há um padrão no discurso das notícias relacionadas ao setor de mineração.
Reference53 articles.
1. Performance study on extractive text summarization using BERT models;ABDEL-SALAM Shehab;Information,2022
2. Enhancing unsupervised neural networks based text summarization with word embedding and ensemble learning;ALAMI Nabil;Expert Systems with Applications,2019
3. Incorporating big data within retail organizations: a case study approach;AVERSA Joseph;Journal of Retailing and Consumer Services,2021
4. Models and practices in urban data science at scale;BALDUINI Marco;Big Data Research,2019
5. On the use of summarization and transformer architectures for profiling résumés;BONDIELLI Alessandro;Expert Systems with Applications,2021