Authorship attribution of comments in Portuguese extracted from Reddit-Reference-Cited by-同舟云学术

Authorship attribution of comments in Portuguese extracted from Reddit

Published:2023-07-27 Issue:2 Volume:15 Page:1-10
ISSN:2176-6649
Container-title:Revista Brasileira de Computação Aplicada
language:
Short-container-title:RBCA

Author:

Matias Vinicius Alves,Digiampietri Luciano Antonio^ORCID

Abstract

Ambientes de interação na Internet, como redes sociais, transferem dados textuais em larga escala que carregam implicitamente os estilos de escrita de cada usuário da rede. Dado o fluxo constante e intenso de informações por meio de sistemas de informação desse tipo, é necessário desenvolver técnicas que possam distinguir um texto entre dois possíveis autores peor motivos de, por exemplo, evitar o retorno de usuários banidos da plataforma. Este artigo abordou e avaliou diferentes formas de realizar a atribuição de autoria por meio de processamento de linguagem natural e aprendizado de máquina, com base em comentários em português extraídos da rede social Reddit. Este artigo tem como objetivo atualizar a literatura de atribuição de autoria utilizando o português como idioma principal, dada a escassez de trabalhos atualizados nesse idioma. Os resultados de vários métodos viáveis para a tarefa de atribuição de autoria binária foram expostos e avaliados na questão da viabilidade de acordo com sua significância estatística, obtendo-se dois modelos dentro do mesmo intervalo de confiança que atingiram 0,88 de F1-score e 0,94 de AUC com extração de texto atributos por meio de embeddings BERTimbau e por meio de TF-IDF de palavras.

Publisher

UPF Editora

Subject

General Earth and Planetary Sciences,General Environmental Science