Author:
Pinto Samuel Lopes,Campolina José Julio,Sena João Pedro M.,Félix Gabriel,Ferreira Lucas N.,Reis Julio C. S.
Abstract
Com o surgimento dos smartphones, as plataformas sociais tornaram-se amplamente populares devido à sua facilidade de uso. Essas plataformas fornecem um ambiente propício para a comunicação entre pessoas sobre diversos assuntos. Especialmente no contexto político, essas plataformas têm sido amplamente utilizadas para realização de campanhas eleitorais virtuais e disseminação de conteúdo ilícito, incluindo discurso de ódio. Neste contexto, soluções computacionais podem ser úteis para identificação precoce deste tipo de mensagem. Exploramos publicações de usuários do Twitter/X para a proposição de uma abordagem que utiliza um modelo BERT pré-treinado para o português brasileiro (BERTimbau), para identificação de usuários potencialmente tóxicos considerando o contexto político brasileiro. Nossos melhores resultados obtiveram cerca de 85% em termos de F1 score na tarefa de identificar um usuário potencialmente tóxico. Logo, além de contribuir para a compreensão das características do discurso tóxico no Twitter/X, este estudo releva o potencial das abordagens de aprendizado de máquina para identificar usuários com comportamento inadequado no ambiente online, o que pode ser útil para mitigar o impacto causado pela propagação desse tipo de conteúdo nesses ambientes. Aviso! Este artigo contém palavras e exemplos de tweets ofensivos.
Publisher
Sociedade Brasileira de Computação - SBC