Abordagem Semi-Supervisionada para Anotação de Linguagem Tóxica
Author:
R. Neto Francisco A.,Anchiêta Rafael T.,Moura Raimundo S.,Santana André M.
Abstract
Mensagens tóxicas acarretam sérios problemas nas plataformas de redes sociais, uma vez que são usadas para prejudicar indivíduos, grupos ou organizações. Os métodos automáticos de combate ao Discurso de Ódio precisam de bons recursos linguísticos, como corpora. A construção manual de corpus de linguagem tóxica impõe desafios significativos devido à forte subjetividade associada ao conceito de Discurso de Ódio e à dificuldade em treinar adequadamente anotadores. A solução deste problema passa pela criação de alternativas para a anotação de dados. Este trabalho apresenta uma técnica semi-supervisionada, baseada em grafo heterogêneo, para detecção e anotação automática de linguagem tóxica. Essa abordagem foi avaliada sobre o corpus ToLD-BR e apresentou nível de concordância moderada com seus rótulos originais.
Publisher
Sociedade Brasileira de Computação - SBC
Reference23 articles.
1. Aroyo, L., Dixon, L., Thain, N., Redfield, O., and Rosen, R. (2019). Crowdsourcing subjective tasks: The case study of understanding toxicity in online discussions. In Companion Proceedings of The 2019 World Wide Web Conference, WWW ’19, page 1100–1105, New York, NY, USA. Association for Computing Machinery. 2. Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D., Wu, J., Winter, C., Hesse, C., Chen, M., Sigler, E., Litwin, M., Gray, S., Chess, B., Clark, J., Berner, C., McCandlish, S., Radford, A., Sutskever, I., and Amodei, D. (2020). Language models are few-shot learners. In Advances in Neural Information Processing Systems, pages 1877–1901, Online. Curran Associates, Inc. 3. Costa Bertaglia, T. F. and Volpe Nunes, M. d. G. (2016). Exploring word embeddings for unsupervised textual user-generated content normalization. In Proceedings of the 2nd Workshop on Noisy User-generated Text (WNUT), pages 112–120, Osaka, Japan. The COLING 2016 Organizing Committee. 4. de Pelle, R. and Moreira, V. (2017). Offensive comments in the brazilian web: a dataset and baseline results. In VI Brazilian Workshop on Social Network Analysis and Mining, pages 510–519, São Paulo, Brazil. SBC. 5. Fortuna, P., Rocha da Silva, J., Soler-Company, J., Wanner, L., and Nunes, S. (2019). A hierarchically-labeled Portuguese hate speech dataset. In Roberts, S. T., Tetreault, J., Prabhakaran, V., and Waseem, Z., editors, Proceedings of the Third Workshop on Abusive Language Online, pages 94–104, Florence, Italy. Association for Computational Linguistics.
|
|