Twitter Platformundan Elde Edilen Türkçe Saldırgan Dil Derlemi
-
Published:2022-10-10
Issue:
Volume:
Page:
-
ISSN:2687-4415
-
Container-title:Mühendislik Bilimleri ve Araştırmaları Dergisi
-
language:tr
-
Short-container-title:Müh.Bil.ve Araş.Dergisi
Author:
ŞAHİNER YILMAZ Şeyma1, ÖZER İlyas1, GÖKÇEN Hadi2
Affiliation:
1. BANDIRMA ONYEDI EYLUL UNIVERSITY 2. GAZI UNIVERSITY
Abstract
Sosyal medya platformlarında kullanıcıların paylaşımlar arasında saldırgan dil barındıran içeriklerin önemli oranda arttığı gözlemlenmiştir. Çalışma Türkçe dilinde bu sorunun çözümüne katkı sağlamayı amaçlamaktadır. Bu çalışmada Twitter platformundan elde edilen bir veri seti oluşturulmuştur. 14752 Türkçe tweet metninden oluşan bu veri seti etiketleyiciler tarafından manuel olarak etiketlenmiştir. Buna ek olarak oluşturulan veri seti kullanılarak LSTM (Long ShortTerm Memory) ve GRU (Gated Recurrent Units) modellerinin sınıflandırma performansları karşılaştırılmıştır. Çalışmada ikili ve çoklu sınıflandırma yapılmıştır. Saldırgan dil ile ilgili Türkçe için çoklu sınıflandırma yapılan ilk çalışmadır. Bunlara ek olarak Twitter platformundan 1 milyon 860 bin tweet metninden oluşan genişletilmiş derlem elde edilmiştir. Burada word2vec yöntemi ile kelime temsilleri elde edilmiştir. Böylelikle genişletilmiş derlem kullanımının sınıflandırma performanslarına katkısı karşılaştırılmıştır. Çalışmada yapılan ikili sınıflandırma da genişletilmiş derlem kullanımıyla en yüksek performans GRU modeli F1-skor değeri %94,49’dur. Bu sebeple çoklu sınıflandırma yapılırken GRU modeli kullanılmıştır. Çoklu sınıflandırmada elde edilen sınıflandırma performans değerleri genişletilmiş derlemin katkısıyla GRU F1-makro değeri %71,97 ve %54,10’dur. Bu alanda Türk dili literatürüne katkı sağlamak amacıyla mevcut çalışmanın veri setleri ve genişletilmiş derlem kelime vektörleri paylaşılacaktır.
Publisher
Bandirma Onyedi Eylul University
Subject
Applied Mathematics,General Mathematics
Reference50 articles.
1. [1] Cambria, E., Poria, S., Gelbukh, A. and Thelwall, M., “Sentiment Analysis Is a Big Suitcase”. IEEE Intelligent Systems, vol. 32, no. 6, pp. 74–80, 2017. 2. [2] Liu, B., “Sentiment analysis and opinion mining”. Synthesis lectures on human language technologies, vol. 5, no. 1, pp. 160-167, 2012. 3. [3] Craig, W., Boniel-Nissim, M., King, N., Walsh, S. D., Boer, M., Donnelly, P. D., ... and Van den Eijnden, R. “Social media use and cyber-bullying: a cross-national analysis of young people in 42 countries”, Journal of Adolescent Health, vol. 66 no. 6, pp. 100-108, 2020. 4. [4] Hinduja, S. and Patchin, J. W., "Bullying, cyberbullying and suicide", Archiands of suicide research, vol. 14, no. 3, pp. 206-221, 2010. 5. [5] Newberry, C. (2022). 36 Twitter Stats All Marketers Need to Know in 2021. https://blog.hootsuite.com/twitter-statistics/ (Access Date: April 12, 2022).
Cited by
3 articles.
订阅此论文施引文献
订阅此论文施引文献,注册后可以免费订阅5篇论文的施引文献,订阅后可以查看论文全部施引文献
|
|