Offensive Language Detection from Turkish Tweets with Deep and Shallow Machine Learning Methods-Reference-Cited by-同舟云学术

Offensive Language Detection from Turkish Tweets with Deep and Shallow Machine Learning Methods

Published:2023-06-29 Issue:1 Volume:16 Page:1-10
ISSN:1305-8991
Container-title:Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi
language:
Short-container-title:

Author:

CANBAY Pelin¹^ORCID,EKİNCİ Ekin²^ORCID

Affiliation:

1. Kahramanmaraş Sütçü İmam Üniversitesi

2. SAKARYA UYGULAMALI BİLİMLER ÜNİVERSİTESİ, UYGULAMALI BİLİMLER FAKÜLTESİ

Abstract

Nefret söylemi, bir kişiye veya bir gruba yönelik nefreti ifade eden veya şiddeti teşvik eden söylemlerin genel adıdır. Bu söylemler son zamanlarda dijital ortamlarda kontrol edilemez bir şekilde artmıştır. Özellikle Twitter gibi sosyal mecralardaki yazılı nefret söylemleri hem kişiler hem de topluluklar için tehlikeli boyutlara ulaşmıştır. Nefret söyleminin dijital ortamlarda kolaylıkla ve hızlıca yayılabilmesinin önüne geçebilmek için bu söylemleri otomatik tespit edebilecek sistemlere ihtiyaç vardır. Çalışmamızda, en yaygın nefret söylemlerinden biri olan ‘saldırgan’ söylemleri otomatik olarak tespit edebilen yapay zeka modelleri ele alınmıştır. Derin ve sığ makine öğrenmesi yöntemlerinin karşılaştırmalı olarak kullanıldığı çalışmamızda, Türkçe tweetler’deki söylemler saldırgan veya değil olmak üzere 2 kategoriye ayrılabilmektedir. Yaklaşık %75-%25 dengesizliğindeki bir veri kümesini kullanarak geliştirdiğimiz modellerde, doğruluk ölçeğinde 0,85, f-skor ölçeğinde 0,74 oranında başarılı sonuçlar elde edilmiştir. Veri kümesinde bulunan tweetler’in terim frekansı-ters doküman frekansı (tf-idf) vektörleri kullanılarak eğitilen sığ modeller ile sözcük yerleştirmeleri kullanılarak eğitilen derin modellerden elde edilen sınıflandırma sonuçları karşılaştırmalı olarak bu çalışmada sunulmuştur. Yapılan deneysel çalışmalar ile Çift-Yönlü Uzun Kısa Süreli Bellek (BiLSTM) tekniği kullanılarak geliştirilen saldırgan söylem tespit modelinin, sığ yöntemlerden ve diğer bazı derin öğrenme yöntemlerinden daha başarılı sonuçlar ürettiği gösterilmiştir.

Publisher

Turkiye Bilisim Vakfi

Reference45 articles.

1. Statista, Number of social network users in selected countries in 2017 and 2022 (in millions), Statista, 2017

2. Fortuna P., Nunes S., A survey on automatic detection of hate speech in text, ACM Comput Surv, 2018, 51

3. T.D.K., Türk Dil Kurumu, Türk Tarih Kurumu Basımevi, 1954

4. Evans M., Weber A., Council of Europe Manuals - Human Rights in Culturally Diverse Societies (2 vols.), 2010

5. Burnap P., Williams M.L., Cyber hate speech on twitter: An application of machine classification and statistical modeling for policy and decision making, Policy Internet, 2015, 7