BiLSTM Derin Öğrenme Yöntemi ile Uzun Metinlerden Yeni Özet Metinlerin Türetilmesi

Author:

Şahin Onur1ORCID,Yayla Rıdvan1ORCID

Affiliation:

1. BİLECİK ŞEYH EDEBALİ ÜNİVERSİTESİ

Abstract

Günümüzde, derin öğrenme tekniklerinin yaratıcı metin oluşturma süreçlerine entegrasyonu, araştırmacılar ve yazılım geliştiriciler arasında yaygın olarak kullanılmaktadır. Derin öğrenme, büyük veri setleri üzerinde karmaşık bilgileri öğrenme yeteneği ile bilinir ve bu özellik, dil anlama ve metin üretme konularında önemli avantajlar sunar. Çalışmanın amacı Bidirectional Long Short-Term Memory (BiLSTM) derin öğrenme mimarisi temelinde uzun bir metindeki ifadelerin eğitilerek yeni bir özet metnin türetilmesidir. Bu amaç doğrultusunda Türkçe dilinde yazılmış farklı uzunlukta ve türdeki (Roman, Kişisel Gelişim) iki doküman veriseti olarak kullanılmış, veri setindeki metinler veri temizleme, tokenizasyon ve vektörleştirme gibi bir dizi önişlemden geçirilmiştir. Çalışma, BiLSTM'nin yanı sıra LSTM, GRU, BiGRU ve CNN gibi diğer derin öğrenme mimarilerini de değerlendirmiş ve BiLSTM modelinin iki farklı kitap türünde ve farklı kelime sayılarında (1.000, 2.000 ve 5.000 kelime) en yüksek METEOR, BLEU ve ROGUE skorlarına sahip olduğunu ortaya koymuştur. Bu bulgular, BiLSTM’nin metin özetleme ve metin üretme için diğer modellere göre daha başarılı sonuçlar ürettiğini göstermektedir. BiLSTM kullanarak belli bir roman veya kişisel gelişim kitabından yaratıcı ve özgün metinler türetme yöntemi araştırmacılar ve yazılım geliştiriciler için ilham verici bir kaynak olup, önerilen yöntemin farklı metin türleri için de uygulanabileceği öngörülmektedir. Bu sayede, metin özetleme ve üretme süreçlerinde BiLSTM mimarisinin başarılı sonuçlar ürettiği gösterilmiştir.

Publisher

Karadeniz Fen Bilimleri Dergisi

Reference45 articles.

1. Babüroğlu, B., Tekerek, A., & Tekerek, M. (2019). Türkçe İçin Derin Öğrenme Tabanlı Doğal Dil İşleme Modeli Geliştirilmesi. 13th International Computer and Instructional Technology Symposium

2. Banerjee, S. and Lavie, A. (2005). METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments. In Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization, pages 65–72, Ann Arbor, Michigan. Association for Computational Linguistics.

3. Bayer, M., Kaufhold, M.-A., Buchhold, B., Keller, M., Dallmeyer, J., Reuter, C. (2022). Data augmentation in natural language processing: a novel text generation approach for long and short text classifiers. International Journal of Machine Learning and Cybernetics, 14(3), 135-150. https://doi.org/10.1007/s13042-022-01553-3

4. Chakraborty, S., Banik, J., Addhya, S., & Chatterjee, D. (2020). Study of Dependency on number of LSTM units for Character based Text Generation models. 2020 International Conference on Computer Science, Engineering and Applications (ICCSEA).

5. Cui, P., Wang, X., Pei, J., & Zhu, W. (2018). A Survey on Network Embedding. IEEE Transactions on Knowledge and Data Engineering, 31(5), 833-852. https://doi.org/10.1109/TKDE.2018.2849727

同舟云学术

1.学者识别学者识别

2.学术分析学术分析

3.人才评估人才评估

"同舟云学术"是以全球学者为主线,采集、加工和组织学术论文而形成的新型学术文献查询和分析系统,可以对全球学者进行文献检索和人才价值评估。用户可以通过关注某些学科领域的顶尖人物而持续追踪该领域的学科进展和研究前沿。经过近期的数据扩容,当前同舟云学术共收录了国内外主流学术期刊6万余种,收集的期刊论文及会议论文总量共计约1.5亿篇,并以每天添加12000余篇中外论文的速度递增。我们也可以为用户提供个性化、定制化的学者数据。欢迎来电咨询!咨询电话:010-8811{复制后删除}0370

www.globalauthorid.com

TOP

Copyright © 2019-2024 北京同舟云网络信息技术有限公司
京公网安备11010802033243号  京ICP备18003416号-3