Derin sinir ağlarıyla Osmanlıca optik karakter tanıma

Author:

DÖLEK İshak1ORCID,KURT Atakan1ORCID

Affiliation:

1. istanbul üniversitesi-cerrahpaşa

Abstract

Bu makalede "Osmanlıcadan Günümüz Türkçesine Uçtan Uca Aktarım Projesi" kapsamında geliştirilen ve nesih hattıyla basılmış Osmanlıca (Osmanlı Türkçesi) doküman görüntülerini derin sinir ağı modelleriyle metne dönüştüren web tabanlı bir optik karakter tanıma (OCR) sistemi sunulmuştur. Sistemin derin sinir ağı mimarisi görüntü tanımada yaygın kullanılan CNN katmanlarından ve doğal dil işlemede yaygın kullanılan bir RNN türü olan iki yönlü LSTM katmanlarından oluşmaktadır. Eğitim için orijinal, sentetik ve hibrit olmak üzere 3 farklı veri kümesi hazırlanmış ve bunlarla aynı isimde 3 farklı OCR modeli oluşturulmuştur. Orijinal veri seti yaklaşık 1.000 sayfadan, sentetik veri seti ise yaklaşık 23.000 sayfadan oluşmaktadır. Geneline Osmanlica.com OCR adı verilen bu 3 model Tesseract’ın Arapça ve Farsça, Google Docs’ın Arapça, Abby FineReader’ın Arapça ve Miletos firmasının OCR model/araçlarıyla test için hazırladığımız 21 sayfalık orijinal doküman kümesi kullanılarak karşılaştırılmıştır. Kesin referans ve OCR çıktı metinleri kullanıcı ve yazılım kaynaklı hatalar içerdiğinden karşılaştırmadan önce metinler özel bir normalizasyon sürecinden geçirilmiştir. Karşılaştırma ham, normalize ve bitişik olmak üzere 3 farklı metin ve karakter, katar ve kelime tanıma olmak üzere 3 farklı ölçüt ile yapılmıştır. Osmanlica.com Hibrit modeli karakter tanımada %88,86 ham, %96,12 normalize ve %97,37 bitişik doğruluk oranlarıyla; bağlı karakter katarı tanımada %80,48 ham, %91,60 normalize ve %97,37 bitişik doğruluk oranlarıyla; kelime tanımada %44.08 ham ve %66.45 normalize doğruluk oranlarıyla diğer modellerden belirgin şekilde daha iyi sonuçlar üretmiştir. Makalede Osmanlı alfabesinin kendine özgü karakteristiklerinin OCR üstündeki etkilerini gözlemlemek için Osmanlıcanın karakter, katar ve kelime ölçütlerinde sıklık analizi çalışması yapılmıştır. Bu sıklık analizi çalışmasında alfabedeki karakterler bitişebilme, harf gövdesi, noktaların konumu ve sayıları, karakterin türü, kaynak dil vb. ayırt edici özelliklere göre gruplandırılmış grup bazında sıklıklar hesaplanmıştır. Yapılan karşılaştırma deneylerinde karakter tanıma doğruluk oranları grup bazında hesaplanarak ayrıca incelenmiştir. Deneylerde sadece karakter tanıma doğruluk oranlarıyla yetinilmemiş, hatalar detaylı olarak incelenmiş, harf bazındaki OCR hataları ekleme, silme ve yer değiştime işlemleri cinsinden ortaya konulmuştur. Böylece en çok hangi harfin hangi harflerle karıştırıldığı, en çok hangi harflerin gözden kaçırıldığı, hangi durumlarda hangi tür hataların daha çok ortaya çıktığı vb. durumlar sadece kendi OCR modelimizde değil diğer tüm modeller için ortaya konulmuştur. Bu bulguların hem verilerin ön/son işlemesinde hem de modellerin iyileştirmesinde değerli katkılar sağlayacağını düşünüyoruz. Karşılaştırmada kullanılan 21 sayfalık orijinal doküman görüntüleri, kesin referans metinleri, modellerin OCR çıktıları ve normalizasyonu yapıp doğruluk oranlarını hesaplayan Python programını içeren test veri kümesi osmanlica.com/test adresinde paylaşılmıştır.

Funder

TÜBİTAK

Publisher

Journal of the Faculty of Engineering and Architecture of Gazi University

Subject

General Engineering,Architecture

Cited by 2 articles. 订阅此论文施引文献 订阅此论文施引文献,注册后可以免费订阅5篇论文的施引文献,订阅后可以查看论文全部施引文献

同舟云学术

1.学者识别学者识别

2.学术分析学术分析

3.人才评估人才评估

"同舟云学术"是以全球学者为主线,采集、加工和组织学术论文而形成的新型学术文献查询和分析系统,可以对全球学者进行文献检索和人才价值评估。用户可以通过关注某些学科领域的顶尖人物而持续追踪该领域的学科进展和研究前沿。经过近期的数据扩容,当前同舟云学术共收录了国内外主流学术期刊6万余种,收集的期刊论文及会议论文总量共计约1.5亿篇,并以每天添加12000余篇中外论文的速度递增。我们也可以为用户提供个性化、定制化的学者数据。欢迎来电咨询!咨询电话:010-8811{复制后删除}0370

www.globalauthorid.com

TOP

Copyright © 2019-2024 北京同舟云网络信息技术有限公司
京公网安备11010802033243号  京ICP备18003416号-3