DeepLontar dataset for handwritten Balinese character detection and syllable recognition on Lontar manuscript-Reference-Cited by-同舟云学术

DeepLontar dataset for handwritten Balinese character detection and syllable recognition on Lontar manuscript

Published:2022-12-10 Issue:1 Volume:9 Page:
ISSN:2052-4463
Container-title:Scientific Data
language:en
Short-container-title:Sci Data

Author:

Siahaan Daniel^ORCID,Sutramiani Ni Putu,Suciati Nanik,Duija I Nengah,Darma I Wayan Agus Surya

Abstract

AbstractThe digitalization of traditional Palmyra manuscripts, such as Lontar, is the government’s main focus in efforts to preserve Balinese culture. Digitization is done by acquiring Lontar manuscripts through photos or scans. To understand Lontar’s contents, experts usually carry out transliteration. Automatic transliteration using computer vision is generally carried out in several stages: character detection, character recognition, syllable recognition, and word recognition. Many methods can be used for detection and recognition, but they need data to train and evaluate the resulting model. In compiling the dataset, the data needs to be processed and labelled. This paper presented data collection and building datasets for detection and recognition tasks. Lontar was collected from libraries at universities in Bali. Data generation was carried out to produce 400 augmented images from 200 Lontar original images to increase the variousness of data. Annotations were performed to label each character producing over 100,000 characters in 55 character classes. This dataset can be used to train and evaluate performance in character detection and syllable recognition of new manuscripts.

Publisher

Springer Science and Business Media LLC

Subject

Library and Information Sciences,Statistics, Probability and Uncertainty,Computer Science Applications,Education,Information Systems,Statistics and Probability

Link

https://www.nature.com/articles/s41597-022-01867-5.pdf

Reference16 articles.

1. Windu, M., Burie, J., Ogier, J. & Ngurah, G. AMADI _ LontarSet: The First Handwritten Balinese Palm Leaf Manuscripts Dataset. in 168–173, https://doi.org/10.1109/ICFHR.2016.39 (2016).

2. Darma, I. W. A. S. & Sutramiani, N. P. Segmentation of Balinese Script on Lontar Manuscripts using Projection Profile. in 2019 5th International Conference on New Media Studies (CONMEDIA) 212–216, https://doi.org/10.1109/CONMEDIA46929.2019.8981860 (2019).

3. Sutramiani, N. P., Suciati, N. & Siahaan, D. Transfer Learning on Balinese Character Recognition of Lontar Manuscript Using MobileNet. in 2020 4th International Conference on Informatics and Computational Sciences (ICICoS) 1–5, https://doi.org/10.1109/ICICoS51170.2020.9299030 (2020).

4. Sutramiani, N. P., Suciati, N. & Siahaan, D. MAT-AGCA: Multi Augmentation Technique on small dataset for Balinese character recognition using Convolutional Neural Network. ICT Express 7, 521–529 (2021).

5. Suciati, N., Sutramiani, N. P. & Siahaan, D. LONTAR-DETC: Dense and High Variance Balinese Character Detection Method in Lontar Manuscripts. IEEE Access 10, 14600–14609 (2022).