Entwicklung und Evaluation eines Deep-Learning-Algorithmus für die Worterkennung aus Lippenbewegungen für die deutsche Sprache-Reference-Cited by-同舟云学术

Entwicklung und Evaluation eines Deep-Learning-Algorithmus für die Worterkennung aus Lippenbewegungen für die deutsche Sprache

Published:2022-01-13 Issue:6 Volume:70 Page:456-465
ISSN:0017-6192
Container-title:HNO
language:de
Short-container-title:HNO

Author:

Pham Dinh Nam,Rahne Torsten

Abstract

Zusammenfassung Hintergrund Zahlreiche Menschen profitieren beim Lippenlesen von den zusätzlichen visuellen Informationen aus den Lippenbewegungen des Sprechenden, was jedoch sehr fehleranfällig ist. Algorithmen zum Lippenlesen mit auf künstlichen neuronalen Netzwerken basierender künstlicher Intelligenz verbessern die Worterkennung signifikant, stehen jedoch nicht für die deutsche Sprache zur Verfügung. Material und Methoden Es wurden 1806 Videos mit jeweils nur einer deutsch sprechenden Person selektiert, in Wortsegmente unterteilt und mit einer Spracherkennungssoftware Wortklassen zugeordnet. In 38.391 Videosegmenten mit 32 Sprechenden wurden 18 mehrsilbige, visuell voneinander unterscheidbare Wörter zum Trainieren und Validieren eines neuronalen Netzwerks verwendet. Die Modelle 3D Convolutional Neural Network, Gated Recurrent Units und die Kombination beider Modelle (GRUConv) wurden ebenso verglichen wie unterschiedliche Bildausschnitte und Farbräume der Videos. Die Korrektklassifikationsrate wurde jeweils innerhalb von 5000 Trainingsepochen ermittelt. Ergebnisse Der Vergleich der Farbräume ergab keine relevant unterschiedlichen Korrektklassifikationsraten im Bereich von 69 % bis 72 %. Bei Zuschneidung auf die Lippen wurde mit 70 % eine deutlich höhere Korrektklassifikationsrate als bei Zuschnitt auf das gesamte Sprechergesicht (34 %) erreicht. Mit dem GRUConv-Modell betrugen die maximalen Korrektklassifikationsraten 87 % bei bekannten Sprechenden und 63 % in der Validierung mit unbekannten Sprechenden. Schlussfolgerung Das erstmals für die deutsche Sprache entwickelte neuronale Netzwerk zum Lippenlesen zeigt eine sehr große, mit englischsprachigen Algorithmen vergleichbare Genauigkeit. Es funktioniert auch mit unbekannten Sprechenden und kann mit mehr Wortklassen generalisiert werden.

Funder

Universitätsklinikum Halle (Saale)

Publisher

Springer Science and Business Media LLC

Subject

Otorhinolaryngology

Link

https://link.springer.com/content/pdf/10.1007/s00106-021-01143-9.pdf

Reference38 articles.

1. Antonakos E, Roussos A, Zafeiriou S (2015) A survey on mouth modeling and analysis for sign language recognition. 11th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG). IEEE, S 1–7

2. Assael YM, Shillingford B, Whiteson S, Freitas ND (2016) LipNet: end-to-end sentence-level lipreading. http://arxiv.org/pdf/1611.01599v2. Zugegriffen: 21. Sept. 2021

3. Bishop CM (2006) Pattern recognition and machine learning. Information science and statistics. Springer, New York

4. Bradski G (2000) The OpenCV library. Dr Dobbs J 25(11):122–125

5. Burrows T, Beacom M, Gaitan M (2021) MoviePy. https://github.com/Zulko/moviepy. Zugegriffen: 21. Sept. 2021

Cited by 1 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

1. Enhanced deep learning approach for text to image conversion using Lip movements;2024 4th International Conference on Innovative Practices in Technology and Management (ICIPTM);2024-02-21