Abstract
ZusammenfassungDurch Transformer-basierte KI-Systeme wurden große Fortschritte, u. a. in den Bereichen Textverarbeitung und -verständnis, erreicht. Diese Deep-Learning-Modelle ermöglichen das Generieren von Texten und bilden die Grundlage moderner Sprachmodelle. Die rasante Entwicklung der letzten Jahre hat große Sprachmodelle, wie ChatGPT, Bard oder VICUNA-13B, hervorgebracht.Der Beitrag präsentiert die Entwicklung der Sprachmodelle hin zu den großen Sprachmodellen. Durch die fortschreitende Entwicklung der Sprachmodelle ergeben sich vielfältige Möglichkeiten und Probleme, weshalb eine Erkennung von LLM-generierten Texten wichtig ist. Dieser Artikel stellt unterschiedliche Ansätze bekannter Erkennungsverfahren dar. Neben statistischen Klassifizierungsverfahren werden auch Deep-Learning-basierte und Zero-Shot-Verfahren besprochen. Daneben werden ein kompressionsorientierter Ansatz vorgestellt sowie Kennzeichnungsverfahren präsentiert. Nach dem tabellarischen Vergleich der in der Literatur vorgestellten Verfahren werden implementierte Softwaredetektoren präsentiert. Im Anschluss werden Überlegungen zum Entwurf eines Trainingsdatensatzes aufgezeigt, wodurch die Grundlage für einen eigenen Ansatz zur Erkennung von KI-generierten Texten in deutscher Sprache geschaffen wird. Darüber hinaus werden die Architektur und das Design des eigenen Ansatzes, dem KI-Inhalte-Detektor, vorgestellt und beschrieben sowie die Limitationen aufgezeigt.
Funder
Technische Universität Berlin
Publisher
Springer Fachmedien Wiesbaden GmbH
Reference41 articles.
1. Alzubaidi L, Zhang J, Humaidi AJ, Al-Dujaili A, Duan Y, Al-Shamma O, Santamaría J, Fadhel MA, Al-Amidie M, Farhan L (2021) Review of deep learning: concepts, CNN architectures, challenges, applications, future directions. J Big Data 8:53. https://doi.org/10.1186/s40537-021-00444-8
2. Chakraborty M, Tonmoy SMTI, Zaman SMM, Sharma K, Barman NR, Gupta C, Gautam S, Kumar T, Jain V, Chadha A, Sheth AP, Das A (2023a) Counter Turing test CT^2: aI-generated text detection is not as easy as you may think—introducing AI detectability index. https://arxiv.org/pdf/2310.05030.pdf
3. Chakraborty S, Bedi AS, Zhu S, An B, Manocha D, Huang F (2023b) On the possibilities of AI-generated text detection. https://arxiv.org/pdf/2304.04736.pdf
4. Chan B, Schweter S, Möller T (2020) German’s next language model. https://arxiv.org/pdf/2010.10906.pdf
5. Chen S, Beeferman D, Rosenfeld R (1998) Evaluation metrics for language models. Carnegie Mellon University