Abstract
Данная работа направлена на исследование и разработку математического и программного обеспечения для автоматизации и поддержки технического творчества путем автоматизированной генерации музыкальных произведений различных жанров, основанных на эмоциональном состоянии человека (пользователя). В основе работы лежит метод генерации музыкального материала с использованием искусственных нейронных сетей. Для генерации музыки была выбрана рекуррентная нейронная сеть с долгой краткосрочной памятью (LSTM), поскольку именно такой тип сетей позволяет учитывать иерархичность и созависимость музыкальных данных. Работа содержит подробное описание процесса сбора обучающих данных, процесса обучения сети, ее использование для генерации музыки, а также описание архитектуры сети. Кроме этого, дается описание обобщенного метода получения эмоционального состояния человека путем анализа изображения с использованием принципов теста Люшера. Для синтеза звуков по готовому музыкальному материалу в работе используется метод сэмплинга. Именно этот метод позволяет получить звучание музыкальных инструментов, приближенное к реалистичному, также данный метод сравнительно прост в реализации. Также статья включает описание процесса проектирования и разработки программного обеспечения для подтверждения описанных алгоритмов и методов, а именно веб-сайта для генерации музыкальной композиции путем анализа изображения.
The aim of this article is research and development of algorithms and software for automation and support of technical creativity process by automated generation of musical compositions of different genres, based on the emotional state of a person. It relies on the method of generating musical material with the aid of artificial neural networks. To generate music, a recurrent neural network with long-short term memory is chosen because this is the type of neural networks that helps to take into account the hierarchy and codependency of musical data. The paper contains a detailed description of training data collection process, the process of neural network training, its use for generating musical compositions as well as an illustration of the network architecture. In addition, it outlines a generalized method for obtaining the emotional state of a person by analyzing an image by utilizing the principles of the Luscher test. For the synthesis of sounds with the help of the prefabricated musical material, the sampling method is applied. It is this method that makes it possible to emulate the realistic sound of musical instruments, which is also relatively easy to implement. Furthermore, the article includes a description of the software design and development process with a view to confirming the algorithms and methods under review, namely a website for generation musical composition by analyzing an image.
Publisher
Voronezh Institute of High Technologies
Reference12 articles.
1. Chereshniuk I Algorithmic composition and its role in modern musical education. Art education. 3:65–68.
2. Ariza C. Two Pioneering Projects from the Early History of Computer-Aided Algorithmic Composition. Computer Music Journal. MIT Press. 2012;3:40–56.
3. Никитин Н.А. Автоматизированный синтез музыкальных композиций на основе рекуррентных нейронных сетей. Искусственный интеллект в решении актуальных социальных и экономических проблем ХХI века : сб. ст. по материалам Четвёртой всерос. науч.-практ. конф., проводимой в рамках Пермского естественнонаучного форума «Математика и глобальные вызовы XXI века». 2019:80–85.
4. Doornbusch P. Gerhard Nierhaus: Algorithmic Composition: Paradigms of Automated Music Generation. Computer Music Journal2014;4.
5. Graves A., Jaitly N., Mohamed A. Hybrid speech recognition with deep bidirectional LSTM. Automatic Speech Recognition and Understanding (ASRU). IEEE Workshop on IEEE. 2013;273–278.