Abstract
Актуальность. В статье рассматриваются методы распознавания изображений с использованием нейронных сетей разной архитектуры, в том числе обучения с подкреплением Q-Learning. Метод. Для обучения алгоритмов и их тестирования использовались наборы изображений 6 классов лесных животных. Изучалось 6 вариаций наборов данных, отличие в которых обусловлено разной долей обучающей выборки: от 40 до 80%. Проанализировано семь методик распознавания: CNN-AE и два подхода визуального управления (NeRF-RL, DRQ-V2) обучались на основе двух- и трехмерной сверточной нейросети и Q-Learning. Результаты работы. Все испытуемые модели показывают высокий процент точности независимо от соотношения обучающей и тренирующей выборки. Минимальные результаты были зафиксированы при использовании CNN-AE, тогда как NeRF-RL и DRQ-V2 на основе двухмерных и трехмерных CNN были более точными. Обучение методов NeRF-RL и DRQ-V2 используя метод Q-Learning привел к получению наиболее точных результатов. Использование Q-Learning для обучения алгоритма NeRF-RL позволяет достичь максимальных результатов. Эта архитектура была применена для распознавания животных и распределения изображений по классам. Выводы. Таким образом, объединение алгоритмов NeRF и обучения с подкреплением является эффективным и перспективным методом распознавания изображений для использования в обработке информации со скрытых камер с целью обнаружении лесных животных.
This study discusses image recognition methods that exploit different neural networks, including Q-Learning. The algorithms were trained and tested on images depicting 6 different classes of forest animals. A total of 6 image datasets with different amount of training data (40 to 80%) were taken. Here, seven image recognition techniques were analyzed: CNN-AE and two algorithms for visual continuous control (NeRF-RL and DRQ-V2), all trained on a two- and three-dimensional convolution neural network (CNN), as well as Q-Learning. All models had high accuracy; CNN-AE exhibited the lowest recognition accuracy, whilst NeRF-RL and DRQ-V2 based on 2D and 3D CNNs were more accurate. NeRF-RL and DRQ-V2 trained on data using the Q-Learning method yielded the highest accuracy. The use of Q-Learning to train the NeRF-RL algorithm provided the best result. This architecture has been applied for animal recognition and image classification into classes. Based on the research, the combination of NeRF algorithms and reinforcement learning is an effective and promising image recognition method for detecting forest animals in camera-trap images.
Publisher
Ultrasound Technology Center of Altai State Technical University
Reference25 articles.
1. Kamencay P., Trnovszky T., Benco M., Hudec R., Sykora P., Satnik A. Accurate wild animal recognition using PCA, LDA and LBPH // 2016 ELEKTRO. — IEEE, 2016. P. 62-67.
2. Xie Z., Singh A., Uang J., Narayan K. S., Abbeel P. Multimodal Blending for High-Accuracy Instance Recognition // 2013 IEEE/RSJ International Conference on Intelligent Robots and Systems. — IEEE, 2013. P. 2214-2221.
3. Nguyen H., Maclagan S.J., Nguyen T. D., Nguyen T., Flemons P., Andrews K., Ritchie E. G., Phung D. Animal Recognition and Identification with Deep Convolutional Neural Networks for Automated Wildlife Monitoring // 2017 IEEE international conference on data science and advanced Analytics (DSAA). — IEEE, 2017. P. 40-49.
4. Dellaert F., Yen-Chen L. Neural volume rendering: Nerf and beyond // arXiv preprint arXiv:2101.05204, 2020.
5. Sünderhauf N., Abou-Chakra J., Miller D. Density-aware NeRF Ensembles: Quantifying Predictive Uncertainty in Neural Radiance Fields // arXiv preprint arXiv:2209.08718, 2022.