Ứng dụng phương pháp học tăng cường đa tác nhân giải bài toán lựa chọn phương tiện hỏa lực trong hệ thống tự động hóa chỉ huy-điều khiển-Reference-Cited by-同舟云学术

Ứng dụng phương pháp học tăng cường đa tác nhân giải bài toán lựa chọn phương tiện hỏa lực trong hệ thống tự động hóa chỉ huy-điều khiển

Published:2024-04-22 Issue:94 Volume: Page:11-21
ISSN:1859-1043
Container-title:Journal of Military Science and Technology
language:
Short-container-title:JMST

Author:

Nguyễn Xuân Trường,Vũ Hỏa Tiễn,Hoàng Văn Phúc,Nguyễn Quang Thi,Vũ Chí Thanh

Abstract

Bài báo trình bày phương pháp học tăng cường sâu đa tác nhân giải bài toán lựa chọn phương tiện hỏa lực (PTHL) động trong hệ thống TĐH CH-ĐK phòng không. Mô hình hoạt động của PTHL được xây dựng dựa trên dự đoán quỹ đạo tối ưu của các mô hình mục tiêu trên không đã được huấn luyện trước đó [1] và trạng thái các đối tượng trên mặt đất, cũng như phương án tối ưu phối hợp hoạt động của các PTHL trong hệ thống. Mô hình PTHL được xây dựng trên bộ thư viện OpenAI Gym sử dụng thuật toán học tăng cường sâu (DQL) để tối ưu hóa hàm giá trị Q. Sau khi được huấn luyện qua 200 nghìn vòng, mô hình PTHL đã có khả năng tự động phân tích, nhận thức tình huống, phối hợp các PTHL trong hệ thống, xây dựng phương án tương tác đối kháng động và chọn ra phương án tối ưu có tính tới các ràng buộc thực tế, để thu được giá trị cực tiểu của hàm tổn thất tổng thể cho toàn bộ quá trình chiến đấu. So với mô hình PTHL sử dụng thuật toán PPO được huấn luyện trong cùng một điều kiện môi trường, sau 1000 chu trình tác chiến tương tác với mô hình mục tiêu trên không, mô hình PTHL đề xuất đạt tỉ lệ chiến thắng 89,1% lớn hơn nhiều so với 77,2% của mô hình sử dụng thuật toán PPO.

Publisher

Academy of Military Science and Technology

Reference14 articles.

1. [1]. Truong, N.X., Phuong, P.K., Phuc, H.V., Tien, V.H., “Q-Learning Based Multiple Agent Reinforcement Learning Model for Air Target Threat Assessment,” in The International Conference on Intelligent Systems & Networks, (2023), https://doi.org/10.1007/978-981-99-4725-6_16.

2. [2]. Lloyd Hammond, “Application of a Dynamic Programming Algorithm for Weapon Target Assignment”, Edinburgh South Australia: Defence Science and Technology Group, (2016).

3. [3]. Mohammad Babul Hasan and Yaindrila Barua, “Weapon Target Assignment”, DOI: 10.5772/intechopen.93665, October 6th, (2020).

4. [4]. Fredrik Johansson, Göran Falkman, “SWARD: System for weapon allocation research & development,” in Information Fusion (FUSION), DOI:10.1109/ICIF.2010.5712067.

5. [5]. Yiping Lu, Danny Z. Chen, “A new exact algorithm for the Weapon-Target Assignment problem,” Elsevier Ltd, vol. Omega 98,102138, (2021), https://doi.org/10.1016/j.omega.2019.102138, 2019.