Método de error de Bellman con ponderación de volumen para mallado adaptativo en programación dinámica aproximada-Reference-Cited by-同舟云学术

Método de error de Bellman con ponderación de volumen para mallado adaptativo en programación dinámica aproximada

Published:2021-12-17 Issue:1 Volume:19 Page:37-47
ISSN:1697-7920
Container-title:Revista Iberoamericana de Automática e Informática industrial
language:
Short-container-title:Rev. iberoam. autom. inform. ind.

Author:

Armesto Leopoldo^ORCID,Sala Antonio^ORCID

Abstract

El control óptimo y aprendizaje por refuerzo lleva asociada una "función de valor'' que debe ser adecuadamente aproximada. Estos problemas de aproximar funciones de valor tienen, usualmente, diferentes requerimientos de precisión en diferentes regiones del espacio de estados. Un mallado uniforme tiene problemas porque desperdicia recursos en regiones en las que la función de valor es suave, mientras que no tiene la suficiente resolución en zonas con grandes cambios en dicha función. El presente trabajo propone una metodología de programación dinámica aproximada con mallado adaptativo, para poder adaptarse a dichos requerimientos cambiantes sin incrementar en exceso el número de parámetros del aproximador. La propuesta se basa en mallados simpliciales y en el error en la ecuación de Bellman con un criterios para añadir y quitar puntos del mallado: se modificarán propuestas de la literatura incluyendo el volumen de los símplices afectados en los criterios, y se detallarán las manipulaciones de la triangulación necesarias.

Publisher

Universitat Politecnica de Valencia

Subject

General Computer Science,Control and Systems Engineering

Reference33 articles.

1. Albertos, P., Sala, A., 2006. Multivariable control systems: an engineering approach. Springer, London, U.K.

2. Allgower, F., Zheng, A., 2012. Nonlinear model predictive control.

3. Antos, A., Szepesvári, C., Munos, R., 2008. Learning near optimal policies with bellman-residual minimization based fitted policy iteration and a single sample path. Machine Learning 71 (1), 89-129. https://doi.org/10.1007/s10994-007-5038-2

4. Ariño, C., Pérez, E., Querol, A., Sala, A., 2014. Model predictive control for discrete fuzzy systems via iterative quadratic programming. In: Fuzzy Systems (FUZZ-IEEE), 2014 IEEE International Conference on. IEEE, pp. 2288-2293. https://doi.org/10.1109/FUZZ-IEEE.2014.6891633

5. Ariño, C., Pérez, E., Sala, A., 2010. Guaranteed cost control analysis and iterative design for constrained takagi-sugeno systems. Engineering Applications of Artificial Intelligence 23 (8), 1420-1427. https://doi.org/10.1016/j.engappai.2010.03.004

Cited by 3 articles. 订阅此论文施引文献订阅此论文施引文献，注册后可以免费订阅5篇论文的施引文献，订阅后可以查看论文全部施引文献

1. Optimización Bayesiana no miope POMDP para procesos con restricciones de operación y presupuesto finito;Revista Iberoamericana de Automática e Informática industrial;2024-07-09

2. Acquisition Function Choice in Bayesian Optimization via Partially Observable Markov Decision Process;IFAC-PapersOnLine;2023

3. Adaptive polyhedral meshing for approximate dynamic programming in control;Engineering Applications of Artificial Intelligence;2022-01