Analyse en norme Lp de l'algorithme d'itérations sur les valeurs avec approximations

L'algorithme d'iterations sur les valeurs avec approximations (IVA) permet de resoudre des problemes de decision markoviens en grande dimension en approchant la fonction valeur optimale par une sequence de representations V(n) calculees iterativement selon V(n+1) = A T V(n) ou T est l'operateur de Bellman et A un operateur d'approximation, ce dernier pouvant s'implementer selon un algorithme d'apprentissage supervise (AS). Les resultats usuels etablissent des bornes sur la performance de IVA en fonction de la norme sup des erreurs d'approximation induites par l'algorithme d'AS. Cependant, un algorithme d'AS resout generalement un probleme de regression en minimisation une norme Lp (p>=1), rendant les majorations d'erreur en norme sup inadequates. Dans cet article, nous etendons ces resultats de majoration a des normes Lp ponderees. Ceci permet d'exprimer les performances de l'algorithme IVA en fonction de la puissance d'approximation de l'algorithme d'AS, ce qui garantit la finesse et l'interet applicatif de ces bornes. Nous illustrons numeriquement la qualite des majorations obtenues pour un probleme de remplacement optimal.

[1]  John Rust Numerical dynamic programming in economics , 1996 .

[2]  R. Bellman,et al.  FUNCTIONAL APPROXIMATIONS AND DYNAMIC PROGRAMMING , 1959 .

[3]  Martin L. Puterman,et al.  Markov Decision Processes: Discrete Stochastic Dynamic Programming , 1994 .

[4]  Geoffrey J. Gordon,et al.  Approximate solutions to markov decision processes , 1999 .

[5]  Carlos Guestrin,et al.  Max-norm Projections for Factored MDPs , 2001, IJCAI.

[6]  Andrew W. Moore,et al.  Locally Weighted Learning , 1997, Artificial Intelligence Review.

[7]  Ronald J. Williams,et al.  Tight Performance Bounds on Greedy Policies Based on Imperfect Value Functions , 1993 .

[8]  John N. Tsitsiklis,et al.  Neuro-Dynamic Programming , 1996, Encyclopedia of Machine Learning.

[9]  Vladimir Vapnik,et al.  Statistical learning theory , 1998 .

[10]  Richard S. Sutton,et al.  Reinforcement Learning: An Introduction , 1998, IEEE Trans. Neural Networks.

[11]  S. Mallat,et al.  Adaptive greedy approximations , 1997 .

[12]  Arthur L. Samuel,et al.  Some Studies in Machine Learning Using the Game of Checkers , 1967, IBM J. Res. Dev..

[13]  Geoffrey J. Gordon Stable Function Approximation in Dynamic Programming , 1995, ICML.

[14]  John Langford,et al.  Approximately Optimal Approximate Reinforcement Learning , 2002, ICML.

[15]  D. Pollard Convergence of stochastic processes , 1984 .

[16]  R. DeVore,et al.  Nonlinear approximation , 1998, Acta Numerica.

[17]  Alexander J. Smola,et al.  Support Vector Method for Function Approximation, Regression Estimation and Signal Processing , 1996, NIPS.

[18]  S. Mallat A wavelet tour of signal processing , 1998 .

[19]  Rémi Munos,et al.  Error Bounds for Approximate Policy Iteration , 2003, ICML.

[20]  Daphne Koller,et al.  Policy Iteration for Factored MDPs , 2000, UAI.

[21]  Michail G. Lagoudakis,et al.  Least-Squares Policy Iteration , 2003, J. Mach. Learn. Res..