@COMMENT This file was generated by bib2html.pl version 0.94
@COMMENT written by Patrick Riley
@COMMENT This file came from Freek Stulp's publication pages at
@COMMENT http://www-clmc.usc.edu/~stulp/publications
@InProceedings{stulp12adaptation,
title = {Adaptation de la matrice de covariance pour l'apprentissage par renforcement direct},
author = {Freek Stulp and Olivier Sigaud},
booktitle = {7\`emes Journ\'ees Francophones Planification, D\'ecision, et Apprentissage pour la conduite de syst\`emes},
year = {2012},
abstract = {La résolution de problèmes à états et actions continus par l'optimisation de politiques paramétriques est un sujet d'intérêt récent en apprentissage par renforcement. L'algorithme PI2 est un exemple de cette approche, qui bénéficie de fondements mathématiques solides tirés de la commande stochastique optimale et des outils de la théorie de l'estimation statistique. Dans cet article, nous considérons PI2 en tant que membre de la famille plus vaste des méthodes qui partagent le concept de moyenne pondérée par les probabilités pour mettre à jour itérativement des paramètres afin d'optimiser une fonction de coût. Nous comparons PI2 à d'autres membres de la même famille - la <> et CMAES (Covariance Matrix Adaptation -- Evolutionary Strategies) - au niveau conceptuel et en termes de performance. La comparaison débouche sur la dérivation d'un nouvel algorithme que nous appelons PI2CMA pour <>. Le principal avantage de PI2CMA est qu'il détermine l'amplitude du bruit d'exploration automatiquement.},
bib2html_pubtype = {Refereed Conference Paper},
bib2html_rescat = {Reinforcement Learning of Robot Skills}
}