Algorithmen zum Automatischen Erlernen von Motorfähigkeiten

Zusammenfassung Das automatische Erlernen von Motorfähigkeiten würde es einem autonomen Roboter ermöglichen, sich an neuartige Situationen anzupassen. Dieses Ziel ist seit langem eine Vision der Robotik, Künstlichen Intelligenz und Kognitionswissenschaft. Allerdings kann dieses Vorhaben mit heutigen Techniken nicht erreicht werden, da nur wenige der Methoden in der Lage sind, mit der Komplexität moderner Manipulatoren oder von humanoiden Robotern umzugehen. Dieser Artikel beschreibt allgemeine Ansätze für textslPolicy Learning mit einem Schwerpunkt auf Motorstrategien. Das Ziel ist es, die Grundlagen zu schaffen, um motorische Fähigkeiten zu erlernen und sich selber automatisch zu verbessern. Hierfür werden zwei bedeutende Bereiche für einen solchen Ansatz betrachtet: einerseits Policy-Learning-Algorithmen, die den Anforderungen des Erwerbens motorischer Fähigkeiten gerecht werden, andererseits theoretisch fundierte, allgemeine Strukturen, welche für Aufgabendarstellung und -ausführung benötigt werden. Abstract Robot learning methods which allow autonomous robots to adapt to novel situations have been a long standing vision of robotics, artificial intelligence, and cognitive sciences. However, to date, learning techniques have yet to fulfill this promise as only few methods manage to scale into the high-dimensional domains of manipulator robotics, or even the new upcoming trend of humanoid robotics. If possible, scaling was usually only achieved in precisely pre-structured domains. In this paper, we investigate the ingredients for a general approach policy learning with the goal of an application to motor skill refinement in order to get one step closer towards human-like performance. For doing so, we study two major components for such an approach, i. e., firstly, we study policy learning algorithms which can be applied in the general setting of motor skill learning, and, secondly, we study a theoretically well-founded general approach to representing the required control structures for task representation and execution.

[1]  Stefan Schaal,et al.  Natural Actor-Critic , 2003, Neurocomputing.

[2]  Stefan Schaal,et al.  Policy Learning for Motor Skills , 2007, ICONIP.

[3]  Bruno Siciliano,et al.  Modeling and Control of Robot Manipulators , 1995 .

[4]  Stefan Schaal,et al.  Learning Operational Space Control , 2006, Robotics: Science and Systems.

[5]  John N. Tsitsiklis,et al.  Actor-Critic Algorithms , 1999, NIPS.

[6]  Stefan Schaal,et al.  Reinforcement Learning for Humanoid Robotics , 2003 .

[7]  Geoffrey E. Hinton,et al.  Using Expectation-Maximization for Reinforcement Learning , 1997, Neural Computation.

[8]  Douglas Aberdeen,et al.  POMDPs and Policy Gradients , 2006 .

[9]  Douglas Aberdeen,et al.  Policy-Gradient Algorithms for Partially Observable Markov Decision Processes , 2003 .

[10]  Stefan Schaal,et al.  Computational approaches to motor learning by imitation. , 2003, Philosophical transactions of the Royal Society of London. Series B, Biological sciences.

[11]  Jun Nakanishi,et al.  Learning Attractor Landscapes for Learning Motor Primitives , 2002, NIPS.

[12]  Sham M. Kakade,et al.  A Natural Policy Gradient , 2001, NIPS.

[13]  Jin Yu,et al.  Natural Actor-Critic for Road Traffic Optimisation , 2006, NIPS.

[14]  Jan Peters,et al.  Learning motor primitives for robotics , 2009, 2009 IEEE International Conference on Robotics and Automation.

[15]  Yishay Mansour,et al.  Policy Gradient Methods for Reinforcement Learning with Function Approximation , 1999, NIPS.