Reinforcement Learning ist ein besonders spannendes Feld der Robotik. Es nutzt Kenntnisse des menschlichen Denkprozesses, um Roboter zu trainieren.
Ziele und Erfolge – das Belohnungssystem für Roboter
In einem Bereich des maschinellen Lernens, dem Reinforcement Learning (RL), lernen Roboter, Entscheidungen zu treffen, um maximale Belohnungen zu erzielen, sprich: maximalen Erfolg zu haben. Roboter streben danach, ihre Leistung zu optimieren und kontinuierlich zu verbessern. In einem interaktiven Trainingsprozess erlangt der Roboter Kenntnisse darüber, welche Handlungen dazu führen, eine Aufgabe zu lösen und welche nicht. Direktes Feedback belohnt oder bestraft den Roboter für jede Handlung. Im Verlauf dieses interaktiven Prozesses entwickelt der Roboter ein trainiertes neuronales Netzwerk, ähnlich wie der Mensch durch Erfahrung lernt und Synapsen bildet. Der gesamte Workflow des Reinforcement Learning ist also ein iterativer Lernprozess: Der Roboter nimmt seine Umgebung durch Sensoren wahr und lernt darauf basierend, Entscheidungen zu treffen. Diese Perspektive entspricht dem natürlichen Lernprozess von Menschen!
Das Training hängt wesentlich vom Belohnungssystem ab, das den Kern des gesamten Prozesses bildet. Während die Roboter eine Aufgabe lösen, legt das Optimierungssystem bestimmte Gütekriterien fest, darunter Geschwindigkeit, Präzision und Fehlertoleranz. Alle während des Trainings gesammelten Erfahrungen werden in einem neuronalen Netz gespeichert, um sie später wiederzuverwenden.
Vorteile des Trainings im virtuellen Raum: schneller, sicherer, weniger Arbeit
Diese Methoden können sowohl direkt auf realen Robotern angewendet als auch zuvor in realistischen Simulationen trainiert werden. Die virtuelle Schulung hat sich allerdings als Standard etabliert, denn es hat enorme Vorteile: der Arbeitsaufwand ist geringer, die Sicherheit höher und das alles bei einem schnelleren Lernprozess. Da Schäden am realen System bei Experimenten mit virtuellen Robotern entfallen, gibt es auch weniger aufwendige Reparaturen und Wartungsarbeiten.
Auch werden auf den physischen Robotern nur Strategien angewendet, die zuvor in der Simulation getestet wurden und die festgelegten Gütekriterien erfüllen. Dies macht sie sicherer. Das Training in der Simulation ist auch skalierbar: In der Realität können wir nur mit einer begrenzten Anzahl von Robotern arbeiten, während in der Simulation mehrere tausend gleichzeitig lernen und ihr Wissen miteinander teilen. So trainieren die Roboter wesentlich schneller.
Sim-to-Real Transfer: die Übertragung der Simulation in die Realität
Erst, wenn die Roboter ihre Aufgaben erfolgreich in virtuellen Lernumgebungen trainiert haben, erfolgt die Übertragung der erlernten Strategien auf das reale Robotersystem. Dieser Prozess wird als Sim-to-Real Transfer bezeichnet. Dabei werden die trainierten neuronalen Netzwerke auf den Roboter übertragen und mit den Sensoren und Motoren des realen Systems verknüpft. Idealerweise sollte der Sim-to-Real Gap minimal sein, damit die Roboter die trainierten Aufgaben in der realen Welt genauso effizient ausführen können wie in der Simulation.
Wichtig ist es deshalb, präzise Simulationsmodelle zu verwenden. Sie müssen die dynamischen Eigenschaften der Roboter genau abbilden und die Qualität der verfügbaren Sensordaten sowie die Reaktion der Motoren auf Anweisungen berücksichtigen. Erfolgt das Training mit solch optimierten Simulationsmodellen, ist es in der Regel möglich, die trainierten neuronalen Netze erfolgreich und robust auf reale Robotersysteme zu übertragen.
Zukunftstechnologien: Daten plus Expertenwissen und Kenntnis physikalischer Gesetze
Reinforcement Learning eröffnet neue Perspektiven für die Steuerung von Robotern, da der manuelle Bearbeitungsaufwand und die Integrationszeiten potenziell verringert werden können. Wie bei allen Machine Learning Algorithmen dreht es sich hauptsächlich um einen datengetriebenen Ansatz. Daher stellt sich zwangsläufig die Frage nach der Optimierung von Effizienz und Effektivität des Trainings für einen erfolgreichen Sim-to-Real Transfer. Im Rahmen der KI-Forschung am Lamarr Institut für Machine Learning und Artificial Intelligence untersuchen wir, wie zusätzliches Wissen in den Trainingsprozess der Künstlichen Intelligenz (KI) integriert werden kann.
Unsere Herangehensweise basiert auf „Guided Reinforcement Learning“. Der datengetriebene Lernprozess wird hierbei explizit durch zusätzliche Wissensquellen wie Expertenwissen und physikalische Gesetze unterstützt, was das Training der neuronalen Netzwerke für den Einsatz auf realen Robotern noch schneller macht. Zum Beispiel kann einem mobilen Roboter zusätzlich vermittelt werden: nasser Boden ist rutschig und das Laufen auf einer schiefen Ebene verändert das Gleichgewicht. So machen wir die Lernaufgabe schrittweise anspruchsvoller, und erreichen genauere Simulationen durch Messungen am realen Roboter.
evoBOT – Zeit sparen in der Logistik
KI bietet im Bereich der Robotik aufregende neue Perspektiven. Ein Beispiel hierfür ist der evoBOT, ein Transportroboter, der am Fraunhofer-Institut für Materialfluss und Logistik IML entwickelt wurde. Durch simulationsbasiertes Training kann der evoBOT beispielsweise lernen, sich dynamisch auf verschiedenen Oberflächen zu bewegen oder unbekannte Objekte zuverlässig zu handhaben. Dank seiner einzigartigen Eigenschaften eignet sich der evoBOT besonders gut für den Einsatz in Umgebungen, in denen herkömmliche Roboter nicht effektiv arbeiten können. Der evoBOT hat das Potenzial, die Interaktion zwischen Menschen und Technologie grundlegend zu verändern.
Dies führt zu einer effizienteren Programmierung von robotischen Automatisierungslösungen und trägt dazu bei, Zeit und Ressourcen zu sparen. Der Stellenwert solcher Lösungen nimmt in breiten Anwendungsbereichen, insbesondere in der (Intra-) Logistik oder Produktion, kontinuierlich zu.
Weitere Infos
Was ist Reinforcement Learning?
Reinforcement Learning ist ein besonders spannendes Feld der Robotik. Es nutzt Kenntnisse des menschlichen Denkprozesses, um Roboter zu trainieren. Roboter lernen, Entscheidungen zu treffen, um maximale Belohnungen zu erzielen, sprich: maximalen Erfolg zu haben. Roboter streben danach, ihre Leistung zu optimieren und kontinuierlich zu verbessern. In einem interaktiven Trainingsprozess erlangt der Roboter Kenntnisse darüber, welche Handlungen dazu führen, eine Aufgabe zu lösen und welche nicht. Direktes Feedback belohnt oder bestraft den Roboter für jede Handlung. Im Verlauf dieses interaktiven Prozesses entwickelt der Roboter ein trainiertes neuronales Netzwerk, ähnlich wie der Mensch durch Erfahrung lernt und Synapsen bildet. Der gesamte Workflow des Reinforcement Learning ist also ein iterativer Lernprozess
Was ist Sim-to-Real Transfer?
Zuerst müssen Roboter ihre Aufgaben in virtuellen Lernumgebungen erfolgreich trainieren.
Erst danach erfolgt die Übertragung der erlernten Strategien auf das reale Robotersystem. Dieser Prozess wird als Sim-to-Real Transfer bezeichnet. Dabei werden die trainierten neuronalen Netzwerke auf den Roboter übertragen und mit den Sensoren und Motoren des realen Systems verknüpft
Was ist ein evoBOT?
evoBOT ist ein Transportroboter, der am Fraunhofer-Institut für Materialfluss und Logistik IML entwickelt wurde. Durch simulationsbasiertes Training kann der evoBOT beispielsweise lernen, sich dynamisch auf verschiedenen Oberflächen zu bewegen oder unbekannte Objekte zuverlässig zu handhaben. Dank seiner einzigartigen Eigenschaften eignet sich der evoBOT besonders gut für den Einsatz in Umgebungen, in denen herkömmliche Roboter nicht effektiv arbeiten können. Der evoBOT hat das Potenzial, die Interaktion zwischen Menschen und Technologie grundlegend zu verändern.