Reinforcement Learning: Roboter lernen besser mit Belohnung

Roboter in der Logistik

Reinforcement Learning ist ein besonders spannendes Feld der Robotik. Es nutzt Kenntnisse des menschlichen Denkprozesses, um Roboter zu trainieren.

Ziele und Erfolge – das Belohnungssystem für Roboter

In einem Bereich des maschinellen Lernens, dem Reinforcement Learning (RL), lernen Roboter, Entscheidungen zu treffen, um maximale Belohnungen zu erzielen, sprich: maximalen Erfolg zu haben. Roboter streben danach, ihre Leistung zu optimieren und kontinuierlich zu verbessern. In einem interaktiven Trainingsprozess erlangt der Roboter Kenntnisse darüber, welche Handlungen dazu führen, eine Aufgabe zu lösen und welche nicht. Direktes Feedback belohnt oder bestraft den Roboter für jede Handlung. Im Verlauf dieses interaktiven Prozesses entwickelt der Roboter ein trainiertes neuronales Netzwerk, ähnlich wie der Mensch durch Erfahrung lernt und Synapsen bildet. Der gesamte Workflow des Reinforcement Learning ist also ein iterativer Lernprozess: Der Roboter nimmt seine Umgebung durch Sensoren wahr und lernt darauf basierend, Entscheidungen zu treffen. Diese Perspektive entspricht dem natürlichen Lernprozess von Menschen!

Anzeige

Das Training hängt wesentlich vom Belohnungssystem ab, das den Kern des gesamten Prozesses bildet. Während die Roboter eine Aufgabe lösen, legt das Optimierungssystem bestimmte Gütekriterien fest, darunter Geschwindigkeit, Präzision und Fehlertoleranz. Alle während des Trainings gesammelten Erfahrungen werden in einem neuronalen Netz gespeichert, um sie später wiederzuverwenden.

Reinforcement Learning: Der Roboter nimmt seine Umgebung durch Sensoren wahr und lernt darauf basierend, Entscheidungen zu treffen. Bildquelle: Fraunhofer IML
Bild 1: Reinforcement Learning – Der Roboter nimmt seine Umgebung durch Sensoren wahr und lernt darauf basierend, Entscheidungen zu treffen. Bildquelle: Fraunhofer IML

Vorteile des Trainings im virtuellen Raum: schneller, sicherer, weniger Arbeit

Diese Methoden können sowohl direkt auf realen Robotern angewendet als auch zuvor in realistischen Simulationen trainiert werden. Die virtuelle Schulung hat sich allerdings als Standard etabliert, denn es hat enorme Vorteile: der Arbeitsaufwand ist geringer, die Sicherheit höher und das alles bei einem schnelleren Lernprozess. Da Schäden am realen System bei Experimenten mit virtuellen Robotern entfallen, gibt es auch weniger aufwendige Reparaturen und Wartungsarbeiten.

Auch werden auf den physischen Robotern nur Strategien angewendet, die zuvor in der Simulation getestet wurden und die festgelegten Gütekriterien erfüllen. Dies macht sie sicherer. Das Training in der Simulation ist auch skalierbar: In der Realität können wir nur mit einer begrenzten Anzahl von Robotern arbeiten, während in der Simulation mehrere tausend gleichzeitig lernen und ihr Wissen miteinander teilen. So trainieren die Roboter wesentlich schneller.

Anzeige
Reinforcement Learning -  Bildquelle: Fraunhofer IML
Bild 2: Reinforcement Learning – Das Training in der Simulation ist skalierbar: In der Realität können wir nur mit einer begrenzten Anzahl von Robotern arbeiten, während in der Simulation mehrere tausend gleichzeitig lernen und ihr Wissen miteinander teilen. Bildquelle: Fraunhofer IML
Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.

Sim-to-Real Transfer: die Übertragung der Simulation in die Realität

Erst, wenn die Roboter ihre Aufgaben erfolgreich in virtuellen Lernumgebungen trainiert haben, erfolgt die Übertragung der erlernten Strategien auf das reale Robotersystem. Dieser Prozess wird als Sim-to-Real Transfer bezeichnet. Dabei werden die trainierten neuronalen Netzwerke auf den Roboter übertragen und mit den Sensoren und Motoren des realen Systems verknüpft. Idealerweise sollte der Sim-to-Real Gap minimal sein, damit die Roboter die trainierten Aufgaben in der realen Welt genauso effizient ausführen können wie in der Simulation.

Wichtig ist es deshalb, präzise Simulationsmodelle zu verwenden. Sie müssen die dynamischen Eigenschaften der Roboter genau abbilden und die Qualität der verfügbaren Sensordaten sowie die Reaktion der Motoren auf Anweisungen berücksichtigen. Erfolgt das Training mit solch optimierten Simulationsmodellen, ist es in der Regel möglich, die trainierten neuronalen Netze erfolgreich und robust auf reale Robotersysteme zu übertragen.

Sim-to-Real Transfer
Bild 3: Sim-to-Real Transfer – Erst, wenn die Roboter ihre Aufgaben erfolgreich in virtuellen Lernumgebungen trainiert haben, erfolgt die Übertragung der erlernten Strategien auf das reale Robotersystem. Bildquelle Fraunhofer IML

Zukunftstechnologien: Daten plus Expertenwissen und Kenntnis physikalischer Gesetze

Reinforcement Learning eröffnet neue Perspektiven für die Steuerung von Robotern, da der manuelle Bearbeitungsaufwand und die Integrationszeiten potenziell verringert werden können. Wie bei allen Machine Learning Algorithmen dreht es sich hauptsächlich um einen datengetriebenen Ansatz. Daher stellt sich zwangsläufig die Frage nach der Optimierung von Effizienz und Effektivität des Trainings für einen erfolgreichen Sim-to-Real Transfer. Im Rahmen der KI-Forschung am Lamarr Institut für Machine Learning und Artificial Intelligence untersuchen wir, wie zusätzliches Wissen in den Trainingsprozess der Künstlichen Intelligenz (KI) integriert werden kann.

Unsere Herangehensweise basiert auf „Guided Reinforcement Learning“. Der datengetriebene Lernprozess wird hierbei explizit durch zusätzliche Wissensquellen wie Expertenwissen und physikalische Gesetze unterstützt, was das Training der neuronalen Netzwerke für den Einsatz auf realen Robotern noch schneller macht. Zum Beispiel kann einem mobilen Roboter zusätzlich vermittelt werden: nasser Boden ist rutschig und das Laufen auf einer schiefen Ebene verändert das Gleichgewicht. So machen wir die Lernaufgabe schrittweise anspruchsvoller, und erreichen genauere Simulationen durch Messungen am realen Roboter.

Guided Reinforcement Learning
Bild 4: Guided Reinforcement Learning – So kann z.B. einem mobilen Roboter zusätzlich vermittelt werden: nasser Boden ist rutschig und das Laufen auf einer schiefen Ebene verändert das Gleichgewicht. Bildquelle Fraunhofer IML / IEEE

evoBOT – Zeit sparen in der Logistik

KI bietet im Bereich der Robotik aufregende neue Perspektiven. Ein Beispiel hierfür ist der evoBOT, ein Transportroboter, der am Fraunhofer-Institut für Materialfluss und Logistik IML entwickelt wurde. Durch simulationsbasiertes Training kann der evoBOT beispielsweise lernen, sich dynamisch auf verschiedenen Oberflächen zu bewegen oder unbekannte Objekte zuverlässig zu handhaben. Dank seiner einzigartigen Eigenschaften eignet sich der evoBOT besonders gut für den Einsatz in Umgebungen, in denen herkömmliche Roboter nicht effektiv arbeiten können. Der evoBOT hat das Potenzial, die Interaktion zwischen Menschen und Technologie grundlegend zu verändern.

Dies führt zu einer effizienteren Programmierung von robotischen Automatisierungslösungen und trägt dazu bei, Zeit und Ressourcen zu sparen. Der Stellenwert solcher Lösungen nimmt in breiten Anwendungsbereichen, insbesondere in der (Intra-) Logistik oder Produktion, kontinuierlich zu.

Robotische Automatisierungslösungen
Bild 5: Robotische Automatisierungslösungen in der Logistik, Bildquelle Fraunhofer IML

Weitere Infos

AI Grid

Fraunhofer IML

LAMARR-Institut

Was ist Reinforcement Learning?

Reinforcement Learning ist ein besonders spannendes Feld der Robotik. Es nutzt Kenntnisse des menschlichen Denkprozesses, um Roboter zu trainieren. Roboter lernen, Entscheidungen zu treffen, um maximale Belohnungen zu erzielen, sprich: maximalen Erfolg zu haben. Roboter streben danach, ihre Leistung zu optimieren und kontinuierlich zu verbessern. In einem interaktiven Trainingsprozess erlangt der Roboter Kenntnisse darüber, welche Handlungen dazu führen, eine Aufgabe zu lösen und welche nicht. Direktes Feedback belohnt oder bestraft den Roboter für jede Handlung. Im Verlauf dieses interaktiven Prozesses entwickelt der Roboter ein trainiertes neuronales Netzwerk, ähnlich wie der Mensch durch Erfahrung lernt und Synapsen bildet. Der gesamte Workflow des Reinforcement Learning ist also ein iterativer Lernprozess 

Was ist Sim-to-Real Transfer?

Zuerst müssen Roboter ihre Aufgaben in virtuellen Lernumgebungen erfolgreich trainieren.
Erst danach erfolgt die Übertragung der erlernten Strategien auf das reale Robotersystem. Dieser Prozess wird als Sim-to-Real Transfer bezeichnet. Dabei werden die trainierten neuronalen Netzwerke auf den Roboter übertragen und mit den Sensoren und Motoren des realen Systems verknüpft

Was ist ein evoBOT?

evoBOT ist ein Transportroboter, der am Fraunhofer-Institut für Materialfluss und Logistik IML entwickelt wurde. Durch simulationsbasiertes Training kann der evoBOT beispielsweise lernen, sich dynamisch auf verschiedenen Oberflächen zu bewegen oder unbekannte Objekte zuverlässig zu handhaben. Dank seiner einzigartigen Eigenschaften eignet sich der evoBOT besonders gut für den Einsatz in Umgebungen, in denen herkömmliche Roboter nicht effektiv arbeiten können. Der evoBOT hat das Potenzial, die Interaktion zwischen Menschen und Technologie grundlegend zu verändern.

Julian Eßer

Julian

Eßer

Wissenschaftlicher Mitarbeiter - KI und Autonome Systeme

Fraunhofer-Institut für Materialfluss und Logistik

Julian Eßer studierte Maschinenbau mit Vertiefung in Mechatronik, den Schwerpunkten Robotik und Intelligente Systeme (M.Sc.). Er ist Mitglied des AI Grid und forscht am Fraunhofer-Institut an intelligenten Transportrobotern für die Fabriken der Zukunft.
Anzeige

Artikel zu diesem Thema

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.