STRG logo as displayed in the footer of the website.

MAGAZINE

Meister der Nachahmung: Eine Einführung in Imitation Learning in der Künstlichen Intelligenz

Seit der historischen Niederlage des Top-Go-Spielers Lee Sedol durch das Computerprogramm von Google DeepMind ist die Leistungsfähigkeit von Reinforcement Learning sowohl für die Forschung als auch für die Industrie offensichtlich geworden. Von der Beherrschung alter Brettspiele bis hin zur Eroberung virtueller Schlachtfelder in StarCraft II und Dota II hat Reinforcement Learning seine Fähigkeiten bei der Bewältigung komplexer Aufgaben unter Beweis gestellt, die zuvor der menschlichen Intelligenz vorbehalten waren. Unter der Oberfläche dieser Errungenschaften verbirgt sich jedoch die harte Realität von langwierigen Trainingsprozessen, die damit verbunden sind. Während es für einfachere Aufgaben erfolgreich eingesetzt werden kann, wird deutlich, dass diese Systematik noch weit davon entfernt ist, für eine breite Palette komplexerer Aufgaben in der realen Welt zugänglich zu sein.

Glücklicherweise werden aber viele dieser Aufgaben sehr gut von menschlichen Experten erledigt. In diesem Blogbeitrag werden wir die Kernideen einer Methode namens „Imitation Learning“ erkunden, mit der das Wissen dieser Experten genutzt werden kann, um Programme zu entwickeln, die der menschlichen Leistung sehr nahekommen.

Rahmenbedingungen

Machen wir uns zunächst kurz mit dem Rahmen vertraut, der dem Reinforcement Learning zugrunde liegt und der sich am besten mit dem nachfolgenden Bild beschreiben lässt: Ein „Agent“ wird in einer Umgebung in einem bestimmten Zustand platziert (z. B. ein Auto auf einer Straße, wobei der Zustand dem Agent seine Geschwindigkeit und Position mitteilt), wo er einige Aktionen ausführen kann, die die Umgebung in einen anderen Zustand versetzen (z. B. Gas geben, um zu beschleunigen) und auch eine gewisse Belohnung geben (z. B. für das Einhalten der Grenzen und der Geschwindigkeitsbegrenzung). Der Agent versucht dann, so zu handeln, dass er so viel Belohnung wie möglich erhält. Eine ausführlichere Erläuterung dazu finden Sie in diesem Blogbeitrag.

Beim Konzept von Imitation Learning lassen wir eine Person ihre Kompetenz bei einer Aufgabe demonstrieren, während wir jeden Schritt aufzeichnen. Im obigen Beispiel würden wir also eine besonders gute Fahrerin bitten, durch die Stadt zu fahren und dabei die Zustände in Form von Kamera- und Sensordaten und die Aktionen in Form von Lenk- und Drosseleingaben aufzuzeichnen.

Im Konzept des Reinforcement Learning (RL) ist ein “Agent” ein autonomes System oder eine Entität, die Entscheidungen trifft und Aktionen in einer Umgebung ausführt, um bestimmte Ziele zu erreichen. Der Agent lernt durch Interaktion mit der Umgebung und passt sein Verhalten an, um eine maximale Belohnung zu erhalten.

Behavioral Cloning als Teilbereich des maschinellen Lernens

Dies bringt uns zum ersten – sehr einfachen, aber dennoch oft effektiven – Ansatz des Imitation Learnings: In einer idealen Nachbildung der Umgebung könnten wir die Handlungen der Experten wiederholen und die gleiche Leistung erhalten, so dass wir ein neuronales Netz darauf trainieren können, auf neue Situationen mit der gleichen Handlung zu reagieren wie der menschliche Demonstrator. Natürlich ist die Realität nicht perfekt. Die Straße, auf der der Experte gestern gefahren ist, könnte heute nass sein, weil es geregnet hat, die Straße könnte voller Verkehr sein, weil am Wochenende ein Konzert stattfindet, oder wir könnten einfach in ein ganz anderes Land fahren wollen. Außerdem haben alle Modelle des maschinellen Lernens eine gewisse Ungenauigkeit, die dazu führt, dass der Agent immer ein wenig von dem von den Experten gezeigten Weg abweicht.

All dies führt dazu, dass es dem Agent immer schwerer fällt, die gleichen Wege wie der Experte zu nehmen, bis er sich schließlich zu weit davon entfernt und die Aufgabe nicht mehr lösen kann. So würde zum Beispiel ein autonomes Fahrzeug, das durch verhaltensbasierte Nachbildung (behavioral cloning) trainiert wurde, anfangs sehr nahe am menschlichen Weg fahren. Dann aber ist die Straße nicht mehr so stark befahren wie zu der Zeit, als der Mensch fuhr, und der Agent fährt ein wenig schneller als der Mensch, was dazu führt, dass er in der nächsten Kurve ein wenig von der Straße abkommt. Wenn dies jedoch mehrmals vorkommt, kommt das Fahrzeug immer weiter von der Straße ab, bis es sich nicht mehr erholen kann und einfach davonfährt. Dies wird in der folgenden Animation schematisch dargestellt.

Darüber hinaus dürfen wir nicht vergessen, dass Menschen in komplexen, realen Umgebungen nicht immer gleich handeln, z. B. fahren Sie vielleicht etwas schneller, wenn Sie einen Termin haben, als wenn Sie einkaufen gehen. Auch dies erschwert die direkte Nachahmung zusätzlich.

Einsatz von Reinforcement Learning

Aber Reinforcement Learning kommt zur Hilfe! Bei modernen Methoden des Imitation Learnings wird ein Modell nicht darauf trainiert, nur ähnliche Handlungen wie ein Mensch auszuführen, sondern es wird belohnt, wenn es sich wie der menschliche Demonstrator verhält, und bestraft, wenn es ganz anders handelt. Diese Belohnung kann dann dazu verwendet werden, den Agent wieder in die richtige Richtung zu lenken, wenn er beginnt, vom gelernten Weg abzuweichen.

In unserem obigen Beispiel erhält der Agent, sobald er zu weit von der Straße abweicht, eine kleine Belohnung, erkennt aber auch, dass sich seine Belohnung wieder erhöht, wenn er sich der Straßenmitte nähert, wodurch er seinen Weg zurückfindet. Dies wird in der schematischen Animation unten veranschaulicht.

IQ-Learn auf Robomimic-Can-Aufgabe mit einem 6 DOF-Arm, der lernt, Dosen zu sammeln und in den richtigen Behälter zu legen (unter Verwendung von 30 Expertendemos). Quelle: Das Stanford AI Lab

Tatsächlich beinhaltet das Erlernen einer Belohnung anstelle des blinden Versuchs, einem menschlichen Weg zu folgen, viel mehr Wissen und Überlegungen, die hinter menschlichem Verhalten stehen. Zur weiteren Veranschaulichung, wie leistungsfähig diese Methode selbst in sehr komplexen Umgebungen sein kann, finden Sie unten Beispiele aus einem Blogbeitrag der Autoren von  IQ-Learn, dem derzeit leistungsfähigsten Algorithmus für Imitation Learning, der ebenfalls inverses Reinforcement (Inverse Reinforcement Learning) verwendet. Wie Sie sehen können, kann ein Agent selbst mit nur 20-30 Beispielen von Experten große Leistungen erzielen.

IQ-Learn auf Minecraft bei der Lösung der Aufgabe „Wasserfall erstellen“ (unter Verwendung von 20 Expertendemos). Quelle: Das Stanford AI Lab

Unternehmen mit Imitation Learning fördern

Indem sie sich die Macht der Nachahmung zunutze machen, können sich Unternehmen lukrative Möglichkeiten erschließen. Von der Verarbeitung von Maschinen Daten über autonome Produktionen bis hin zu personalisierten Empfehlungssystemen auf Websites birgt die Fähigkeit, menschliches Fachwissen in großem Maßstab zu replizieren, ein immenses Potenzial für Innovation und digitale Transformation. Algorithmen wie IQ-Learn zeigen, dass selbst mit einer bescheidenen Anzahl von Beispielen bemerkenswerte Leistungen erzielt werden können.

In einer Kooperation erforschen die STRG und die FH St. Pölten mit Unterstützung der FFG (Die Österreichische Forschungsförderungsgesellschaft) in einem lokal geförderten österreichischen Forschungsprojekt namens STRG.agents die Leistungsfähigkeit von Reinforcement- und Imitation Learning im Kontext von Online-Webportalen. Die Einsatzbereiche unserer Forschungen finden allerdings bereits jetzt auch ihren Einsatz in der Industrie.

Sie wollen mehr zu diesem Thema wissen?

Unser kürzlich veröffentlichtes Forschungspapier „Bridging the Gap: Conceptual Modeling and Machine Learning for Web Portals“ untersucht die Überschneidung von konzeptioneller Modellierung und maschinellem Lernen, um die User Journey von Online-Shopping-Portalen zu analysieren.

Lesen Sie weiter!

Das ist Tobias Kietreiber, STRG-Gastautor

Tobias Kietreiber ist ein angesehener Technologieexperte, Forscher und einer unserer geschätzten Partner bei einigen spannenden KI-Projekten.

Er begann seine akademische Laufbahn mit einem Studium der technischen Mathematik und erwarb schließlich einen Master-Abschluss an der renommierten Technischen Universität Wien. Diese solide Grundlage ebnete den Weg für seinen erfolgreichen Wechsel in den Bereich der Softwareentwicklung. Derzeit ist Tobias als Forscher an der Fachhochschule St. Pölten (FH St. Pölten) tätig, wo er an faszinierenden Möglichkeiten zur Weiterentwicklung von Methoden des maschinellen Lernens und deren Anwendungen forscht. Eines seiner jüngsten Projekte befasst sich mit dem Imitationslernen bei Autorennen, einer hochentwickelten Form der künstlichen Intelligenz, die es Maschinen ermöglicht, menschliche Handlungen zu imitieren. Seine Arbeit wurde kürzlich auf der SAINT (Social Artificial Intelligence Night) vorgestellt, wobei seine Beiträge zu diesem Thema deutlich wurden.

Sein Fachwissen im Bereich des Imitation Learnings, einem spannenden Teilgebiet des maschinellen Lernens, eröffnet innovative Wege zur Entwicklung intelligenter Systeme. Wir freuen uns über die Zusammenarbeit mit ihm und auf weitere spannende gemeinsame Projekte in der Zukunft.

You may also like

Subscribe To Our Newsletter

Get notified about new articles