Aktuelle ML-Techniken und Einsatzfelder

Fortschritt des ML seit 2010

Bereits in den späten 80er Jahren hatten die dann vorliegenden Verfahren zur Rückpropagierung (Backpropagation) von Schätzfehlern in die Struktur der Gewichte neuronaler Netze zur Verbesserung von deren Voraussagekraft erstaunliche Erfolge hervorgebracht. Es ging dabei aber vorwiegend um synthe-tische Beispiele mit wenig realem Geschäftsnutzen. Zehn Jahre später gelang es, mit einem neu entwickelten Typ von neuronalen Netzen (Convolutional Neural Networks (CNN) - Faltungsnet-zen) die maschinelle Erkennung handgeschriebe-ner Ziffern so zu perfek-tionieren, dass damit Postsortierung in den USA automatisiert werden konnte: ein großartiger Fortschritt. Ab jetzt konnte Schrift zuverlässig gele-sen werden, die nicht "maschinenlesbar" im damaligen Sinne war (OCR).

Mit den rasanten Leistungssteigerungen der Gleitkomma-Arithmetih in Micropro-zezessoren, dem Scale-out-Prinzp der Rechenzentrumsarchi-tektur und schließlich dem Infrastukturansatz der Cloud verbilligte sich Hardware-Leistung für rechenintensive Anwendungen um einen mehr als 6-stelligen Faktor seit den 80er Jahren. Neuronale Netze konnten jetzt viel breiter und ab ca. 2015 auch viel tiefer werden. Eine Parameterzahl von 100 Millionen zu bestimmender Gewichte wurde zum Normalfall. Mit dieser Entwicklung sank die Fehlerrate in dem von 2010 bis 2017 jährlich weltweit stattfindenden "Imagenet" Wettbewerb von 28% auf 2,3%, und fast alle teilnehmenden Wettbewerber erreichten in 2017 Werte unterhalb der menschlichen Fehlerrate von 4,6%. Bei diesem Wettbewerb ging es nicht um "Toy-problems": mit 1.000.000 Trainingsbildern musste ein selbst geschaffenes Netz trainiert werden, das 1000 Kategorien in 100.000 Bei-spielen erkennt, die das Netz vorher nie gesehen hatte. Das ergab die genannte Fehlerrate.

Es ist heute eine Tatsache, dass Neuronale Netze bei überschaubarem technischem Aufwand nicht nur Bilder sondern auch andere Muster in Form von Audio, Sprache, Video und anderen flächigen oder sequentiellen Datenstrukturen wesentlich präziser und natürlich viel schneller erkennen können als Menschen. Daraus ergeben sich weitreichende Geschäftspo-tenziale für Assistenzsysteme und für Systeme, die Dinge erkennen können, die Menschen gar nicht zugänglich sind. Ähnlich frappierende Ergebnisse erzielt Machine Learning auf Gebieten jenseits des überwach-ten Lernens, bei denen es nicht um Klassifikation sondern um die Erken-nung von Strukturen und die Erzeugung neuer Daten geht, die zu solchen Strukturen passen.

Für industrielle Anwendungen ist darüber hinaus das dritte Gebiet des ML in langfristiger Perspektive besonders interessant: Mit Reinforcement Learning (RL, "bestärkendem Lernen), können Maschinen die Fähigkeit zu strategisch motivierten Handeln erwerben. Dies ist heute nur in eng begrenzten Feldern möglich, aber die Perspektive ist kaum zu unterschät-zen. Das bekannteste Beispiel ist das System ALPHA-GO, das in 3 Jahren nacheinander alle Weltmeister des GO-Spiels entthronte. GO ist das kom-plexeste Strategiespiel der Welt, es gibt mehr Brettpositionen, als die Erde Atome hat. Es ist also unmöglich, alle Ergebnisse eines Zuges bis zum Spielende vorauszuberechnen. Man kann nur auf Basis einer Strategie spielen, die es zu ermitteln gilt. Nachdem ALPHA-GO nachgewiesen hatte, dass Menschen gegen das System keine Chance mehr haben, lernte die Variante ALPHA-ZERO das Speil Schach und schlug die weltweit führen-den Schachcomputer, die vorher die menschlichen Schachweltmeister geschlagen hatten in ebenso vernichtender Weise. Das ist insofern bemer-kenswert, als neuronale Netze nicht nur durch ihre komplexe Hardware-basis Vorteile erzeugen können, sondern sogar gegen andere Maschinen gewinnen, die von Menschen programmiert wurden. Die Überlegenheit liegt offenbar im Prinzip des Machine Learning selbst.

Aktuelle Techniken und Einsatzfelder des Machine Learning

Machine Learning besteht heute aus drei Bereichen: Supervised Learning, Unsupervised Learning und Reinforcement Learning. Dabei ist Supervised Learning die mit großem Abstand wirtschaftlich wichtigste Disziplin. Algorithmen nach dem Prinzip des Supervised Learning basieren auf Approximationsfunktionen mit gezielt gewählten Nicht-Linearitäten und großen Zahlen von Parametern, die in anwendungsspezifischen Architekturen konfiguriert werden. Sie benötigen hinreichend große Mengen an Daten mit Kennzeichnung (Label) des Inhalts – also beispielsweise RGB-Rasterbilder mit alphanumerischer Bezeichnung des jeweiligen thematischen Bildinhalts bezogen auf vordefinierte Klassen (z. B. 320X320 JPG/„Amsel“). Das System verarbeitet dann im Lernvorgang die eingegebenen Daten auf der Basis der aktuell vorliegenden Parameterwerte und vergleicht das Ergebnis mit dem Label. Auf Basis der dabei festgestellten Abweichung werden danach die Parameter angepasst.

Bei ML geht es im Gegensatz zu den Konzepten und Zielsetzungen der KI in den früheren Epochen nicht vorrangig um die Wiedererkennung eingegebener Daten, sondern um die Verallgemeinerung der Lerninhalte auf neue, noch unbekannte Daten, die zu den im Training spezifizierten Klassen passen. Das System lernt beispielsweise wie ein Schäferhund aussieht, nicht nur wie die Tiere auf den verwandten Trainingsbildern aussehen. Nicht das individuelle Tier, sondern die Zugehörigkeit zur Klasse wird erkannt. Das System macht eine Vorhersage (prediction) der Form: „mit 87,3%iger Wahrscheinlichkeit zeigt dieses Bild einen Schäferhund“.

Supervised Learning gliedert sich in spezielle Verfahren für unterschiedliche Datentypen: Kontinuierliche im Gegensatz zu diskreten Daten, flächige Daten (Symbole, Bilder) und sequentielle Daten (Sprache, Text, Audio/Video, technische Sequenzen). Die Analyse kontinuierlicher Daten mit stochastischen Methoden geht auf Arbeiten von Gauss aus dem Jahr 1801 zurück und ist unter dem Namen „lineare Regression“ bekannt. Sie eignet sich nicht zur Behandlung diskreter Probleme. In solchen Aufgaben geht es um die Zuordnung von Beobachtungen zu Klassen (Klassifikation). McFadden und Heckman erhielten im Jahr 2000 den Nobelpreis für Wirtschaftswissenschaften für ihre Entwicklung der Methode der „logistischen Regression“, einem mit linearer Regression verwandten Prinzip zur Klassifikation. Aus heutiger Sicht kann dieses Verfahren als Grenzfall eines neuronalen Netzes gesehen werden, der keine verborgenen Schichten (hidden layers) enthält, also nur die Input- und die Output-Schicht.

Die gängigen Varianten neuronaler Netze für Supervised Learning sind

Multilayer Perceptron (MLP) für Daten mit unspezifischer Struktur
Convolutional Neural Networks (CNN) für 2D/3D-Mustererkennung
Recursive Neural Networks (RNN) für sequentielle Datenanalyse

Ein MLP besteht aus Schichten von Perceptrons, die in Vorwärtsrichtung, von der Eingabe- bis zur Ausgabeschicht vollständig miteinander verbunden sind. Ein Netz mit nur einem hidden Layer wird als flach bezeichnet, alle anderen Strukturen sind „tiefe neuronale Netze. Die Erhöhung der Parameterzahl durch breitere Schichten (mehr Perceptrons pro Schicht) oder durch weitere Schichten (mehr Tiefe) führt nur dann zu Verbesserungen des Ergebnisses, wenn sie mit speziellem Design in fortgeschrittenen Netz-Architekturen einhergeht. Es ist im Allgemeinen erstrebenswert, die Parameterzahl zu beschränken.

CNN war die erste fortgeschrittene Architektur für Bilderkennung. Mit einer Variante des mathematischen Verfahrens der Faltung entstand in den 90er Jahren eine Alternative zu den vollständig verbundenen Schichten der MLP, die für flächige Mustererkennung (Bilder, Videos, Komponenten daraus) deutlich bessere Ergebnisse lieferte und Konfigurationen mit mehr Schichten erlaubte. „Deep Learning“ ermöglichte bemerkenswerte Fortschritte in der Bilderkennung, Maschinen lernten zu sehen. Im ImageNet Wettbewerb (1.000.000 Bildbeispiele aus 1000 Kategorien, jährlich durchgeführt 2010-2017) betrug die Fehlerrate anfangs 28 %. Das 8-schichtige CNN AlexNet der Universität Toronto senkte diesen Wert im Jahre 2012 auf 16 %. Alle folgenden Sieger waren CNN, und es entstanden drei wichtige Varianten (VGG, Inception, ResNet), mit denen die Fehlerrate auf ca. 2 % gesenkt wurde. Die menschliche Fehlerrate wird auf ca. 5% geschätzt.

RNN bilden eine spezielle Gruppe von Architekturen für die Behandlungen sequentieller Daten (Text, Audio, Sprache, Video), Zahlenfolgen, ...) . Zwei Verfahren sind führend: Long-Short-Term Memory (LSTM) und Gated Recurrent Unit (GRU). Das an der TU München entwickelte LSTM (Schmidhuber, Hochreiter) entstand aus Forschungsarbeiten zur Bewältigung des Vanishing Gradient Problems, das in allen neuronalen Netzen beherrscht werden muss. Dabei geht es darum, dass die Anpassung der Parameter (Gewichte) der Verbindung von einer Netzschicht zur nächsthöheren dadurch erreicht wird, dass diese schrittweise in Richtung des Gradienten des Fehlers aus der Ausgabeschicht verschoben werden. Dies ist die Richtung des steilsten Abstiegs – die Verschiebung reduziert den Fehler also auf sehr effiziente Weise. Um den Vektor der Ableitungen (des Gradienten) des Fehlers in Richtung der Gewichte zu berechnen, ist für untere Schichten die Anwendung der Kettenregel der Differentialrechnung erforderlich. In diesem Vorgang entstehen Produkte aus sehr kleinen Zahlen, die für tiefe Schichten verglichen mit der Zufalls-Initialisierung der Gewichte „verschwinden“. Ihre relative Größe wird zu klein, um die Gewichte zu verändern. Es entstehen ausschließlich Rundungsfehler aber keine Anpassung. In einem einfachen MLP findet deshalb oft bereits auf der dritten Schicht kein „Lernen“ mehr statt. Besonders für sequentielle Probleme, in denen beispielsweise Bezüge zwischen Worten in umfangreichen Texten erkannt werden sollen, stoßen andere Architekturen an Grenzen. Praktisch jedes Smartphone enthält heue Apps mit LSTM oder GRU.

Verglichen damit spielen die anderen Sparten des ML im Hinblick auf ihre Bedeutung für den IT-Markt eher Nebenrollen. Unsupervised Learning richtet sich auf Daten ohne Labels und dient dazu, diese nach Ähnlichkeit zu strukturieren oder neue Daten zu erzeugen, die in solche Strukturen passen. Zur Datenstrukturierung existieren diverse Algorithmen. Der meistverwendete ist der recht einfache und seit langer Zeit erfolgreich eingesetzte K-means-Algorithmus, in dem iterativ Cluster erkannt werden, deren Zahl extern vorgegeben wird. Zur Erzeugung neuer Daten wurde vor fünf Jahren unter dem Namen GAN (Generative Adversarial Networks) ein neuer Algorithmus entwickelt, der schnell an Bedeutung gewann und gerade zu einer ganzen Klasse neuer Methoden wird. Ein GAN erzeugt ein spieltheoretisches Gleichgewicht zwischen zwei gegnerisch arbeitendem KI-Systemen. Eins ist trainiert, um „echte“ von „gefälschten“ Daten zu unterscheiden. Das andere wandelt Rauschen in neue Daten, die als „echt“ präsentiert werden. Die Wahrscheinlichkeitsverteilung für die Konstruktion neuer Daten aus Rauschen wird dabei solange iterativ angepasst, bis die neuen „gefälschten“ Daten von den „echten“ Daten nicht mehr unterschieden werden können - nicht durch das andere Netz und schon erst recht nicht durch kontrollierende Menschen.

Reinforcement Learning (RL), bestärkendes Lernen, geht auf Methoden des Operations Research (OR) aus den 50er Jahren zurück, die auch als „dynamische Programmierung“ bezeichnet werden. Das Grundprinzip dieser Technik besteht in den Bellman-Gleichungen, nach denen eine optimale Entscheidung so getroffen wird, dass sie den Ist-Zustand in einen morgigen Zustand überführt, von dem bereits bekannt ist, dass er morgen optimal sein wird. Auf diese Weise kann iterativ vom Ende ausgehend der Pfad der Entscheidungen optimiert werden und dies auch unter dem stochastischen Szenario eines Markov-Prozesses. Es geht bei RL also nicht um Erkennung, Strukturierung oder kreative Erweiterung in Datensätzen, sondern um die Erzeugung von Strategien und Plänen zur Erreichung von Zielen und dem damit verbundenen Erwerb kumulativer oder finaler Belohnungen im Prozessablauf. Es ist eine zentrale Technik für die Steuerung autonom handelnder Maschinen.

KI kommt in diesem Zusammenhang erst dann zum Einsatz, wenn die Menge der möglichen Zustände und Handlungsoptionen eines solchen Prozesses zu groß ist, um die Problemlösung mit konventionellen mathematischen Methoden in der Praxis realisierbar zu machen. Beispielsweise enthält der Zustands- und Handlungsraum des GO-Spiels mehr Elemente als der Planet Erde Atome besitzt. Ein Lösungsansatz für derartige Aufgaben entsteht dadurch, dass das eigentliche Problem mit Approximationsverfahren behandelt wird, die in der Technologie für die Behandlung Neuronaler Netze verfügbar sind. „Q-Learning“ ist eine Vorgehensweise, mit der die Anwendbarkeit der etablierten OR-Techniken der „Wert-Iteration“ und der „Politik-Iteration“ auf Probleme von großer Komplexität ausgedehnt werden kann. Darüber hinausgehend ist RL aber heute ein Bereich extrem fortgeschrittener Verfahren für Probleme mit speziellen Eigenschaften, der sich erst innerhalb des letzten Jahrzehnts entwickelt hat ist.

Die wirtschaftlich wichtigsten Einsatzfelder des ML liegen heute in der Automatisierung der Bilderkennung. Dabei kann das jeweilige ML-Produkt ein Subsystem einer anderen Maschine sein. Beispielsweise beginnt gerade die Zeit, in der "blinde" Roboter, wie sie heute in der Automobil-Industrie in großen Zahlen im Einsatz sind, durch sehende Roboter abgelöst oder ergänzt werden. Oft spielen dabei effizientere Methoden des Trainings für die Handhabung kleiner Stückzahlen eine große Rolle. Für sehende Roboter ist auch die Kooperation mit Menschen leichter. Dabei sollte "Roboter" im allgemeinsten Sinne verstanden werden: Jede in Teilbereichen autonom handelnde Maschine ist in diesem Sinne ein Roboter, der von der Fähigkeit, zu sehen, profitieren kann.

Solche Innovationen sind einerseits interessant für Anbieter derartiger Automatisierungssysteme. Es kann aber auch ein Anwendungsfall für die Hersteller spezieller Produkte sein, die zur Automatisierung intelligentere Werkzeuge brauchen. Besonders dann, wenn die Zahl der Hersteller in einem derartigen Markt zu klein ist, um für einen Hersteller von Automatisierungssystemen für ein Spezialangebot sinnvoll zu sein.

Es gibt außerdem eine große Zahl von Anwendungen, in denen Sehfähigkeit keine Subfunktion ist, sondern den eigentlichen Gegenstand der Anwendung betrifft. Dies gilt beispielsweise für jede Art von Aufgaben in der Qualitätskontrolle. Praktisch alle Methoden der zerstörungsfreien Materialprüfung sind mit sehenden Systemen automatisierbar. Dabei kann das Sehen sich auf optische Mustererkennung beziehen, oder auf Mustererkennung in anderen bildgebenden Verfahren, wie Ultrallschallscan, Röntgentechnik und weitere Methoden, die bei bildgebenden Systemen verbreitet sind. Aus Sicht des KI-Systems sind dies alles sehr verwandte Probleme, die letztlich auf das Konzipieren, Trainieren, Prüfen und Warten eines Convolutional Neural Network beherrschbar sind.

Es gibt auch zahlreiche Anwendungen im Bereich der Ton- und Sprachverarbeitung, die mit anderen Techniken angegangen werden. Diese sind jedoch in der Regel nicht im Bereich der Kernkompetenz der Metall- und Elektroindustrie und liegen deshalb auch nur bedingt im Fokus der Industrie-KI.