Künstliche Nervenzellen, echtes Potenzial

Algorithmen, die das Gehirn imitieren, gibt es seit einem halben Jahrhundert. Erst in jüngster Zeit ist es aber gelungen, ihr Potenzial wirklich auszuschöpfen. Die Entwicklung künstlicher neuronaler Netze ist für die künstliche Intelligenz ein Meilenstein. Von Fabien Goubet

(Aus "Horizonte" Nr. 109 Juni 2016)​​​

​März 2016: Der Go-Weltmeister Lee Sedol verliert mit 1:4 gegen das Computerprogramm AlphaGo. Viele sehen darin eine weitere Niederlage des Menschen gegen die Maschine. Ausschlaggebend für den Sieg war ein Ansatz der künstlichen Intelligenz, der sich im letzten Jahrzehnt schnell entwickelte: das Deep Learning, bei dem Algorithmen in Netzwerken künstlicher Neuronen ausgeführt werden, also eine Softwarearchitektur, die ihre biologischen Vorbilder nachempfindet.

Das Deep Learning stützt sich stark auf die Arbeiten von Jürgen Schmidhuber, Direktor des Istituto Dalle Molle di Studi sull'Intelligenza Artificiale (IDSIA) am Stadtrand Luganos. AlphaGo verwendet Algorithmen von DeepMind, einem Start-up, das Google Anfang 2014 für 500 Millionen Dollar erwarb. Einer der drei Gründer des Start-ups, Shane Legg, hat am IDSIA doktoriert. Drei weitere Mitglieder forschten im Tessiner Labor.

"Jürgen Schmidhuber ist einer der besten Forscher im Bereich Deep Learning", erklärt Boi Faltings vom Labor für künstliche Intelligenz an der EPFL. "Er war immer überzeugt, dass es sich lohnt, an diesem Thema zu bleiben." Das bestätigt auch Stéphane Marchand-Maillet von der Abteilung Informatik der Universität Genf: "Er ist seit den frühesten Anfängen dabei."

Üben mit Tausenden Katzenfotos

Der Sieg im Go-Spiel illustriert eindrücklich das Potenzial von Deep Learning, das sich besonders in der Mustererkennung hervortut. Seit einigen Jahren kommt es in einer Vielzahl von Anwendungen zum Einsatz: Bild- und Spracherkennung, Online-Übersetzungswerkzeuge oder auch Assistenten von Smartphones. Deep Learning beruht auf dem Prinzip des maschinellen Lernens: Zuerst müssen die Algorithmen mit zahlreichen Beispielen gefüttert werden, anhand derer sie lernen können. Das Prinzip profitiert zweifellos von den Inhalten, die von den Nutzern des Web 2.0 und von Smartphones erstellt werden – von auf Facebook geposteten Fotos bis zu offiziellen Übersetzungen im Netz. Wenn der Maschine beispielsweise Tausende von Katzenfotos vorgelegt werden, lernt sie, Katzen zu erkennen und schliesslich Katzenfotos zu identifizieren, die sie noch nie gesehen hat.

Die Idee des Deep Learning ist keineswegs neu, musste für ihren Höhenflug jedoch auf die Ankunft moderner Computer warten. Anfang der 1950er Jahre versuchten Biologen, die Funktion der Nervenzellen im Gehirn mit formalen Grundsätzen zu erklären. Der Psychologe Frank Rosenblatt vom Cornell Aeronautical Laboratory im Staat New York veröffentlichte 1956 ein digitales Modell, das auf diesen Konzepten beruhte, und schuf damit das erste künstliche neuronale Netz. Mithilfe eines Rechners lernte dieses Netz, rudimentäre Bilder zu erkennen.

"Dieses Netz enthielt nur gerade acht, in derselben Ebene organisierte Neuronen. Es konnte nur einfache Zeichen erkennen", erzählt Claude Touzet vom Labor für integrative und adaptive Neurowissenschaften der Universität Aix-Marseille. "Erst 1985 standen viel leistungsfähigere künstliche neuronale Netze der zweiten Generation mit mehreren Schichten zur Verfügung." Dieser Durchbruch gelang voneinander unabhängig drei Forschern: Yann LeCun in Paris, Geoffrey Hinton in Toronto und Terrence Sejnowski in Baltimore.

Schritt für Schritt lernen

In diesen Netzen lernt jede Schicht, genau festgelegte Eigenschaften eines Musters visuell zu erkennen. Je tiefer die Schicht liegt, desto abstrakter sind die Merkmale. Am Beispiel der Katzenfotos würde die erste Ebene die Farben der Pixel analysieren, eine übergeordnete Struktur dagegen eher die allgemeine Form des Tieres. Diese in die Tiefe führende Architektur, bei der die Berechnungen manchmal in mehreren tausend Schichten erfolgen, hat Deep Learning seinen Namen gegeben.

"Jedes künstliche Neuron empfängt einen Eingangswert, wandelt diesen gemäss einer mathematischen Funktion um und wird aktiviert, wenn das Ergebnis einen zuvor festgelegten Schwellenwert überschreitet", erklärt Stéphane Marchand-Maillet. So wird die Funktionsweise einer echten Nervenzelle nachgebildet: Nur wenn das Eingangssignal einen bestimmten Wert erreicht, leitet sie den Reiz in Form eines elektrischen Potenzials entlang ihrer Fortsätze bis zu den Synapsen weiter. In der künstlichen Version werden die innerhalb derselben Schicht produzierten Ergebnisse gewichtet, addiert und dann als Eingangssignal an die nächste Schicht mit weiteren Funktionen weitergeleitet, dann wiederum zur nächsten Schicht, bis zum Ausgang.

"Wenn beispielsweise eine grosse Zahl von Apfel- und Wassermelonenfotos eingespeist wird, lernt das System irgendwann, die beiden Früchte nach ihrem Durchmesser zu unterscheiden", erklärt der Genfer Forscher. "Wenn die Maschine keine Entscheidung fällen kann, zum Beispiel weil eine sehr kleine Wassermelone abgebildet ist, übernimmt die nächste Schicht und analysiert Farbe oder Textur der Frucht, und so weiter, wobei jede Schicht die Unterscheidung verfeinert."

Entwicklungshelfer Videospiele

Die zu geringe Leistungsfähigkeit der Computer verhinderte während Jahrzehnten komplexere Anwendungen. Die Industrie zeigte sich weitgehend uninteressiert, einzig der Videospiel-Bereich trug ungewollt zum Erfolg des Deep Learning bei, weil die Grafikprozessoren (GPU) von Spielkonsolen eine unerreichte Leistung zu einem moderaten Preis bieten: bis zu sechs Teraflops, rund 6000 Milliarden Operationen pro Sekunde, für einige Hundert Dollar. "Zweifellos hat diese Rechenleistung den Quantensprung im Deep Learning herbeigeführt", sagt Claude Touzet. GPU eignen sich ausserdem hervorragend für Parallelberechnungen, die für die gleichzeitige Verarbeitung der unzähligen Operationen bei neuronalen Netzen erforderlich sind.

Die Bilderkennung erzielt inzwischen hervorragende Ergebnisse. Noch komplexer wird es bei aufeinanderfolgenden Informationen wie Sprach- oder Videosequenzen. An deren Verarbeitung forscht Jürgen Schmidhuber vom IDSIA bereits seit 1989 und entwickelte dazu rekurrente Netze: Die Neuronen kommunizieren untereinander mittels Schleifen, die auch rückwärts in vorhergehende Schichten führen.

Die sequenzielle Datenanalyse hängt stark vom Kontext und von vorhergehenden Daten ab. Die im Tessin entwickelten LSTM-Netze (Long Short Term Memory) behalten frühere Ereignisse im Gedächtnis. So können sie besser zwischen ähnlichen Wörtern wie "Schiff" oder "Riff" unterscheiden, indem sie darauf achten, ob die Lautfolge mit "sch" oder "r" begonnen hat. "Rekurrente Netze sind leistungsfähiger als andere Ansätze wie das Hidden Markov Model", erklärt Jürgen Schmidhuber und weist darauf hin, dass Google Voice den LSTM-Ansatz 2015 übernommen hat. "Durch die Rückkopplung steht in diesen Netzen eine beliebig grosse Zahl von Schichten zur Verfügung", fügt Boi Faltings von der EPFL hinzu.

Für Jürgen Schmidhuber ist Deep Learning nur ein Aspekt der künstlichen Intelligenz (KI). Er glaubt, dass echte KI "unsere Zivilisation tiefgreifend verändern wird". Stéphane Marchand-Maillet hält Deep Learning eher für einen Hype, der den Eindruck vermittelt, dass KI alles lernen kann, solang genügend Daten zur Verfügung stehen: "Noch gibt es jedoch keine Antwort darauf, ob sich Deep Learning auf alle Bereiche übertragen lässt."

Fabien Goubet ist Wissenschaftsjournalist und schreibt für Le Temps.