von Georg Obermayr, 01.01.2018

Die lernenden Roboter kommen

Künstliche Intelligenz schickt sich an, die Arbeitswelt – und einiges mehr – zu verändern. Auch das Publishing, seit Jahren vom Wandel geprägt, steht damit schon wieder vor der nächsten Disruption.

So macht auch Freistellen Spass: Der Nutzer markiert lediglich die Übergangszonen, das auf Pixelstrukturen trainierte System erstellt die Maske (v.l.n.r.: Original, Nutzermarkierung, Vergleichsmethode als Benchmark, finale Maske).

Es scheint, als gehe ein Gespenst um: Egal, auf welcher Konferenz ich im letzten Jahr war, welchen Vortrag ich besucht oder selbst gehalten habe, ein Thema kommt hoch, ob man will oder nicht: natürlich, die künstliche Intelligenz. Das Thema bewegt – zweifellos und völlig zu recht. Erstaunlich sind für mich dabei zwei Dinge: So wird zwar erstens gerne über die enorme gesellschaftliche Relevanz des Themas sinniert. Dass künstliche Intelligenz aber auch vor dem Publishing und der Medienproduktion nicht Halt macht – und uns so in unserem täglichen Tun betrifft – wurde noch nicht in der Breite realisiert. Und zweitens wird immer über die Risiken und Gefahren gesprochen – als wäre es ausgemacht, dass Maschinen unsere neuen Feinde sind und uns wohl bald Terminator-ähnliche Endkämpfe drohen. Schade, denn genau das wird absehbar nicht passieren. In Wirklichkeit eröffnet sich hier gerade ein riesiger, positiver Gestaltungsraum.

Was mich an der ganzen Debatte am meisten ärgert, ist, dass wir mal wieder die Begrifflichkeiten nicht sauber definiert haben. Künstliche Intelligenz, das klingt nach Science-Fiction, das hört sich nach Zukunft an. Leider gaukelt uns der Begriff etwas vor, das er nicht einhalten kann. Was da gerade entsteht, ist kein «neuer Mensch», keine universelle Wissensmaschine, die sich in ihren Fähigkeiten bald über den Menschen erheben wird. Das, worüber gerade sprechen, ist profaner – und es hat einen anderen Namen: maschinenbasiertes Lernen oder auf Englisch Machine Learning.

Was anders wird

Machine Learning stellt einen Bruch zur bisherigen, «klassischen» Informatik dar. Deshalb ist es derzeit die absolut spannendste Entwicklung rund um Computer und Digitalisierung. Programmieren heute, das ist ein Verfahren, mit dem Menschen der Maschine sagen, was sie in welcher Situation zu tun haben. Dazu gibt es ein breites Instrumentarium, das schon sehr lange existiert: Wenn-Dann-Abfragen, Schleifen usw. Es gilt: Die Maschine kann nur machen, was der Programmierer ihr vorgegeben hat. Egal wie ausgefeilt das Ganze sein mag, am Ende läuft immer ein von Menschenhand erdachtes Programm ab – die Maschine wird niemals etwas zu den festgelegten Abläufen hinzuerfinden.

Machine Learning funktioniert anders – und genau da liegt die Disruption zur bisherigen Steuerung von Maschinen. Der Maschine wird nicht mehr gesagt, wie ein Problem konkret zu lösen ist. Vielmehr gibt der Mensch Start- und Zielpunkt vor und lässt die Maschine den Rest selbst herausfinden. Dahinter stecken hochkomplexe mathematische und statistische Modelle, die aus den gegebenen Daten in mehreren Stufen Muster ableiten und Vorhersagen treffen.

Klassisches Programmieren ist deterministisch – der Mensch hat das Problem gelöst, die Maschine arbeitet das Programm ab. Machine Learning ist nicht programmiert – die Maschine lernt selbstständig, wie ein Problem zu lösen ist. Diese Problemlösungen funktionieren im Rahmen von fest vorgegebenen Aufgabenstellungen. Und hier kreuzen sich die Wege zwischen beiden Verfahren: In beiden Fällen gibt der Mensch vor, welches Problem zu lösen ist. Die Maschine löst dann auch beim Machine Learning nur genau dieses eine konkrete Problem. Im Gegensatz zum menschlichen Lernen entwickelt sie keinen Horizont darüber hinaus, sie entwickelt kein eigenes Bewusstsein und kann keine Lösungen aus anderen Problemstellungen verknüpfen. Deshalb führt «Künstliche Intelligenz» als Begriff in die Irre. Machine-Learning-Systeme sind, wie es der Spiegel kürzlich formuliert hat, hochspezialisierte Sackgassen. Sie lösen manche Problemstellungen besser, «klüger» als die klassische Programmierung, nicht mehr – aber eben auch nicht weniger.

Wenn wir jetzt auf das Publishing blicken, dann reicht diese «Verbesserung», um mich zur Aussage zu verleiten, dass jede Zutat für ein Publishing-Produkt (Text, Bild, Typografie, Layout, …) in Zukunft anders, radikal neu produziert werden wird – dank Machine Learning. Wie wir also zu gedruckten, digitalen oder «gasförmigen» Medien kommen, wie wir diese kreieren, wird sich massiv verändern. Vermutlich wird es der grösste Bruch seit dem Desktop-Publishing sein. Werfen wir einen Blick in die Forschungslabors.

Maschine zur Schriftkombination

Welche Schriften passen zusammen? Was harmoniert gut? Welche Kombinationen kommen in Frage? Das sind Fragestellungen für die es einerseits das geschulte Auge eines Designers bedarf, andererseits aber sehr feste, formulierbare handwerkliche Regeln gelten. Es gibt eine geschmackliche Komponente, aber das Handwerk überwiegt. Das ist ein perfekter Task für Machine Learning. Schauen wir es uns im Detail an:

Machine Learning basiert auf einem riesigen Satz an Daten, aus denen die Maschine Regeln und Gesetzmässigkeiten ableiten kann. Wir brauchen also einen grossen Fundus an Schriftkombinationen, die wir analysieren können. Um an diese Daten zu gelangen, können wir einen Crawler bauen, der das Internet durchsucht und Websites einliest. Auf diesen Websites schauen wir, welche Schriften zum Einsatz kommen. Dabei schauen wir nicht nur nach dem Namen, wir analysieren vor allem die Eigenschaften der Schriften: X-Höhe, Kontrast, Laufweite und vieles mehr.
So bekommen wir einen riesigen Datensatz über den Einsatz von Schriften in echten Designs. Und wir haben zu jeder Schrift aussagekräftige Metadaten über die optischen Eigenschaften. Und wir haben den Einsatz dieser Schriften in echten Designs. Damit können wir die Maschine jetzt trainieren. Ein Designer kann sich vor eine Auswahl an Designs (training data) setzen und der Maschine immer wieder sagen: Das ist eine gute Schriftkombination, das ist eine schlechte, eine gute, … Ein Designer trainiert also die Maschine (supervised learning).
Nach ein paar hundert solcher Trainings versteht die Maschine die Zusammenhänge zwischen dem Kontrast, der X-Höhe und einer guten Schriftkombination. Sie nimmt selbst Ableitungen vor und erkennt die Muster hinter den trainierten Daten. Hier ist nochmals der Vergleich zum klassischen Programmieren spannend: Ein Programmierer hätte Wenn-Dann-Abfragen konzipiert, die als Entscheidungsbaum für die Maschine fungieren. Beim Machine Learning erkennt die Maschine die Muster in den Daten selbst – und kommt so auf andere Lösungswege als der Mensch. Und: Die Maschine wird schlauer, je mehr Daten sie bekommt. Das Modell wird mit der Zeit immer robuster.
Damit, und jetzt wird es spannend, kann die Maschine jetzt selbst Vorhersagen treffen. Wir können sie mit neuen, unbekannten Schriften konfrontieren und die Maschine wird dazu passende Kombinationsvorschläge machen.

Die Frage ist natürlich, was werden wir Designer von einem solchen Konzept sehen? Vermutlich wird es eine Funktion Passende Schrift vorschlagen geben, etwa im Layoutprogramm. Im Hintergrund hilft Machine Learning auf Basis der anderen Schriften im Layout eine passende vorzuschlagen. Das ist nach aussen eigentlich eine einfache Funktion. Ein Detail, das sich mit Machine Learning besser lösen lässt als mit klassischer Programmierarbeit.

Für den Designer ändert sich aber einiges: Bisher musste viel Trial & Error investiert werden, um eine passende Kombination zu finden. Das sind oftmals langwierige manuelle Prozesse. Mit einer solchen Funktion können wir dagegen schneller und effizienter zu besseren Ergebnissen kommen. Ich bin mir ziemlich sicher, dass wir das bald in unseren Design-Tools sehen werden.

Automat für Layouts

Dieses Trial & Error kennen wir auch vom Erstellen eines Layouts. Immer wieder variieren, rumschieben, grösser machen, kleiner machen, Rahmen aufziehen, einfärben, … Sicher, das ist genau das, was unsere Arbeit ja ausmacht. Das heisst aber nicht, dass es nicht auch besser geht. Die Universität von Toronto hat dazu in Zusammenarbeit mit Adobe ein Forschungsprojekt aufgesetzt: In DesignScape arbeitet der Designer normal an seinem Layout – er baut die Elemente und Inhalte auf, schiebt sie umher. Während das passiert errechnet das System jetzt laufend alternative Vorschläge: alternative Anordnungen oder veränderte Grössenverhältnisse bis hin zu komplett anderen Aufbauten und neuen Layoutideen. Der Designer kann diese Vorschläge nicht nur anschauen, sondern bei Gefallen auch annehmen und auf dieser Basis weiterarbeiten.

Auch hier wird wieder die Feedback-Schleife zwischen Mensch und Maschine verkürzt. Die Maschine hilft schneller und effizienter zum Ziel zu kommen und den Trial-&-Error-Aufwand zu reduzieren. Sicher gibt es hier einen schmalen Grat, den menschlichen Designer nicht zu entmündigen – eine Gefahr, der sich die Entwickler bewusst sind. Wenn man sich aber anschaut, was die Hauptkompetenz eines guten Designers ist, sieht man schnell, dass es eben jenes «Begutachten und Einordnen» von Gestaltung ist, das in diesem Workflow deutlich mehr Raum bekommt, während das eher stupide Verschieben von Rahmen mehr und mehr in den Hintergrund rückt. Der Clou am Machine Learning ist jetzt natürlich, dass es uns mit der Zeit immer besser versteht. Je mehr Layouts wir mit dem Tool bauen, desto zielgerichtetere und besser auf uns abgestimmte Vorschläge werden wir bekommen.

Spass mit Bildern

Schriften, Layouts – alles nett. Richtig Feuer dahinter ist beim Machine Learning aber, wenn es um Bilder geht. Hier wird mit am meisten geforscht. Und hier funktioniert die darunterliegende Technologie aus Mustererkennung und Vorhersage am besten. Ein paar Beispiele (siehe auch unten in der Textbox):

Bei einem Foto-Stil-Transfer nimmt man ein Eingangsbild und sucht den gewünschten Bildstil in einem anderen Bild – den Rest macht das System. Das Machine-Learning-System analysiert die entscheidenden Stilelemente, überträgt diese und achtet dabei auch noch darauf, dass jeder Bildteil möglichst realistisch umgesetzt wird.
Ähnliches passiert bei der Übertragung von Wetter- oder Zeiteigenschaften zwischen Bildern. So wird etwa aus Tag Nacht, aus Sonne Regen oder aus Winter Sommer.
In einem Projekt zur Erstellung von Freistellmasken markiert der Nutzer lediglich die Übergangszonen zwischen dem freizustellenden Vordergrundobjekt und dem Hintergrund (die sogenannte Trimap). Das System ist via Machine Learning auf typische Pixelstrukturen an Rändern und Übergängen trainiert. Auf dieser Basis wird dann die Alpha-Maske angefertigt.
Ein Projekt wie Smile Vector wirkt erstmal lustig – es nimmt Bilder mit Personen und bringt diese darauf zum Lachen. Dahinter steckt aber ein ausgefeiltes, antrainiertes Verständnis des menschlichen Gesichts. Es wird nicht nur einfach der Mund angepasst, die ganzen Gesichtszüge ändern sich passend mit.
Komplexer wird es in einem Beispiel, das Fake-Videos von Audio-Aufzeichnungen erzeugt: So wird eine Rede des ehemaligen US-Präsidenten Barack Obama ihm förmlich in den Mund gelegt. Machine Learning mappt hier die Worte aus dem Audio-File zu den passenden Formen des Mundes – und produziert ein entsprechendes Video.
Diese Systeme bauen also ein tiefes Verständnis für die Bild-Inhalte auf. Das können wir uns in einem anderen Bereich zunutze machen: In der Verschlagwortung von Bildern. So gibt es bereits einige Systeme, etwa von Google oder Amazon, die Bilder einlesen und ein passendes Set an Metadaten zurückliefern. Diese Metadaten können sowohl gezeigte Objekte, Orte, Sehenswürdigkeiten, Stimmungen in Gesichtern oder auch abgebildete Promis enthalten.

Die Bildbearbeitung der Zukunft nimmt uns also nicht nur die Verschlagwortung ab, sie hilft auch beim Freistellen und wird komplexe Retusche- und Grading-Arbeiten massiv beschleunigen. Auch hier steht wieder die Effizienzsteigerung im Vordergrund, das «Begutachten», das «Wann- ist-etwas-gut» wird wichtiger, das Rumgeklicke und Gepinsele macht immer mehr die Maschine direkt.

Jedem Nutzer das beste Erlebnis

Es gäbe noch viele Beispiele zu erwähnen, übrigens auch aus dem Textbereich, wo Bots Kommentare moderieren, Artikel verschlagworten oder gar journalistische Texte selbst verfassen. So spannend all diese Beispiele zweifellos sind, sie zeigen doch nur, wie bestehende Anwendungen effizienter genutzt werden können. Spannend wird es sein zu sehen, welche neuen Anwendungen durch Machine Learning überhaupt erst ermöglicht werden. Ein zentrales Feld ist zweifellos die Personalisierung. Zu Zeiten der Massenmedien undenkbar, werden digitale Medien immer mehr zu einem auf den einzelnen Nutzer zugeschnittenen, persönlichen Erlebnis.

Netflix gibt ein gutes Beispiel wie weit das bereits gehen kann: Natürlich personalisiert Netflix die gesamte Plattform und vor allem seine Empfehlungen. Aber auch die Vorschaubilder für die einzelnen Titel werden mittlerweile personalisiert. So werden für jeden Titel verschiedenste Teaser-Bilder produziert. Je nach Vorlieben des Nutzers (etwa einzelne Schauspieler oder Genres) wird dann das jeweils passende ausgewählt. Auch dieser Algorithmus ist getrieben von Machine Learning und wird mit der Zeit immer besser werden.

Wenn Maschinen kreativ werden … dann zeigt sich, was Machine Learning eben nicht ist.

Wo sind die Grenzen?

Wenn man sich anschaut, was in diesen Forschungsprojekten bereits heute möglich ist – und wenn man beginnt zu überlegen, was in den nächsten Jahren möglich sein könnte, dann landet man schnell bei dem Gedanken, dass die Maschine bald alles können wird. So landet man bei Dystopien und wenig erbaulichen Zukunftsaussichten, was die eigene Rolle als Publisher anbelangt. Deshalb ein letztes Beispiel, das den Blickwinkel wieder geraderückt: logojoy.com will die Erzeugung von Logos mit den Mitteln des Machine Learnings umsetzen. Der Nutzer gibt den Namen ein, wählt Farben aus und selektiert Beispiele, die besonders gut gefallen. Daraus leitet die Maschine wieder Muster ab, versucht vorherzusagen, wenn A gefällt, dann muss wohl auch B gefallen. Und, voilà, schon wird eine Palette an möglichen Logo-Designs präsentiert.

Und, gefällt’s? Wenn meine Meinung etwas zählt, dann würde ich laut rufen – nein, nein, und nochmals nein! Die Entwürfe sind einfallslos, vorhersehbar und repetitiv. Die Gestaltung eines Logos ist halt nur begrenzt handwerklich, deshalb tut sich die Maschine mit all ihren Mustern und Vorhersagen schwer. Was fehlt ist die Kreativität, die Fähigkeit zur Selbstreflexion, der bewusste Regelbruch und die Inspiration, die eine gute Gestaltung ausmacht. Die Grenzen von Machine Learning werden deutlich spürbar – Kreativität braucht Bewusstsein, nichts, was die Maschine, diese «hochspezialisierte Sackgasse» hat.

Puh, einmal gut durchatmen. Das klingt beruhigend. Ist es aber nicht, im Gegenteil. Denn die Zeiten, in denen wir die Maschinen kommandieren, sind unwiderruflich vorbei. Vielmehr wird die Maschine in Zukunft zum gleichberechtigten Arbeitspartner von uns Menschen. Das neue Team arbeitet Hand in Hand. Dieses Zeitalter der Algorithmen, in das wir jetzt eintreten, wird uns aus der Komfortzone holen. Es wird uns zwingen, neue Technologien und Fertigkeiten zu erlernen, die weit über die klassische IT hinausgehen, und die es uns erst ermöglichen, die neuen Machine-Learning-Systeme zu konfigurieren. Und es wird uns dazu zwingen, unsere Fähigkeit zur Kreativität neu zu finden. Zu viel davon ist über die letzten Jahre im blossen Programmwissen und im handwerklichen Abarbeiten verschüttgegangen. Zu viel davon haben wir in alltäglichen Kompromissen aus Zeit, Kosten und Bequemlichkeit vernachlässigt. Im Team Mensch-Maschine werden wir aber für Kreativität, Bewusstsein, Regelbruch und Empathie zuständig sein. Das werden die Maschinen nicht machen, den Rest aber schon. Mir gefällt das.

Hier finden Sie Links zu weiterführenden Informationen:
– Kombination von Schriften: bit.ly/jongold, bit.ly/fontjoy
– DesignScape (Forschungsprojekt der Universität Toronto mit Adobe): bit.ly/designscape
– Artwork-Personalisierung bei Netflix: bit.ly/artwork-personal

Machine Learning im Bereich Bild …
– Foto-Stil-Transfer: bit.ly/stil-transfer
– Wetter- oder Zeiteigenschaften übertragen: bit.ly/image-trans
– Erstellung von Freistellmasken: bit.ly/freistell
– Smile Vector: twitter.com/smilevector
– Fake-Videos von Audio-Aufzeichnungen: bit.ly/audiofake
– Verschlagwortung von Bildern: bit.ly/verschlagwortung

… und auf Textebene
perspectiveapi.com, retresco.de/semantik, automatedinsights.com

Kommentieren

Kommentare lesen

Diesen Beitrag teilen

Autor Georg Obermayr
Rubrik Publishing
Dossier: Publisher 1-2018
Thema Künstliche Intelligenz