Können Computer Bilder verstehen?
Welchen Nutzen können Bildbearbeiter und Fotografen aus Assistenzfunktionen ziehen, die auf künstlicher Intelligenz basieren? Kann ein neuronales Netz erkennen, was schön ist? Antworten geben zwei KI-Forscher.
Von der künstlichen Intelligenz (KI) als Allheilmittel oder Bedrohung ist derzeit in allen Medien die Rede. Ob sie uns eher schadet oder nutzt, kann der Laie kaum beurteilen. Nachdem jüngst ein von einer KI erzeugtes Gemälde bei einer Versteigerung des Auktionshauses Christie’s 432 500 Dollar erzielte, kann man sich fragen, ob die KI inzwischen bereits erkennen kann, was ein schönes von einem weniger schönen Bild unterscheidet.
Wir wollten mehr darüber erfahren und haben deshalb die KI-Experten Dr. Thomas Käster und Kai Röhr konsultiert. Käster ist Technikchef von PRC (www.prc-gmbh.de), einem Spin-off der Universität zu Lübeck. Kai Röhr ist als KI-Ingenieur in derselben Firma tätig. Künstliche Intelligenz, neuronale Netze und Deep Learning sind ihr täglich Brot, und sie sollten uns erklären, ob die KI ein so komplexes Konzept wie Ästhetik modellieren kann.
Christoph Künne (CK): Thomas, ich habe dir heute eine DVD mit 60 000 Porträtfotos mitgebracht. Kann mir eure Excire-KI in Zukunft dabei helfen, die besten Bilder herauszusuchen?
Thomas Käster (TK): Im Prinzip sollte das gehen. Einige auf die Bewertung von Einzelbildern ausgerichtete Angebote gibt es ja schon länger im Internet. Man kann das vielleicht algorithmisch angehen, aber die Frage ist auch, wie man das am Ende verpackt, also wie man die Schnittstelle für den Benutzer gestaltet.
CK: Ästhetik ist ja immer kontextbezogen und sozialisationsbedingt. Das macht es kompliziert, weil verschiedene Leute unterschiedliche Dinge als schön ansehen, und das kann man nur schwer in Software abbilden. Auf der anderen Seite gibt es aufgrund von 2000 Jahren Kulturgeschichte im Westen gewisse Gemeinsamkeiten bei den Parametern dafür, was als schön empfunden wird.
TK: Ich bin gespannt, wie weit wir überhaupt kommen, so etwas generell zu definieren. Wir haben schon verschiedene Versuche unternommen, aber die Ergebnisse waren nicht wirklich überzeugend. Ich habe allerdings das Gefühl, dass die verwendeten Datensätze bisher ein Problem sind, weil es sich meist nicht um professionelle Aufnahmen handelt – die Qualität der Bilder ist einfach nicht so gut. Es wäre interessant zu sehen, ob eine Software die ästhetischen Unterschiede erkennen könnte, wenn man Fotos unterschiedlicher Qualität mischt. Wir werden auf jeden Fall mit verschiedenen Referenz-Datensätzen arbeiten. Schön wäre es, wenn man einen ausreichend grossen Datensatz hätte, der allgemein anerkannt hervorragende Fotos enthält. Den haben wir leider nicht, aber dafür einen, der über eine halbe Million von Mitgliedern eines Internet-Fotoklubs bewertete Fotos umfasst. Das sollte schon mal eine gute Ausgangsbasis liefern, denn bei den meisten aktuell verwendeten KI-Verfahren handelt es sich um überwachtes Lernen. Das bedeutet, dass Daten und so genannte Label vorliegen müssen, in unserem Ästhetik-Fall also Bilder und Bewertungen. Sobald wir damit ein Stück weiter sind, halten wir euch auf dem Laufenden.
CK: Gut, wir müssen also warten, bis ihr euer System mit diesen und anderen Daten trainiert habt, bevor wir wissen, ob das Ergebnis funktioniert. Auf welche Anwendungen richtet ihr denn aktuell euer Augenmerk?
TK: Für die meisten Kunden, die ja vor allem enthusiastische Hobbyfotografen sind, besteht ein wichtiges Problem schon darin, Bilder überhaupt wiederzufinden. Den Fotografen, der seine Bilder systematisch verschlagwortet, den gibt es ja kaum. Selbst unter den Profis nicht. Niemand ausser ein paar sehr fleissigen und disziplinierten Fotografen hat Lust darauf, dafür stundenlang vor dem Rechner zu hocken, statt angenehmere oder einträglichere Dinge zu tun. Damit ist unsere grosse Aufgabe immer noch die Erkennung von Bildinhalten.
Michael J. Hußmann (MJH): Die Erkennung von Menschen auf Fotos ist ja inzwischen schon in vielen Anwendungen wie Lightroom oder Fotos von Apple Standard. Bringen neuronale Netze die Erkennung auf ein neues Level?
TK: Ja, auf der Basis von neuronalen Netzen konnte in den letzten sechs Jahren eine extreme Steigerung bei der automatischen Bilderkennung erzielt werden. Allerdings ist dies erst einmal nur eine Technologie und es geht in erster Linie darum, ein Computer-Vision-Problem zu lösen.
Um ein Motiv zu identifizieren, müssen wir es aus allen möglichen Perspektiven und unter verschiedensten Beleuchtungsverhältnissen erkennen. Es gab zum Beispiel ein Pilotprojekt der Bundespolizei, bei dem es darum ging, die Gesichter von Passanten zu erkennen und mit den Bildern gesuchter Straftäter abzugleichen. Das wurde als grosser Erfolg verkauft, aber der Chaos Computer Club hat kritisiert, dass die Ergebnisse schöngerechnet wurden, und damit haben sie recht.
Es gibt hier sehr viele Faktoren, die berücksichtigt werden müssen, allein um überhaupt Gesichter im Bild zu entdecken – Gesichter können verdeckt sein, die Beleuchtung ändert sich, es kann einen Schattenwurf geben und so weiter. Man hat keine kontrollierbaren Bedingungen wie im Labor. Die Erkennung muss aber immer funktionieren, auch wenn der Gesuchte eine Brille oder eine Mütze trägt, und das ist keine so einfache Aufgabe.
MJH: Es macht ja auch einen Unterschied, was die Zielsetzung ist. Wenn ich Bilder bestimmter Personen in meiner Bilddatenbank suche und ein paar falsche Bilder gefunden werden, die andere Personen zeigen, dann ist das nicht so schlimm. Wenn die Polizei aber Verbrecher sucht und eine vermeintliche Erkennung bedeutet, dass jemand erst einmal festgehalten und seine Personalien kontrolliert werden, dann spielt die Zahl der «false positives» eine viel grössere Rolle.
TK: Absolut. Die Hochrechnung, die der Chaos Computer Club vorgenommen hat, besagt, dass pro Tag 600 Personen fälschlich beschuldigt würden, und das geht nicht. Bei unserer Software Excire Search ist das natürlich nicht so problematisch.
Was manche Kunden allerdings kritisieren: Ich habe 100 Bilder von Tigern in meiner Sammlung, und warum findet die Software davon nur 80? Das ist zwar nachvollziehbar, aber man muss sich auch fragen, um was es eigentlich geht: Was kann ich Nützliches mit der Software anstellen?
Wenn ich meine Bilder nicht verschlagwortet habe, finde ich von meinen 100 Tiger-Bildern vielleicht kein einziges. Wenn ich 80 Bilder finde, ist das schon mal ein Mehrwert. Und wenn ich die Tiger-Bilder von meiner Asienreise suche, weil ich daraus ein Fotobuch zusammenstellen will, brauche ich sowieso keine 100 Tiger, sondern eine Auswahl.
CK: Nimmt eure Software dabei ein Ranking vor?
Kai Röhr (KR): Ja, die ersten Bilder unserer Ergebnisliste sind die, die am besten zur Suchanfrage passen. Wir werten hier verschiedene Faktoren aus und die am sichersten erkannten Eigenschaften werden am höchsten bewertet, was dann in den Konfidenzwert einfliesst.
TK: Man muss dazu sagen, dass wir für die Software auch einen Kompromiss zwischen der Geschwindigkeit und der Genauigkeit der Bildanalyse finden müssen. Wir wissen schon, wie wir das System besser machen könnten, aber damit würde es auch langsamer. Der algorithmische Aspekt ist das eine, aber das System soll ja auch gut benutzbar sein. Das Produkt soll einen Mehrwert bieten und sich so in den Workflow des Benutzers einfügen, dass es nicht nervt. Bei uns steht daher neben der reinen Leistung der KI vor allem auch deren Usability im Vordergrund – das ist manchmal die eigentliche Herausforderung.
Lightroom liefert uns ein Beispiel, wie es nicht so gut funktioniert; zumindest ist die Funktion der Gesichtserkennung unglücklich verpackt. Algorithmisch ist man bei Adobe natürlich auf der Höhe, aber die Benutzererfahrung ist: Das System werkelt ständig rum, es scheint nie fertig zu werden, es erfordert ständig Interaktionen, um es zu korrigieren, und so verlieren die Leute ziemlich schnell die Lust daran.
Man muss sich also fragen, ob man seine KI, die eine nützliche Funktion erfüllt, auch so nutzbar gemacht hat, dass der Benutzer gerne damit arbeitet. Dieselbe KI könnte man anders verpacken, sodass es geschmeidig läuft. Beispielsweise sollte die Suche nach Bildern meiner Tochter nur angestossen werden, wenn ich sie wirklich brauche – ich gebe also ein Beispielbild vor und lasse die KI ähnliche Bilder suchen. Dann bin ich auch motiviert, mit dem System zu interagieren und korrigierend einzugreifen. Es ist viel besser, sich mit solchen kleinen Aufgaben zu beschäftigen, die man auch bewältigen kann, statt sich an einer grossen Gesamtlösung zu versuchen. Das ist es, was uns hier auch antreibt – dass die KI benutzerfreundlich verpackt sein muss.
CK: Mal eine Verständnisfrage: Mir ist klar, das ein selbstlernendes neuronales Netz neue Fähigkeiten gewinnen kann, wenn man es mit weiteren Daten füttert, aber wenn man daraus ein Produkt macht, muss der Anwender seine Bilder in die Cloud laden, weil nach dem aktuellen Stand der Technik nur dort die nötige Rechenleistung verfügbar ist. Könnte man nicht nach dem Abschluss einer ersten Lernphase, nach der die KI hinreichend gut funktioniert, diesen Stand einfrieren und in einen Chip giessen, wie heutzutage Koprozessoren in Smartphones?
TK: Zur Nutzung in einer Kamera? Es wäre natürlich cool, wenn schon die Kamera selbst eine Verschlagwortung vornehmen könnte. Das wäre auch nicht zeitkritisch, denn die KI könnte parallel laufen, während man weiter fotografiert. So etwas müsste hardware-nah programmiert sein, wobei das ein weites Feld ist. Neben Varianten auf Basis von ARM-Prozessoren gibt es inzwischen auch eingebettete Lösungen mit Intel-Prozessoren. Für Letztere ist es ein wenig einfacher, Algorithmen zu entwickeln, allerdings muss man auch dabei schon die begrenzten Ressourcen berücksichtigen. Dies ist bei einer integrierten Lösung für Kameras sicherlich noch ein wenig herausfordernder.
MJH: Könnte ein neuronales Netz, dessen Leistung ja auf maschinellem Lernen beruht, auch noch beim Kunden dazulernen?
TK: Es wird definitiv auch irgendwann so weit sein, dass wir ein System ausliefern, das beim Kunden und speziell für den Kunden lernt. Momentan ist es noch nicht realistisch, das anzugehen.
In Zusammenarbeit mit dem Verein der Naturgucker haben wir beispielsweise eine Anwendung zur Bestimmung von Schmetterlingen entwickelt. Dort gibt es schon eine Feedback-Seite im Konzept. Wenn ein Benutzer feststellt, dass ein Schmetterling falsch erkannt wurde, können wir Korrekturen bei uns sammeln und später berücksichtigen. Manche Excire-Search-Anwender würden unser System am liebsten auf ihrem eigenen Rechner dazulernen lassen, aber das lässt sich nur schwer mit dem Funktionsprinzip des Deep Learning vereinbaren.
Unser System hat anhand von fünf Millionen Bildern gelernt, was bedeutet, dass wir für jede Kategorie 10 000 Bilder oder mehr haben. Wenn der Anwender nun vier oder fünf Bilder hat, bei denen die Klassifikation falsch lag, können wir das System zwar auf einem Kundenrechner nachtrainieren, aber das wesentliche Hindernis ist ein anderes: Das neuronale Netz zeigt aufgrund der grossen Zahl der Beispiele, mit denen es gelernt hat, ein grosses Beharrungsvermögen, und eine kleine Zahl zusätzlicher Bilder reicht nicht aus, eine nennenswerte Änderung herbeizuführen – das wäre ein Tropfen auf den heissen Stein.
KR: Es gäbe dann auch keine Kontrolle darüber, wie die Trainingsdaten geartet sind und ob sie sich für diesen Zweck überhaupt eignen. Wir brauchen zum Beispiel eine gewisse Varianz, und wenn sich die Bilder zu ähnlich sind, funktioniert es nicht. Der Anwender benötigte dazu eine gewisse Expertise auf diesem Gebiet, aber der Sinn des Produkts liegt ja gerade darin, dass ein Anwender den Nutzen der KI hat, ohne sich damit selbst auskennen zu müssen.
TK: Beim Deep Learning steht und fällt alles mit einer mathematischen Repräsentation des Problems, das zu lösen ist. Wenn ich zum Beispiel Personen erkennen will, ist klar, dass es nicht um Farben und Tonwerte geht – es gibt Kleidung in allen möglichen Farben und unterschiedlich helle Haut. Entscheidend ist vielmehr die Form des menschlichen Körpers, die zu erkennen ist, also Kanten und Ecken, und die kann ich mathematisch beschreiben. Dies erlernt ein neuronales Netz während eines sogenannten Trainings, für das neben vielen repräsentativen Daten vor allem spezielle Hardware (Grafikprozessoren) benötigt wird. Das gesamte System mit seinen zig Millionen Parametern wird man nicht beim Kunden lernen lassen können. Kleine Optimierungen wären aber durchaus möglich.
MJH: Wie intelligent ist die künstliche Intelligenz denn bereits?
TK: Vor ein paar Wochen sprach ich mit einer Journalistin, die einen Leitartikel über künstliche Intelligenz schreiben wollte, und sie fragte, ob das denn wirklich Intelligenz sei. Ich sagte ihr, dass ich den Begriff gar nicht so mag. KI, das waren früher wissensbasierte Systeme, die auf Wenn-dann-Regeln beruhen – so war es während meines Studiums in Bielefeld. Auch IBMs Watson war ursprünglich ein wissensbasiertes System, das mit einer grossen Menge von Regeln gefüttert wurde.
Das hat sich inzwischen gedreht und wir arbeiten mit neuronalen Netzen und maschinellem Lernen. Damit können wir eine «schwache KI» verwirklichen, die bestimmte Aufgaben sehr gut erfüllt, teilweise besser als ein Mensch – auch weil sie nicht ermüdet. Aber eine «starke KI», die der menschlichen Intelligenz entspricht, Schlussfolgerungen ziehen, Emotionen verarbeiten und etwas lernen kann, ohne eine Vielzahl von Beispielen auszuwerten, die gibt es bis heute nicht einmal ansatzweise.
Das visuelle System des Menschen ist ziemlich perfekt, und dem hat die KI noch nichts entgegenzusetzen. Ein plakatives Beispiel, das gerne herausgestrichen wird, ist das autonome Fahren. Das ist natürlich beeindruckend, aber erst einmal ist es vor allem eine grossartige Ingenieurleistung. Ausserdem handelt es sich um Multi-Sensor-Systeme, die nicht nur Bilder auswerten. Wenn wir uns allein darauf verlassen würden, dass ein neuronales Netz Personen in Videobildern entdeckt, würde es regelmässig Unfälle geben.
MJH: Es hatte mich auch gewundert, dass Elon Musk erst nach einem tödlichen Unfall mit einem autonom fahrenden Tesla, der einen weissen LKW übersehen hatte, ankündigte, künftig mehr auf Radar setzen zu wollen. Ich war davon ausgegangen, dass autonom fahrende Autos generell eine Kombination von Kameras, Radar und Lidar verwenden würden.
TK: Die Hersteller autonom fahrender Autos sitzen eben vorwiegend im Silicon Valley – da ist immer gutes Wetter. Aber stellen wir uns ein Auto vor, das sich in der Rush Hour im Hamburger Schmuddelwetter bewegen soll, zwischen Fussgängern und Fahrradfahrern – da müsste man auf Radar setzen, und diese Sensoren arbeiten heutzutage sehr gut. Der Weg, der zum Ziel führt, wird ein multi-modales Multi-Sensor-System sein.
Das menschliche Sehvermögen, ist noch immer unerreicht. Wir bekommen Feedback, in dem die Leute fragen, warum unser System etwa einen Hund nicht erkennt: «Den erkenne ich doch auch». Aber was für uns trivial ist, muss es nicht auch für die KI sein.
Man kann mit KI fraglos tolle Produkte entwickeln, Assistenzsysteme, die einen Nutzen haben und Mehrwert generieren, und davon werden wir auch immer mehr sehen. Es ist aber ein Hype; momentan schreibt sich jeder «KI» auf die Fahne, und ob da wirklich KI drin ist, das ist den Leuten egal. In der letzten Zeit liest man aber auch öfter von Fällen, in denen die KI eine Bauchlandung hingelegt hat. Selbst grosse Firmen wie IBM mussten einsehen, dass es nicht so einfach ist, wie man sich das vorgestellt hatte. Dann kommt auch mal ein kritisches Echo, und das völlig zu Recht.
Es gibt viele Anwendungsfälle, in denen KI Sinn macht und Mehrwert generiert. Allerdings sollten die Aufgabenstellungen realistisch angegangen werden. Nur eine Menge Daten in das System stecken und auf einen Knopf drücken, funktioniert vielleicht für triviale Problemstellungen, aber eben noch lange nicht bei den wirklich schwierigen Herausforderungen.
Man sollte vielleicht auch nicht versuchen, den Arzt, der Befunde untersucht, durch ein KI-System zu ersetzen. Nützlicher wäre es, ihn zu assistieren und auf Dinge aufmerksam zu machen, die er vielleicht aufgrund von Übermüdung übersehen hat.
Die Gesprächspartner
Dr. Thomas Käster hat an der Universität Bielefeld Informatik studiert und dort 2005 über «Inhaltsbasierte Bildersuche» promoviert. Der Informatiker ist auf die The-men Computer Vision, Muster-erkennung sowie maschinelles Lernen spezialisiert und ist Chief Technology Officer der PRC GmbH.
Kai Röhr hat in Lübeck Informatik studiert und im Mai 2016 seinen Master in Informatik an der Universität zu Lübeck gemacht. Seit 2011 ist er zunächst Werkstudent und seit Mai 2016 KI-Ingenieur bei der PRC GmbH, spezia-lisiert auf Computer Vision, maschinelles Lernen und Deep Learning.
DOCMA kennenlernen
Dieser Artikel ist erstmals in der Fachzeitschrift DOCMA erschienen. DOCMA erscheint alle zwei Monate und richtet sich an Fotografen, Bildbearbeiter sowie Grafiker, die wissen wollen, was mit Hilfe von Bildbearbeitungsprogrammen wie Photoshop technisch machbar ist und vor allem wie es geht.
DOCMA ist für CHF 16.90 am Kiosk erhältlich. Oder bestellen Sie gleich ein Jahresabo für CHF 88.20 statt CHF 101.40 im Einzelverkauf.
-
Autor
Michael J. Hussmann
- Rubrik Imaging
- Dossier: Publisher 1-2019
Kommentieren