Computer Vision – Wie die Maschine sehen lernt
Computer Vision ist aktuell einer der spannendsten Bereiche der Künstlichen Intelligenz (KI).
Dabei geht es um nicht weniger, als um die Fähigkeit zu sehen. Und zwar mit allen Folgen und Absichten, die auch das menschliche Sehen mit sich bringt.
Der Einsatz von Kameras in Verbindung mit Deep-Learning-Modellen bringt eine Rechenmaschine dazu, das Gesehene zu identifizieren und einzuordnen. Am Ende auch noch darauf zu reagieren und auch entsprechend zu handeln.
Damit ist die Computer Vision ein wichtiger Faktor für die Künstliche Intelligenz. Mehr noch komplettiert sie das Gesamtpaket einer smart agierenden Maschine.
Das heißt, es geht darum, die visuelle Welt zu erkennen und das, was man sieht, zu verstehen.
Aber wie bringt man eine Maschine dazu, die Dinge zu interpretieren? Pixel mit Gesichtern und Gegenständen in einen sinnvollen Zusammenhang zu bringen? Damit aus dem Erfassen ein Erkennen wird?
Inhaltsverzeichnis
Am Anfang war der Pixelpunkt
Die Entwicklung von Computer Vision begann schon in den 50er Jahren. Hier versuchte man bereits, neuronale Netze zu verwenden, um Objekte in einfache Kategorien wie Kreise oder Quadrate zu sortieren. Dabei waren auch die neuronalen Netze ja gerade erst geboren.
Warren McCulloch und Walter Pitts hatten Mitte der 40er Jahre damit begonnen, Verknüpfungen von elementaren Einheiten als eine der Vernetzung von Neuronen auszumachen. Sie bewiesen, dass sich mit diesen alle möglichen logischen Funktionen berechnen lassen könnten. So auch räumliche Mustererkennungen. Schließlich besteht auch die Bilderkennung für den Computer aus einer Anordnung von Pixelpunkten und numerischen Werten, die für Rot-, Grün- oder Blautöne stehen.
In den 50er begannen Informatiker damit, Rechner zu kreieren, die anhand dieser Pixelpunkte zu sinnvollen Ergebnissen kamen. Das heißt, dass sie die Inhalte von Fotos oder Videos erkannten. Damit war Computer Vision geboren.
Den ersten Höhepunkt erfuhr dieser Teilbereich der KI in den 70ern. Aufgrund der intensiven Forschung war es möglich, eine Maschine einen geschrieben Text für Blinde interpretieren zu lassen. Das geschah mit Hilfe der optischen Zeichenerkennung. Dabei war es übrigens egal, ob der Text handschriftlich verfasst oder getippt worden war.
In den 90er kamen dann im Zuge der Verbreitung des Internets die ersten Gesichtserkennungsprogramme auf den Markt. Hierbei war es bereits möglich, bestimmte Personen in Fotos und Videos zu identifizieren.
Die Basis hierfür aber ist immer die gleiche: Die Maschine erkennt das Muster von Pixelpunkten und Werten, nur dass sie inzwischen gelernt hat, sie immer genauer zu interpretieren.
So ist die Genauigkeitsrate für die Objektidentifikation in den letzten zehn Jahren von 50 auf 99 Prozent gestiegen.
Die heutigen Systeme sind in der Erkennung von visuellen Objekten zum Teil sogar schneller als der Mensch selbst. Auch die Reaktion ist schneller. Und genau das macht Computer Vision auch so wertvoll.
Wo wir Computer Vision nutzen können
Computer Vision hilft uns im privaten Bereich, im Beruf oder in der Öffentlichkeit. Überall da, wo es sinnvoll ist, dass Maschinen Gesichter oder Objekte ausmachen können.
Als kleines Beispiel nehmen wir unsere Handykamera und die Funktio,n ein Gesicht scharf und den Hintergrund verschwommen zu zeigen. Das sieht super aus, ist aber nur möglich, weil das Smartphone erkennt, was Gesicht und was Hintergrund ist.
In der smarten Fabrik ist Computer Vision ebenfalls ein sehr wichtiger Bestandteil, der mitunter Leben retten kann. Im Bereich der Sicherheit etwa. Erkennt die smarte Maschine dank der entsprechenden Software, wenn ein Mensch in eine bedrohliche Situation kommt, schaltet sie ab. Und zwar schneller, als ein menschlicher Mitarbeiter hätte reagieren können.
Ebenso bedeutsam ist die smarte Bilderkennung und das Handeln dank Künstlicher Intelligenz, wenn es um das Thema Connected Car und speziell um die Weiterentwicklung des Autonomen Fahrens geht. Die eingebauten Kameras und Sensoren erfassen, dass der vorausfahrende Wagen bremst. So geht in Sekundenschnelle der Bremsvorgang los. Oder noch dramatischer: Das Smart Car erkennt ein Kind, das auf die Straße läuft.
Wie genau funktioniert Computer Vision?
Man unterscheidet bei Computer Vision verschiedene Funktionen, die eine Maschine für uns erfüllen kann:
- Bei der Object Classification wird das visuelle Bild in Kategorien unterteilt. Beispielsweise lernt die Maschine, eine Klassifizierung in “Tier”, “Mensch” oder “Auto” vorzunehmen.
- Object Localization wiederum dient dazu, die Position eines Objektes oder einer Person im Bild auszumachen. Hierbei wird beispielsweise eine „Bounding Box“ möglichst eng um das Objekt gelegt. Daraus kann die Segmentierung erfolgen. Etwa, wenn ein Bild in die Bereiche “Vordergrund” und “Hintergrund” eingeteilt werden soll.
- Die Object Recognition wiederum ist wichtig, wenn es darum geht, die Position eines Objekts in Relation zu setzen. Oder um abzuschätzen, wie weit ein Objekt noch entfernt ist. Das kommt etwa bei der Robotik zum Tragen. Ein Beispiel aus der Praxis ist der Roboterarm, der am Fließband nach bestimmten Objekten greift. Auch bei den Connected Cars ist dieser Bereich wichtig.
- Ebenso bedeutend für die Entwicklung von selbstfahrenden Automobilen ist die Motion Analysis, denn schließlich geht es hier darum, die Bewegungsverfolgung von Personen vorauszusagen.
- Als Letztes wäre noch die Content Based Image Retrieval zu erwähnen. Hier geht es darum, große Datenmengen nach bestimmten Inhalten zu durchkämmen. Damit wäre etwa die Bilderkennung bei der Suche im Internet abgedeckt. Oder die Suche nach Personen auf den Bildern von Überwachungskameras.
Was Computer Vision in Zukunft bringt
Der Mensch ist ein visuell orientiertes Wesen. Bilder wecken Emotionen und lösen Handlungen aus. In den vergangenen Jahrzehnten hat die visuelle Kraft unserer Welt immer stärker zugenommen. Wir nehmen nicht nur Bilder auf, wir stellen sie ins Internet oder wir kommunizieren über Bilder, etwa über Emoticons.
Keine Frage also, dass auch die Maschinen lernen, visuell orientiert zu arbeiten. Künstliche Intelligenz soll ja schließlich ähnlich wie die Intelligenz beim Menschen funktionieren. Ergo nimmt sie Informationen auf, speichert sie und zieht daraus Schlussfolgerungen.
Computer Vision ist nicht nur wichtig, sie wird sich genau wie das Internet der Dinge auch weiterentwickeln. Das liegt zum einen daran, dass Hardware und Software immer besser werden. Und die Welt der mobilen Technologie mit immer mehr Kameras und damit mit Fotos und Videos gesättigt wird.
Darüber hinaus wird auch die dazu benötigte Rechenleistung immer erschwinglicher. Narrowband IoT, Edge AI oder Netze wie 5G erweitern die Chancen, die visuelle Power der KI zu nutzen.