Das Geheimnis hinter der genausten Essenserkennung

Die Erkennung ist das Herzstück eines jeden autonomen Self-Checkout Systems. Um eine Erkennungsrate von bis zu 100% zu erreichen, setzen manche auf RFID Chips und große Umrüstungen. Doch das ist heute nicht mehr nötig! In diesem Beitrag verraten wir, wie auch mit Bilderkennung solche Erkennungsraten erreicht werden können.

Bilderkennung - Was ist das eigentlich?

Bei der Bilderkennung geht es darum, dass Computer Objekte auf Bildern identifizieren können. Auch wenn das uns Menschen schon früh sehr leichtfällt, ist es ein höchst komplexes Vorhaben, diese Fähigkeit auf Maschinen zu übertragen. Durch immer leistungsstärkere Computer ist es inzwischen aber möglich, dass mit Hilfe von künstlicher Intelligenz Objekte auf Bildern zuverlässig erkannt werden. Der Schlüssel dazu sind große Datenmengen, anhand derer der Computer „lernt“, wie Gegenstände grundsätzlich aussehen. Dieser Lernprozess geschieht mit Hilfe eines so genannten Algorithmus, also einer sehr langen mathematischen Gleichung.
Je mehr Daten in diese Gleichung einfließen, desto genauer ist sie. Ist der Lernvorgang abgeschlossen, können gute Bilderkennungsalgorithmen Gegenstände schon mit Hilfe eines einzigen Bildes erkennen (Mehr dazu erfahren Sie in unserem Blogbeitrag “Einlernen in nur einem Bild?”).

KI ist nicht gleich KI

Entscheidend dafür, wie gut die Erkennung letzten Endes funktioniert, ist die Art der Bildverarbeitung, also wie die Informationen, die in jedem Bild stecken (Farben, Größe, Formen) verwertet werden. Grundsätzlich gilt: Je spezifischer die Information ist, desto nützlicher ist sie. Wir haben unseren Prozess dahingehend optimiert, dass nur die für die Erkennung relevanten Informationen verwertet werden. Als einzige Lösung am Markt wenden wir eine pixelgenaue Segmentierung an, die Hintergründe und Störelemente schon während des Einlernens herausfiltert und daher nicht in der Erkennung berücksichtigt. So können sie die Gleichung nicht verzerren.

Pixelgenaue Segmentierung - Die Wunderwaffe

Doch wie funktioniert die pixelgenaue Segmentierung und was unterscheidet sie von den anderen Erkennungsalgorithmen am Markt? Wie bereits erwähnt, verwendet eine pixelgenaue Segmentierung nur die für die Erkennung relevanten Bereiche des Bildes. Wie das in der Praxis aussieht, erklären diese Bilder:
Das Original
Bildverarbeitung mit Bounding Boxen
Segmentierung des visioncheckouts

In der pink hinterlegten Maske liegen die Bereiche, die für die Erkennung berücksichtigt werden. Alles was sich auf dem 2. Bild innerhalb der Box befindet, fließt in die Erkennung ein. Oft funktioniert das, da der zu erkennende Gegenstand den größten Teil der Box ausmacht. Es gibt aber auch eine Vielzahl an Fällen, in denen die Boxen keine zufriedenstellende Erkennung liefern.
Anders funktioniert es auf dem dritten Bild, bei der pixelgenauen Segmentierung. Bei dieser Art der Bildverarbeitung wird keine starre Box um die Objekte gezogen. Anstatt dessen berechnet die KI passgenaue Masken, die die zu erkennenden Artikel umrahmen. So entstehen keine Überlappungen und jeder Artikel kann sicher und zuverlässig erkannt werden. Anhand einiger Beispiele werden die Unterschiede der beiden Arten der Bildverarbeitung sowie deren Konsequenzen deutlich.

Sich überlagernde Boxen

Die leckere Rhabarberschorle, ein Salatdressing und dann vielleicht doch noch ein Dessert oder ein Stück Obst? Je voller das Tablett wird, desto häufiger passiert es, dass die Boxen um die einzelnen Artikel sich überlagern. So werden Beilagen und kleinere Artikel schnell übersehen und nicht in das Kassensystem gebucht. Auf Dauer werden diese Fehler teuer! Mit Hilfe unserer pixelgenauen Erkennung können einzelne Artikel nicht in den Erkennungsbereich anderer Objekte hineinragen. Damit werden selbst Ketchuptütchen erkannt, die zur Hälfte noch unter dem Tellerrand liegen.

Unterschiedliche Hintergründe

Es muss schnell gehen, man hat ja ohnehin nur einen Teller oder man hat es schlicht vergessen. Dass ein Gast ohne Tablett an die Kasse kommt, ist schnell passiert und sollte für die Erkennung kein Problem darstellen. Allerdings ist es so: je mehr Hintergrund in die Erkennung mit einfließt, desto wichtiger ist es, dass der Hintergrund genauso aussieht wie auf dem Bild, das zum Einlernen gemacht wurde. Da bei der pixelgenauen Segmentierung kein Hintergrund mit in die Erkennung einfließt, stellen diese Fälle für den visioncheckout kein Problem dar.

Unterschiedliche Portionsgrößen

Unterschiedlich große Portionen gehören in vielen Betriebsrestaurants zum Standard und werden von Gästen gerne angenommen. Damit die KI die verschiedenen Portions- oder Flaschengrößen unterscheiden kann, muss sie auf die Größe der erstellten Masken zurückgreifen und darüber auf die Größe des Artikels schließen. Das Problem: Je nach Ausrichtung des Artikels ändert sich die Größe der Box, die um ihn gezogen wird.
Wenn die Maske um den Artikel nicht von dessen Ausrichtung beeinflusst wird, sondern sich genau um seine Umrisse legt, können unterschiedliche Portionsgrößen zuverlässig mit Hilfe von künstlicher Intelligenz erkannt werden.

Immer auf dem neuesten Stand

Schon gespannt was als nächstes kommt? Einfach unseren Newsletter abonnieren und neue Blogbeiträge direkt ins Postfach bekommen.

Interesse am visioncheckout?

Wir freuen uns, mit Ihnen in Kontakt zu treten! Schreiben Sie uns gerne eine Nachricht oder buchen Sie eine Live-Demo.