Computer Vision und Echtzeit-Objekterkennung mit akustischen Unterwassermodems - Was wir von Delfinen für IoT lernen können

E-Scooter auf dem Grund des Rheins ausfindig machen? Dank autonomer Echtzeit-Unterwasserroboter ist das ab sofort kein Problem mehr. Auch verschollene Personen, Öl und Gas, alte Munition oder vermisste Fischereinetze können mithilfe intelligenter Roboter, Schallakustik und smarter Auswertungsverfahren einfacher und schneller gefunden werden – auch Fischpopulationen sind leicht gezählt. Objekterkennung (Unterwasser), Künstliche Intelligenz wie Computer Vision : Um diese Themen dreht sich die 53. Folge des IIoT Use Case Podcast.

Zusammenfassung der Podcastfolge

Stephan Schiffner (CTO, Steadforce) entwickelt mit Steadforce derartige digitale Lösungen und Plattformen. Sie sind skalierbar, sicher und nachhaltig – so wie die für Unterwasserexperten EvoLogics GmbH. Eine große Herausforderung in dieser Podcastfolge: Im Wasser ist nur eine Datenrate- und übertragung weniger Kilobits pro Sekunde möglich. Philipp Bannasch (Teamleiter Sensorintegration, EvoLogics) berichtet davon, wie die Herausforderungen der Datenübertragung gemeistert werden, wie die Steadforce-Lösung den Anwendern bei der Bildauswertung das Leben erleichtert und Workflows automatisiert werden. Wie das Ganze im Detail funktioniert, wird in dieser Podcastfolge auf den Punkt gebracht. Eher Lust zu lesen?

Kein Problem: Hier gibt´s den Use Case zum Nachlesen.

Übrigens: Der Use Case ist übertragbar und auch Überwasser anwendbar!

Wer kann davon profitieren? Unternehmen industrieübergreifend – Automotive, Chemie & Pharma, Metallverarbeitung, Bergbau etc.

Podcast Interview

Heute spreche ich mit Steadforce, dem Entwickler für skalierbare, sichere und nachhaltige digitale Plattformen zum Verbinden von Daten, Diensten und Geräten in Echtzeit mit der zugehörigen Analyse. Heute mit dabei: Ihr Kunde EvoLogics, der Experte für akustische Unterwassermodems. Was das Ganze mit der Datenübertragung nach Delfinart zu tun hat und in welchen innovativen Projekten Steadforce hier unterwegs ist, das erfahrt ihr in diesem Podcast.

Stephan, ich würde das Wort an dich übergeben. Kurz zur Vorstellung zu deiner Person und was ihr bei Steadforce vom Kerngeschäft her genau macht.

Stephan

Mein Name ist Stephan Schiffner. Ich bin aktuell CTO bei Steadforce. Die Rolle habe ich jetzt seit knapp einem Jahr inne, und in den vier, fünf Jahren vorher habe ich bei uns das ganze Thema Analytics und AI aufgebaut, was einer unserer drei Kernbereiche bei Steadforce ist. Wir sind letztlich ein IT-Unternehmen aus München. Wir sind seit 35 Jahren am Markt, das heißt, wir haben schon eine sehr lange Historie und viele Dinge getan. Im Moment fokussieren wir uns vor allen Dingen auf Themen, wo es darum geht, für unsere Kunden Daten zu sammeln, aufzubereiten, nutzbar zu machen, mit Analytics-Methoden, letztlich Mehrwert zu generieren und dann diese Informationen zu nutzen, um Dinge zu automatisieren, Prozesse zu verbessern und zu optimieren. Vom Hintergrund her habe ich Informatik studiert, klassisch Master gemacht, bin auch bereits 15 Jahre bei der Firma, also sehr verwachsen. Zwischendurch war ich auch mal im Bereich vom Geschäftsprozessmanagement aktiv, für ein paar Jahre im Researchbereich. Nebenbei unterrichte ich seit inzwischen zehn Jahren an einer Hochschule im Bereich Softwareengineering und Softwareentwicklung.

Die Bildung zu unterstützen in dem Umfeld, ist natürlich sehr gut. Eine kurze Nachfrage, du hattest gesagt ihr seid mit unterschiedlichen Kunden unterwegs. Ihr habt eine ganz breite Ausrichtung, ob das Vernetzung von Maschinen angeht – das Thema, was wir heute besprechen, auch mit dem Roboterthema –, aber auch ganz unterschiedliche Bereiche, was Fahrzeuganbindung angeht. Wer sind so eure Kunden?

Stephan

Wir haben uns im Prinzip auf drei Branchen fokussiert. Die eine ist alles, was in Richtung Mobilität geht, also beispielsweise BMW, schon historisch bedingt. Dann das ganze Thema Industrie und Produktion. Wir sind auch im Gesundheitswesen schon seit vielen Jahren unterwegs, da zum Beispiel mit Ärztekammern verschiedenster Art in Deutschland.

Philipp, vielleicht stellst du dich auch kurz vor und was euer Kerngeschäft genau ist?

Philipp

Ich bin bei EvoLogics Teamleiter für Sensorintegration, Sensorentwicklung. Wir kommen aus der Bionik, sind ein Spin-off der TU Berlin, könnte man sagen; haben dort starke Wurzeln. Wir haben uns nach einem Forschungsprojekt in einem Bereich der Delfinforschung, Delfinkommunikation gegründet und haben angefangen mit Unterwasser-Kommunikationsgeräten und Positionierungsgeräten. Die basieren also auf den Erkenntnissen, die wir im Forschungsprojekt gewonnen hatten, indem wir die Signale der Tiere analysiert haben und geschaut haben, was die so Tolles machen – sind die besser als die bisherigen Standards? Von da aus sind wir gewachsen und haben uns zu immer mehr und komplexeren Systemen aufgeschwungen. Angefangen bei Sensorbojen und -systemen, also Tsunami-Warnsystemen und vielen Messsystemen, die dann zum Beispiel in Flüssen wie der Elbe versenkt sind. Und dann ging es immer mehr in die Robotik rein. Wir haben Vermessungsfahrzeuge entwickelt, die nun seit mehreren Jahren sehr erfolgreich auf dem Markt sind, und entwickeln immer weiter – auch autonome – Unterwasserfahrzeuge für Vermessung und Forschung. Es geht immer weiter.

Delfinsprache – was ist der Hintergrund dazu? Bionik ist ja ein bestimmter Bereich. Was kann man von der Delfinsprache lernen, was man später auch weiterverarbeiten kann in Richtung Data Analytics, wo kommt das her?

Philipp

Was man von den Delfinen natürlich lernen kann, ist, dass die mit der unglaublich anspruchsvollen Umgebung der Unterwasserkommunikation sehr gut klarkommen. Man muss sehen, unter Wasser ist es sehr schwierig, akustisch zu kommunizieren, weil man sehr viele Störgeräusche hat. Man hat sehr viele Echos und viele Probleme, die das doch sehr herausfordernd macht. Es gibt Sprungschichten, Reflexionen, Beugung, es gibt alles Mögliche – und die Delfine sind sehr clever darin, dass sie zum Beispiel sehr breitbandige Signale verwenden. Sie singen ihre Lieder; die piepen nicht einfach. Viele unserer technischen Geräte bis dahin waren mehr oder weniger dabei, zu morsen, könnte man sagen, oder einfach nur Modulationsverfahren zu verwenden, die über Wasser bei elektromagnetischen Wellen sehr erfolgreich waren. OFDM-Systeme etwa, die aber sehr anfällig sind, wenn es unter Wasser beispielsweise zu Störgeräuschen kommt. Dagegen sind die sehr komplexen Signale der Delfine deutlich robuster, und man kann in schwierigeren Situationen besser damit umgehen.

Schwenk in Richtung der Roboter. Du hattest es gerade schon ein bisschen angesprochen, wie ihr unterwegs seid. Kannst du mal ausführen, wie diese autonomen Roboter, wenn man sie so nennt, genau aussehen? Wo fahren diese? Fahren die auf dem Wasser? Wie funktioniert das genau?

Philipp

Wir haben inzwischen einen kleinen Zoo an Robotern. Zoo trifft es ganz gut. Angefangen haben wir mit dem Sonobot, das ist ein Vermessungsfahrzeug, was auf der Oberfläche von Gewässern fährt. Ursprünglich wurde es entwickelt, um bei Binnengewässern Tiefenkarten zu erstellen, und war hauptsächlich dafür ein Messfahrzeug. Es hat sich inzwischen auch deutlich weiterentwickelt in seinen Einsatzbereichen und seiner Form. Da sind wir inzwischen bei der Generation 5. Dann haben wir auch eine gewisse Sammlung an Unterwasserfahrzeugen, da trifft es wieder unsere bionischen Wurzeln und das Wort Zoo. Wir haben einen Manta-Roboter, der aussieht wie ein Mantarochen. Wir haben Pinguine, zwei verschiedene Sorten momentan. Sehr schnelle kleine und etwas größere im Wasser, die im Schwarm agieren und da sehr gut unterwegs. Wir haben zum Beispiel auch einen kleinen Wal, den Poggy, der auch ein Unterwassermessfahrzeug ist und ganz hervorragend den Sonobot unter Wasser ergänzt. Das sind autonome Fahrzeuge. In naher Zukunft kommt auch ein sogenanntes Remote Operated Vehicle, also ein kabelgebundenes Unterwasserfahrzeug hinzu. Aber wir haben erst mal mit den autonomen angefangen, weil es spannender ist.

Für wen sind diese Roboter eigentlich interessant? Wer sind eure Kunden?

Philipp

Das ist ganz breitbandig. Wir haben angefangen mit bekannten Vermessern, für die zu entwickeln. Das ging dann weiter. Die ersten Kunden kamen aus dem Naturschutzbereich und aus der Unterwasserökologie. Viele kamen dann aus der Forschung und aus Fischereiforschungsinstituten und aus Universitäten. Inzwischen ist auch die Polizei dabei, die Polizei Niederlande zum Beispiel. Munitionsräumer sind dabei; und es entwickelt sich breit – Öl und Gas ist auch wachsend.

Der Use Case in der Praxis

Du hattest vorhin gesagt, man kann einiges von den Delfinen lernen. Sei es Störgeräusche oder Echos, die verarbeitet werden. Was kann man denn jetzt mit diesem Roboter unter Wasser alles erkennen?

Philipp

Sie haben natürlich optische Sensoren an Bord, wie Kameras, sodass es etwas ähnlich aussieht wie Überwasserfahrzeuge zum Untersuchen. Aber unter Wasser spielt die Akustik eine ganz große Rolle, auch akustische Sensoren. Da geht es dann um verschiedene Sonare, die versuchen, Bilder zu erzeugen, zum Beispiel von Unterwasserkarten. Als bildgebendes Verfahren ist dort das Seitensichtsonar das Wesentliche. Im Seitensichtsonar kann man viele Dinge erkennen, die auch mit dem Auge zu erkennen sind; das sieht auch ziemlich ähnlich aus. Wenn man sich Seitensichtsonarbilder anschaut, sehen einige Objekte schon sehr klar erkennbar aus. Aber es gibt natürlich auch große Unterschiede zu dem, wie ein normales Bild entsteht. Dinge werden sehr stark verzerrt, es fehlen viele Informationen, und vieles hängt davon ab, dass man den Sensor auf genau die richtige Art und Weise einsetzt – im richtigen Winkel, mit dem richtigen Abstand – und dass dann alles passt. Dann kann man auch sehr schöne Bilder bekommen.

Wir sprechen heute mit Steadforce gemeinsam über euer Projekt. Da geht es im weitesten Sinne um das Thema IIoT beziehungsweise Digitalisierung. Was ist hier eure Vision in Richtung der autonomen Roboter oder Fahrzeuge, die ihr entwickelt habt? Was lassen sich da für Potenziale heben? Was ist vielleicht auch eure Gesamtvision?

Philipp

Grundsätzlich ist es so, dass die Fahrzeuge sehr viel cleverer werden müssen. Man muss sich vorstellen, Unterwasserfahrzeuge sind ein bisschen wie Fahrzeuge auf dem Mars, von ihrer Umgebung her. Also auch, wenn man berechnet, mit der Schallgeschwindigkeit, und wie lange Kommunikation dauert – es gibt ja keine elektromagnetischen Wellen unter Wasser, Funken ist dort nicht, das heißt alles läuft über Schall; Positionierung läuft über Schall. Dann dauert eine Kommunikation, wenn ein Fahrzeug schon ein bisschen weiter weg ist, schnell mal mehrere Sekunden lang. Die Bandbreite ist nicht sonderlich hoch, man kann nicht viel übertragen, es gibt kein GPS in der Umgebung. Das heißt, man muss hier Fahrzeuge haben, die möglichst autonom Sachen erkennen und auch clever agieren können. Da haben wir jetzt mit Steadforce einen Einstieg in ein sehr spannendes Pilotprojekt gefunden, wo wir mit der Polizei Niederlande zusammengearbeitet haben, um vermisste Personen zu finden. Die suchen also nach ertrunkenen Menschen. Wir haben gesagt, das klingt erst mal gruselig, aber es ist sehr wichtig, diese zu finden. Das ist oft erstaunlich schwierig, muss man sagen. Das ist sehr herausfordernd, man sitzt oft über Stunden am Bildschirm und macht Messungen mit Sonaren, um die Person zu finden, und muss sich da sehr konzentrieren. Es ist oft sehr anspruchsvoll, unter Druck natürlich auch. Da haben wir gesagt, wir müssen hier besser werden. Wir müssen erstens Operatoren dabei helfen, Erfahrungen dauerhaft zu sammeln, und nicht nur einzelne Cracks zu haben, die die Bilder analysieren können. So ein Sonarbild ist ja oft wie ein Computer-MRT – wenn man viel Erfahrung und Schulung hat, kann man es erkennen, aber auch nicht immer auf Anhieb. Und bei dieser stundenlangen Konzentration brauchen wir ein System, das einem über die Schulter schaut und einfach mal sagt, hier, das ist etwas Spannendes, guck dir das mal genauer an. Ist das vielleicht das, was du suchst? Das war unser Einstiegsprojekt mit Steadforce in diese Welt.

Es gibt einen Operator; es sind Stunden, die vor dem Bildschirm verbracht werden, um diese Dinge auszuwerten. Wenn ich mir das Ganze mal in der Praxis vorstelle – wir haben jetzt leider kein Bild vor Augen, aber vielleicht können wir das mal so ein bisschen virtuell erschaffen. Das heißt, einer eurer Mitarbeiter sitzt sozusagen vor Ort am Laptop, bekommt diese Daten live zugespielt? Oder wie muss man sich das vorstellen?

Philipp

Nein, das macht die Polizei selber. In der Vergangenheit war es so, dass die immer mit einem größeren Boot rausgefahren sind. Inzwischen ist es so, dass wir das auch mit unserem Sonobot machen können und in naher Zukunft auch mit den Unterwasserfahrzeugen. Es läuft jetzt darauf hinaus, dass die im Wesentlichen einen Kurs eingeben, ein Suchmuster; das Fahrzeug fährt dann einen Suchbereich ab und informiert den Operator, wenn es etwas Interessantes gefunden hat. Der schaut natürlich die ganze Zeit schon auf den Bildschirm, was da so zu sehen ist, denn er muss das ja auch kontrollieren und ist ja auch sehr gespannt. Aber im Endeffekt werden alle wichtigen Dinge, die wir erkennen oder die das neuronale Netz erkennt, dann gehighlightet und dann herausgestellt, inzwischen auch gruppiert. Dann kann der Operator diese Objekte ganz speziell wieder anfahren, analysieren, da noch mal einen Kurs drüber setzen, in verschiedenen Abständen, ist das hier wirklich das Spannende? Und dann direkt auch mit dem Fahrzeug die Position markieren, sodass der Taucher reinspringen und das Objekt bergen oder untersuchen kann.

Es geht ja jetzt irgendwo um das Training sogenannter neuronaler Netze – ich muss diese Objekterkennung ein Stück weit automatisierter machen. Kurze Frage, bevor ich zu dem Thema komme, du hattest schon ein paar Herausforderungen angesprochen. Das heißt, du hattest gesagt, es gibt kein GPS, es geht um Bandbreiten. Kannst du mich und die Hörer abholen, was die Herausforderung in Richtung der Datenübertragung ist?

Philipp

Unterwasserkommunikation – wenn man Fahrzeuge hat, die unter Wasser fahren und mit denen man kommunizieren möchte – ist natürlich akustisch, und akustisch ist die Bandbreite noch beschränkt auf Dimensionen, die wir aus dem Modembereich kennen. Aus der Zeit, wo das Modem am Anfang noch gepiept hat. Das heißt, wir reden hier über ein paar Kilobyte pro Sekunde, nicht über Megabits. Das heißt, wir sind da deutlich eingeschränkt, was die Datenübertragung angeht. Wir können jetzt kein Cloud-Computing machen und sagen, wir übertragen alle Daten an die Oberfläche oder an den Operator und berechnen das irgendwo in der Cloud. Sondern wir müssen das auf dem Fahrzeug selbst berechnen. Außerdem muss man betrachten, dass so ein Seitensichtsonar in wenigen Minuten Gigabyte an Daten produziert. Da sind wir schon bei einem Gigabyte pro Minute, die da herauskommen, je nachdem, wie die Auflösung ist und wie die Einstellungen gesetzt sind. Also da kommen schon einige Daten zusammen und die müssen vor Ort analysiert werden. Die kriegt man auch schlecht über WLAN die ganze Zeit transferiert, in voller Auflösung. Sondern selbst wenn man ein Oberflächenfahrzeug hat, das mit WLAN verbunden ist – das ist ja oft auch in der Entfernung von ein, zwei Kilometern, da kriegt man auch nicht mehr die optimale Bandbreite hin. Und selbst wenn dem so ist, kriegt man auch nicht die vollen Daten in voller Auflösung übertragen, sondern nur Beispiele, dass der Operator zwar sehen kann, was ungefähr passiert. Aber wenn er sich etwas wirklich genau anschauen will, braucht er vorselektierte Daten. Da ist auch das neuronale Netz, was dann sagt, ich suche dir schon mal spannende Bilder und davon die Originaldaten heraus, die übertrage ich dir in höchster Auflösung; wenn du was anderes haben willst, suche ich dir das auch raus. So ist das für die Datenkompression ganz spannend.

Lösungen, Angebote und Services

Stephan, ihr seid der Experte dafür, die Daten aus den einzelnen Geräten oder aus den Robotern mit der Cloud oder mit einem System zu verbinden und diese im nächsten Schritt zu analysieren. Kannst du uns ein bisschen abholen, wie die Lösung insgesamt aussieht? Ihr habt ja, glaube ich, auch die ganzheitliche Cloud-Plattform, die ihr mitbringt? Wie funktioniert das in der Praxis?

Stephan

Wir haben im Prinzip verschiedene Komponenten in diesem Gesamtsystem. Philipp hat es ja schon ein bisschen angedeutet, das sind sehr große Datenmengen. Das heißt, das Modelltraining selber kann nicht auf dem Sonobot stattfinden, sondern dafür haben wir eine Infrastruktur aufgebaut, die in der Cloud läuft, die auch skalieren kann, damit man dann – weil ja auch mehrere Endkunden auf dieses Portal zugreifen wollen –mehrere verschiedene Modelle gleichzeitig trainieren kann. Die andere Baustelle ist, dass wir auf dem BOT selber das trainierte Modell zum Laufen bringen müssen, und da natürlich auch die Bilder verarbeiten, um die Informationen zu identifizieren – also wo könnte so ein gesuchtes Objekt sein? – und das dann wiederum übertragen in Richtung Ufer.

Mich interessiert die Praxis noch tiefer. Welche Hardware verwendet man eigentlich unter Wasser? Im Industriekontext kennt man ganz klassisch, ich habe entweder den Sensor an sich oder vielleicht eine Steuerung. Ist das hier auch so oder welche Hardware verwendet man da?

Stephan

Wir haben als Hardware im Sonobot ein Jetson-Board von NVIDIA. Das bringt den Vorteil mit sich, dass es eine GPU mit an Bord hat, was uns natürlich bessere Performance bei der Berechnung gibt. Darauf wiederum laufen verschiedene Services. Einer davon ist der Service, den wir entwickelt haben, für dieses Object Detection Model. Das Ganze ist aber containerisiert, sodass wir da auch zukunftssicher sind. Das heißt, wenn mal ein Wechsel der Hardware ansteht, oder auf andere Modelle, dann können wir das hier relativ plattformneutral übertragen.

Philipp

Genau. Die ganze Sache muss natürlich modularisiert sein, dass man mitwachsen kann mit dem, was da an technischen Entwicklungen passiert. Gerade im Bereich dieser neuronalen Netze, des Deep Learnings und der ganzen Grafikanalysen passiert natürlich unglaublich viel. Da entwickeln sich die Algorithmen, da entwickelt sich aber auch die Hardware sehr. Da lohnt es sich gerade, am Puls der Zeit zu bleiben und die Hardware technisch immer wieder mit zu aktualisieren. Grundsätzlich ist es aber so, dass die Fahrzeuge intern ohnehin sehr modular aufgebaut sind, damit wir die einzelnen Komponenten auch immer einzeln unter Kontrolle haben und das alles gut läuft. Auch, weil wir überlegen, unsere Komponenten dem Kunden einzeln zur Verfügung zu stellen. An der Stelle sind wir aber momentan bei NVIDIA.

An diesem NVIDIA-Board hängt dann die Kamera, oder ein Sensor, und das ist die Hardware, wo diese Daten, die du vorhin angesprochen hattest – akustische Signale oder Sonstiges –, und der ganze Input zusammenlaufen?

Philipp

Ja, dort wird es verarbeitet. Grundsätzlich hängt das Board im Netzwerk. Das ist intern ein Ethernet-Netzwerk, wo verschiedene Komponenten zusammenspielen, und die Seitensichtsonardaten werden einerseits auf unserem Prozessor verarbeitet, der extra dafür da ist, und andererseits auch dem NVIDIA-Board zur Verfügung gestellt. Das sind mehrere Daten, die da im Netz hängen. Grundsätzlich sind Kameras direkt mit dem NVIDIA-Board verbunden, je nachdem, welche das sind – aber das sind andere Kameras, die nur für die Fahrt zuständig und mit anderen Komponenten verbunden sind.

Stimmt, ich hatte dieses Wort Seitensichtsonar vergessen. Genau, das ist ja im Endeffekt das, was die Daten aufnimmt, nicht?

Philipp

Genau, so kann man es sagen.

Jetzt hatten wir schon öfter über dieses Thema Neuronale Netze und das Training der Daten gesprochen. Stephan, kannst du uns mal abholen, wie funktioniert dieses Training der Daten und der einzelnen Modelle überhaupt? Habt ihr schon alle Daten verfügbar? Was muss ich tun, um das zu machen?

Stephan

Daten sind natürlich generell beim Training neuronaler Netze ein wichtiger Aspekt. Desto mehr Daten man hat, umso besser. Jetzt kann man sich natürlich vorstellen, wenn man nach vermissten Personen sucht, dass da das Datenmaterial nicht allzu groß ist, was einem direkt zur Verfügung steht. Wie ich es während des Projekts gelernt habe, gibt es da auch Unterschiede zwischen den Sonargeräten – das heißt, ich kann nicht einfach Bilder von einem Gerät zum anderen schicken. Die sehen unterschiedlich aus, wie die ankommen. Da haben wir uns überlegen müssen, wie können wir da herangehen, um an entsprechendes Datenmaterial überhaupt mal zu kommen und dann aber auch mit dem nicht groß verfügbaren Datenmaterial trotzdem zu einem Modell zu kommen, was die erforderliche Genauigkeit hat und die Funktionalität liefern kann. Da sind wir verschiedene Ansätze gefahren. Der eine Punkt geht in Richtung, das nehmen, was schon da ist. Richtung vergangener Survey-Missionen. Aber wir sind zum Beispiel auch mal an einen See rausgefahren, da durfte ich zum ersten Mal den Sonobot in Aktion sehen. Da haben wir einfach mal Testdaten selber erstellt – mit Philipp, der hier als Taucher aktiv war und unsere vermisste Person gespielt hat – und dann aus verschiedenen Lagen Bilder aufgenommen, mit denen man hinterher trainieren kann. Dann habe ich als dritten Schritt noch die Möglichkeit, wenn ich diese Bilder habe, das Material mit verschiedenen Datenaugmentierungs-Techniken künstlich zu vergrößern. Zum Beispiel, die Bilder zu drehen oder anders einzufärben, damit es eine unterschiedliche Ausgangsbasis für das Training gibt.

Immer mit dem Ziel, dass man dem Operator, also dem Kunden, einen Zugriff gibt, dass diese Daten im Endeffekt eingeordnet werden und zur Objekterkennung dienen? Dass man sagt, so sollte es sein, also diese Wenn-Dann-Beziehung herzustellen: Wenn das so aussieht, dann ist das vermutlich, beispielsweise, ein Mensch oder ein anderes Objekt. Das ist im Endeffekt das Ziel dahinter, oder?

Stephan

Ich habe im Prinzip zwei Aufgaben. Das eine ist, überhaupt einmal zu erkennen, ist auf dem Bild ein Objekt? Und wenn ja, ist dies das Objekt, was ich suche? Also das zu klassifizieren. Ein weiterer Punkt – wir hatten bereits kurz erwähnt, das ist erst einmal eine kleine Datenmenge, doch wir wissen, wir brauchen aber relativ viele Daten, um das Modell überhaupt zu trainieren. Dabei war der Ansatzpunkt, zunächst mal ein Modell zu nehmen, das allgemein für den Use Case Objekterkennung trainiert wurde – also noch völlig unabhängig von Sonardaten oder Personen – und dieses Modell dann im zweiten Schritt feinzutunen, mit den spezifischen Bildern, und das dann auf den jeweiligen Use Case zu trainieren; egal ob das jetzt eine vermisste Personen oder sonst etwas ist, das man sucht.

Das klingt ja erst mal, in Anführungsstrichen, »so einfach«. Was für Kenntnisse brauche ich eigentlich dafür? Philipp, ihr habt, glaube ich, vorher in dem Feld, zumindest was die Daten-Analytics angeht, noch nicht so tief gearbeitet. Stephan, was brauche ich da für Kenntnisse in der Praxis?

Stephan

Da sind natürlich viele verschiedene Kenntnisse gefragt, die für das Gesamtprojekt interessant sind. Das Erste ist ganz klar, ich muss mich mit neuronalen Netzen auskennen; mit den ganzen KI-Methoden, die daran hängen. Welche Ansätze ich da letztlich fahre. Das ist mal die eine Komponente. Über die andere haben wir gerade schon gesprochen, also wie komme ich überhaupt an mein Datenmaterial und was für Möglichkeiten habe ich, um eventuell dieses Datenmaterial künstlich zu vergrößern? Aber ich glaube, was man auch nicht außer Acht lassen darf, ist eben der andere Teil. Dass, selbst wenn ich so ein Modell habe, ich es letztlich auch produktiv bringen muss, also zu einer Lösung, die man dann einsetzen kann. Da sind wir schnell bei den Themen, einmal, wie kann ich das Training in der Cloud aufsetzen? Also diese ganzen Infrastrukturfragen. Auf der anderen Seite aber auch – und das ist natürlich für unsere Kollegen interessant gewesen –, wie kann ich das auf dem Edge-Device zum Laufen bringen, sodass alles performant läuft? Welche Einschränkungen gibt es da?

Philipp, wie war es für euch? Ihr seid ja schon länger mit dem Projekt unterwegs. Aber für euch war das Thema schon auch Neuland, oder?

Philipp

Für uns war das an vielen Stellen Neuland. Wir hatten gerade im Bereich der neuronalen Netze nicht so die wahnsinnige Expertise bisher. Wir wussten, was so ungefähr geht. Das hatten wir bei vielen Partnern und so weiter auch gesehen, und wir arbeiten zum Beispiel viel mit dem Fraunhofer-Institut zusammen. Wir wussten so ungefähr, was die Möglichkeiten sind, und hatten gesagt, wir müssen uns in der Hinsicht entwickeln und da einen Einstieg finden. Für uns war das an vielen Stellen neu, und wir waren sehr glücklich, dass wir mit einem sehr konkreten Ziel, mit einem sehr konkreten Projekt zusammen mit Steadforce da einen Einstieg gefunden haben, und haben unglaublich viel gelernt in der kurzen Zeit. Es ist so, Steadforce hat uns da wahnsinnig unterstützt. Wir haben verschiedenste Algorithmen, die möglich sind, verglichen, um relativ schnell auch zielgerichtet die richtigen auszuwählen und zu sagen, das ist unser Weg. Wir hatten gleichzeitig natürlich unglaublich viele andere Baustellen. Wir mussten ja die Hardware integrieren, wir mussten die entsprechende Software auch mit unserer Fahrzeugsoftware kombinieren – das muss ja zusammenspielen. Auf der anderen Seite mussten wir selber unsere persönlichen neuronalen Netze trainieren, darin, dass wir, wenn wir Daten korrekt erkennen wollen, selber in der Lage sind – erst mal als Menschen –, die richtigen zu markieren. Das war auch schon mal herausfordernd für uns, weil wir jetzt auch nicht die jahrzehntelange Expertise darin haben, Seitensichtsonarbilder für diese spannenden Sachen zu analysieren. Da sind wir sehr dankbar, dass wir unterstützt wurden, zum Beispiel von der Polizei. Da hatten wir viele Baustellen; das war aber durch diese konkrete Zielstellung und durch das sehr gezielte Arbeiten von Steadforce ein ganz hervorragendes Projekt.

Weil wir es gerade schon ansprechen, viele Baustellen, Stephan, du hattest auch gesagt, viele Infrastrukturfragen sowohl auf Edge- als auch auf Cloud-Seite – ich mag ja immer sehr die Praxis. Wenn ich morgen starten will, was bräuchte ich für Komponenten solch einer Lösung? Ich weiß nicht, ob ich das so einfach fragen kann, hast du da so Punkte, wo du sagst, Erstens, Zweitens, Drittens, was brauche ich plus die nächsten Schritte, so Arbeitspakete?

Stephan

Ich denke mal, das absolute Minimum, um überhaupt zu starten, sind die Daten, und zwar in ausreichender Form. Ohne das geht es gar nicht weiter. Und dann muss man natürlich methodisch rangehen, welches Modell kann ich trainieren, wie kann ich eine Trainingspipeline aufbauen, damit das Ganze auch reproduzierbar abläuft? Wenn wir das haben, kommen die nächsten Schritte – wo kann ich das laufen lassen und wie kann ich das in eine produktive Anwendung überführen?

Philipp, jetzt die Frage in deine Richtung, in die Praxis, was habt ihr für Komponenten gebraucht?

Philipp

Klar, alles steht und fällt mit den Daten, und zwar neben den richtigen Daten auch solche, die so ähnlich aussehen und keine Objekte sind. Das ist ja dann auch immer die andere Sache, dass man nicht nur Objekte finden muss, sondern auch viele Dinge, die keine Objekte sind, aussortieren muss. Diese Datenstruktur war mit eine der größten Herausforderungen. Und wir brauchten am Anfang wirklich einen Schubs und eine Expertise darin, womit wir anfangen. Inzwischen haben wir unser Team auch selbst erweitert; wir stehen weiter in regem Kontakt, aber sind inzwischen auch sattelfest in dem Thema, würde ich sagen.

Du hattest auch am Anfang gesagt, ihr habt auch verschiedene andere Kunden. Ob das jetzt Vermesser sind oder Naturschutzinstitute, bis hin zu Fischereien. Das sind ja häufig wahrscheinlich ähnliche Themen. Das sind natürlich auch noch Themen, die auf euch zukommen in die Richtung, oder?

Philipp

Für uns kommt unglaublich viel auf uns zu. Wir haben das grundsätzlich auch so gebaut, dass wir nicht unbedingt fixiert sind auf diese Objekte, und schon gar nicht unbedingt auf Seitensichtsonare. Wir wollen einerseits mithilfe des Sonars noch weitere Objekte finden. Andererseits laufen diese neuronalen Netze bei uns jetzt aber auch schon auf Videobildern, und damit können wir zum Beispiel bei Fischfarmen Fischbestände zählen und haben dort einen Einstieg gefunden. Andererseits, basierend auf den Erkenntnissen aus solchen Detektion, ist das Nächste, dass wir sagen, die Fahrzeuge müssen darauf reagieren – automatisch bestimmte Objekte anfahren; ein Objekt, was im Seitensichtsonar detektiert wurde, muss im Video verifiziert werden. Dann muss entsprechend eine Reaktion erfolgen. Also da ist ein Anschluss an ganz viele Themen, die uns jetzt smarter machen, auf dem Markt, und uns die Möglichkeit geben, zu sagen, jetzt haben wir wirklich clevere Roboter, und nicht einfach nur Roboter, die einen Kurs fahren können.

Ergebnisse, Geschäftsmodelle und Best Practices

Du hast mir die perfekte Überleitung gegeben. Smarter werden am Markt beziehungsweise diese Marktposition halten ist mein Stichwort. Ich wollte nämlich noch fragen, nach den Geschäftsmodellen beziehungsweise auch den Ergebnissen, vielleicht auch wirklich eine Business-Case-Betrachtung. Das interessiert auch immer viele Hörer. Kannst du uns da mal abholen, was für euch das neue Geschäftsmodell dahinter ist beziehungsweise ein Stück weit auch der Business Case? Was habt ihr davon unterm Strich?

Philipp

Das sind gleich mehrere Geschäftsmodelle, die sich da für uns auftun. Die eine Sache ist, dass das Fahrzeug grundsätzlich cleverer ist und verschiedene Aufgaben selbstständig erfüllen kann – was natürlich ein großer Vorsprung ist gegenüber der Konkurrenz an vielen Stellen. Wenn das Fahrzeug selbstständig bestimmte Objekte erkennen kann, verifizieren kann, den Kurs so setzen kann, dass es das wirklich analysiert, um dann zu sagen, das ist etwas, dann kann es schon viel, was zahlreiche andere Fahrzeuge nicht können. Damit ist es ein direktes Verkaufsargument für das Fahrzeug. Da geht es um vieles. Einerseits im Bereich der Personensuche, was natürlich auch schon ein breites Feld ist. Dann geht es um Sicherheitsaspekte, ökologische Aspekte: das Auffinden verschollener Fischernetze beispielsweise ist oft ein sehr großes Thema. Das Auffinden gefährlicher Gegenstände. Es gibt unglaublich viel an alter Munition und Gefahrenstoffen in Nord- und Ostsee und auch in unseren Binnengewässern, die man finden und räumen muss. Da ist momentan jede technische Entwicklung sehr willkommen, um dort einfach diese Gefahren langsam mal zu beseitigen, die immer drängender werden. Da sehen wir sehr viel Anwendungspotenzial.

Und man sieht auch in Bereichen, wie zum Beispiel Fischfarmen und Fischezählen und so weiter, dass das auch weit darüber hinaus wächst, als nur im Fahrzeug einzelne Objekte zu entdecken. Sondern dass das grundsätzlich eine Technologieentwicklung ist, die uns weiterhilft.

Ich wollte gerade sagen, die Fischindustrie ist ja ebenfalls groß. Da ist wahnsinnig viel Potenzial. Wir haben bei uns im Netzwerk auch ein paar Themen und Projekte, die genau in solche Richtungen gehen. Es scheint auf jeden Fall einen Bedarf dazu geben, solche Industrien zu digitalisieren, da immer smarter zu werden und vielleicht neue Geschäftsopportunitäten aufzutun.

Stephan, Frage an dich, ihr seid ja mit unterschiedlichsten Kunden unterwegs, wie du am Anfang gesagt hast. Ist das so ein Geschäftsmodell, eine Entwicklung, die du häufig auch in anderen Projekten siehst? Ich denke so ein bisschen daran: das ist jetzt ein Projekt aus der Praxis, das wir diskutiert haben; aber kann man das übertragen? Siehst du solche Themen ähnlicher Natur auch woanders?

Stephan

Ich denke, ja, übertragen lässt sich das auf jeden Fall auch in andere Branchen und Bereiche. Wenn wir im Industrial-IoT-Podcast sind, kann man sich natürlich vorstellen, dass das auch in Richtung Industrie übertragbar ist. Ob ich jetzt Fische zähle oder ob ich vielleicht Ergebnisse zähle, die aus meiner Produktion herauskommen; generell natürlich Computervision-Methoden, auch etwa im Bereich der Qualitätssicherung, sind da denkbar. Ich glaube ganz grundsätzlich, mal unabhängig von Computervision, sind die ganzen KI-Themen, egal ob es in den Bereich Natural Language Processing reingeht, wo wir auch einige Dinge machen, oder auch einfach in der Analyse von Prozessdaten: das wird ein immer wichtigerer Baustein, um da auch wettbewerbsfähig zu bleiben.

Übertragbarkeit, Skalierung und Nächste Schritte

Was ich in vielen Projekten sehe, ist das gefühlt von der Technologie her immer ein ähnlicher Ansatz. Zum Beispiel, ich würde diese Fischindustrie auch mal bei uns im Bereich Nahrungs- und Genussmittelindustrie mit reinzählen. Gefühlt, was ihr beschrieben habt, mit der Datenaufnahme: ihr fahrt raus auf dem Boot, diese Testdaten erst mal haben – Copy/Paste eigentlich das Gleiche in der Produktion, oder? Wenn ich solche Prozesse auch in anderen Bereichen habe, ist es ja immer ähnlich? Ich brauche Daten, die Daten müssen aufgenommen werden – dass sind immer ähnliche Szenarien, oder?

Stephan

Die Szenarien sind ähnlich. Die Herausforderung, das hängt natürlich schwer davon ab, was sind das für Bilder, was möchte ich mit denen tun? Von daher kann das natürlich unterschiedlich komplex sein. Aber das Konzept ist definitiv übertragbar, ja.

Ich danke euch für diesen spannenden Einblick in die Praxis. Das war jetzt wirklich von der Delfinsprache her kommend, über das ganze Thema der autonomen Roboter – wie das in der Praxis funktioniert, was für Hardware ich dafür brauche, wie die Connectivity und die Übertragung in der Cloud aussieht, was für Infrastruktur ich dafür brauche – alles einmal besprochen. Das war wirklich ein Rundumschlag, megaspannend. Danke, Stephan und Philipp, dass ihr euch heute die Zeit genommen und aus der Praxis ein bisschen berichtet habt.

Philipp

Vielen Dank für die Einladung. Das hat Freude gemacht.

Stephan

Danke, Madeleine, auch von meiner Seite. Das hat sehr viel Spaß gemacht, und es ist spannend, mal an so etwas teilzunehmen.

Computer Vision und Echtzeit-Objekterkennung mit akustischen Unterwassermodems – Was wir von Delfinen für IoT lernen können

Zusammenfassung der Podcastfolge

Podcast Interview

Der Use Case in der Praxis

Lösungen, Angebote und Services

Ergebnisse, Geschäftsmodelle und Best Practices

Übertragbarkeit, Skalierung und Nächste Schritte

Quicklinks

Begriffserklärung

Kontakt