Dissertations-Dokument zu "Novelty detection for multivariate data streams with probabilistic models" online
Die 2022 erfolgreich eingereichte Dissertation mit dem Titel Novelty detection for multivariate data streams with probabilistic models von Christian Gruhl kann jetzt online nachgelesen werden. Und darum geht es:
Das autonome Erkennen unerwarteter Veränderungen in Daten wird als Novelty Detection bezeichnet. Datenströme, die aus den Messwerten mehrerer Sensoren bestehen, bilden dabei oft die Grundlage, um solche Veränderungen erkennen zu können. Konkrete Beispiele solcher Veränderungen umfassen zum Beispiel Herzrhythmusstörungen, Stromausfälle, Unwetter, oder Netzwerkangriffe. Entsprechend können Veränderungen daher sowohl ein System selbst als auch die Umgebung, in der sich ein System befindet, betreffen. In dieser Dissertation werden Verfahren zur Online-Erkennung von Novelties in multivariaten Datenströmen untersucht und die CANDIES Methode vorgestellt. Eine Besonderheit dieser Methode ist die explizite Unterteilung des Eingaberaums eines probabilistischen Modells in verschiedene Regionen – Regionen mit hoher Wahrscheinlichkeitsmasse (HDR) und solche mit geringer Wahrscheinlichkeitsmasse (LDR) – und speziell darauf ausgelegten Erkennungstechniken. Während andere Detektoren in der Regel nur Novelties bzw. Anomalien in LDR erkennen können, ist es mit der CANDIES Methode möglich auch Novelties in HDR zu identifizieren. Daneben bietet sie auch Möglichkeiten mit Konzeptdrift und verrauschten Datenströmen umzugehen. Eine weitere Besonderheit von CANDIES ist das Versändnis von Novelties als Ansammlung von Anomalien, die einen bestimmten Bezug zueinander haben (räumlich oder zeitlich). Ein weiterer Schwerpunkt dieser Arbeit ist außerdem die experimentelle Auswertung von Novelty Detection Algorithmen im Allgemeinen. Dazu wird ein Daten Generator, der Datenströme und Novelties synthetisieren kann, sowie ein neues Evaluierungsmaß FDS, welches speziell auf die Bewertung von Novelty Detection Verfahren ausgelegt ist, vorgestellt. Alle Verfahren, Algorithmen und Werkzeuge, die in dieser Arbeit entwickelt und verwendet wurden, sind darüber hinaus öffentlich und frei verfügbar.