False Positive
Wissen kompakt: Ein False Positive ist das Ergebnis einer Überprüfung, bei der zu Unrecht (false) eine (positive) Übereinstimmung definierter Kriterien festgestellt wird.
False Positive – falscher Alarm
Ein Brandmelder, der angeht, ohne dass es brennt. Ein Schwangerschaftstest, der eine Schwangerschaft anzeigt, obwohl keine Schwangerschaft vorliegt. Eine E-Mail, die als Spam erkannt wird, obwohl es sich um eine Nachricht von einem Geschäftspartner handelt. Es gibt zahlreiche Beispiele für sogenannte False Positives. Ein False Positive liegt vor, wenn bei einer Überprüfung oder einem Test zu Unrecht (daher: false) eine – meist binäre – Übereinstimmung von Kriterien (daher: positive) erkannt wird, obwohl diese nicht gegeben ist. Oftmals wird in einem solchen Fall von „falschem Alarm“ gesprochen.
Ursachen für False Positives
Da es viele Beispiele für False Positives gibt, kann es auch viele konkrete Ursachen dafür geben. Es ist natürlich ein Unterschied, ob ein Arzt bei einer Ultaschall-Untersuchung eine Anomalie identifiziert, die bei einer Folgeuntersuchung als harmlos eingestuft wird, ob der Bewegungsmelder das Licht im Garten aktiviert, da eine Katze über das Grundstück huscht, oder ob bei einer Unternehmensentscheidung das Stillschweigen der Mitarbeiter als Zustimmung gewertet wird.
Folgende Gründe könnte es für False Positives geben:
- Fehler. Der einfachste Grund ist sicherlich ein Fehler in der Überprüfung. Beispiel: Körperscanner am Flughafen zeigen eine „zu untersuchende“ Stelle an, obwohl sich dort keine (metallischen) Gegenstände befinden.
- Falsche Vergleichswerte. Beispiel: Eine Anforderung hat sich im Laufe einer Entwicklung verändert, die Implementierung wurde angepasst, der Testfall aber nicht. Wird die Implementierung nun gegen einen veralteten Vergleichswert getestet, muss der Test einen Fehler ausweisen.
- Falsche Vergleichszeiträume. Beispiel: Google Analytics – ein Tool, mit dem der Besuch von Webseiten gemessen wird – verschickt einen Report, der auf eine signifikante Reduzierung von Webseitenbesuchern hinweist. Der Report vergleicht wöchentliche Besucher, beachtet aber nicht, dass in der Weihnachtswoche normal ist, dass es weniger Besuche auf einer B2B-Website gibt als in der Woche vor Weihnachten. Es handelt sich also nicht um eine Anomalie, es ist die Regel.
- Warnungen. Beispiel: Das Bundesamt für Sicherheit in der Informationstechnik (BSI) warnt vor Malware, die auf chinesischen Handys vorinstalliert sein könnte.
- Fehlende Eigenschaften. Beispiel: Fehlt ein Herstellerzertifikat, verhindert eine Anti-Virensoftware, dass eine aus dem Internet heruntergeladene Datei installiert wird.
- Vorhandene Eigenschaften. Beispiel: Ein Spamfilter überprüft, ob ein Wort in einer zuzustellenden E-Mail enthalten ist, und verweigert die Auslieferung, sobald es dieses Wort – bspw. „Angebot“ im Betreff – entdeckt. Ob es sich bei der Mail um eine Anfrage eines potenziellen Kunden handelt, ignoriert der Spamfilter. Ähnlich verhält es sich, wenn in der E-Mail Links oder Anhänge auftauchen.
Was würde die Anti-Virensoftware tun, wenn sie wüsste, dass es sich um einen zu installierenden Prototypen aus dem eigenen Unternehmen handelt? Was würde der Spamfilter tun, wenn er wüsste, dass die E-Mail mit einem Link vom privaten Mail-Account des eigenen Geschäftsführers stammt? Oftmals mangelt es den Tools, die Werte und Zeiträume vergleichen, oder Eigenschaften auf ihre Existenz bzw. Nicht-Existenz überprüfen, an Logik (und/oder Wissen). Und das ist vermutlich der häufigste Grund für ein False Positive.
Das Gegenteil von False Positive
Was ist das Gegenteil von False Positive? Am Beispiel eines Spamfilters lässt es sich leicht verdeutlichen.
- False Positive: Eine E-Mail wird fälschlicherweise als Spam deklariert und landet im Spam-Ordner.
Und was ist nun das Gegenteil?
- True Positive: Eine E-Mail wird zu Recht als Spam identifiziert und landet im Spam-Ordner.
- False Negative: Eine Spam-Mail landet nicht im Spam-Filter, sondern im Posteingang. Sie wird zu Unrecht als normale E-Mail eingestuft.
- True Negative: Eine „normale“ Mail wird im Posteingang zugestellt.
Sie können sich das Ganze auch als Quadrant vorstellen:
- „Precison“ und
- „Recall“.
Während „Precision“ die Frage „Wie viele der gefundenen Elemente sind relevant?“ beantwortet, liefert „Recall“ die Antwort auf die Frage „Wie viele relevante Einträge wurden gefunden?“. Es geht also einerseits um den prozentualen Anteil der relevanten Elemente und andererseits um die Vollständigkeit der relevanten Elemente.
In Formeln lässt sich dies wie folgt ausdrücken:
Precision = True Positive / (True Positive + False Positive).
Alternativ könnte man auch sagen: Precision = True Positive / Actual Results
Recall = True Positive / (True Positive + Relevante Elemente).
Alternativ könnte man auch sagen: Recall = True Positive / Predicted Results
Beide Werte lassen sich zum sogenannten F1-Score kombinieren: F1-Score = 2 *((Precision * Recall)/(Precision + Recall))
Beispiel: Stellen Sie sich vor, Google liefert auf eine Suchanfrage 1.000 Antworten, von denen nur 200 relevant sind. 600 weitere Antworten, die relevant sind, werden aber nicht angezeigt. Daraus ergibt sich: Precision = 200/1.000 = 1/5 und Recall = 200/800 = 1/4.
Die Konsequenzen beim False Positive
Ähnlich wie bei der Anzahl der Beispiele und der Anzahl der Gründe, gibt es zahlreiche Konsequenzen beim False Positive. Möglicherweise ist es nicht schlimm, wenn ein Mail fälschlicherweise im Spamfilter landet, möglicherweise kostet Sie das aber einen Neukunden. Wenn ein Softwaretest einen Fehler identifiziert, gilt es diesen zu beseitigen. Da ein False Positive einen Fehler identifiziert, den es in Wirklichkeit aber gar nicht gibt, wäre lediglich der Test anzupassen, so dass beim nächsten Testlauf der Testfall ohne Fehlermeldung durchläuft. Schlimmer wäre ein False Negative, also ein „erfolgreicher“ Test, der einen Fehler übersieht.
Sowohl False Positive als auch False Negative erhöhen die Aufwände in Organisationen, doch die Konsequenzen bei einem False Negative sind oftmals deutlich bedrohlicher. Hier versprechen bessere Testpläne, Testfälle und Testumgebungen Abhilfe.
In der Praxis haben sich viele kleine Funktionen bewährt, um die Konsequenzen bei einem False Positive einzuschränken:
- Der Spamfilter löscht eine Mail nicht direkt, sondern verschiebt sie in eine „Quarantäne“.
- Die Anti-Virensoftware ermöglicht die Installation „auf eigene Gefahr“.
- Banken verschicken Informationen per SMS an Kontoinhaber, um auf Kontobewegungen aufmerksam zu machen.
- Cloud-Anbieter verschicken Notifikationen, sofern es eine Anmeldung in der Cloud von einem „unbekannten“ Gerät gibt.
- …
Nur der Brandmelder lässt sich lediglich stoppen, in dem die Batterien aus dem Produkt entfernt werden. 😉
Hinweise:
Wenn Ihnen der Beitrag gefällt, teilen Sie ihn gerne in Ihrem Netzwerk. Und falls Sie sich für Tipps aus der Praxis interessieren, dann testen Sie unseren beliebten Newsletter mit neuen Beiträgen, Downloads, Empfehlungen und aktuellem Wissen. Vielleicht wird er auch Ihr Lieblings-Newsletter.
Interessanterweise wird häufig im Kontext von Geräten (Beispiel Brandmelder) oder Software (Beispiel Spamfilter) von False Positive gesprochen, doch auch im realen Leben sind sie leicht zu entdecken. Wenn Sie bspw. das BSI besuchen, müssen Sie beim Empfang Ihr Smartphone abgegeben, so dass Sie keine Fotos vor Ort machen und sich keine „sensiblen“ Informationen aneignen können. Vermutlich wollten Sie gar keine Fotos machen und Informationen stehlen, doch der Grundsatz „sicher ist sicher“ ist für eine Behörde wie das BSI wichtiger als Ihr Empfinden bei der Abgabe Ihres Handys. In diesem Fall sind Sie mit Ihrem Handy ein False Positive.
Hier finden Sie weitere Informationen zum F1-Score.
Und hier finden Sie ergänzende Informationen aus unserem t2informatik Blog: