Goldgräberstimmung in der Branche der Snake Oil Dealer – nachdem man den Kunden über die letzten Dekaden kontinuierlich ins Hirn gehämmert hat, dass Security Endpoint-Produkte das Seelenheil sowohl Technologie-gestresster Mitfünfziger, die einmal im Jahr zwischen den Feiertagen ein Update von ihren Sprößlingen installieren lassen, als auch das der Digital Natives in den Coffeeshops und Co-Working Spaces dieser Welt retten wird, ist das neue Geschäftsfeld der Branche nunmehr „sichere KI“.
Achtung Spoiler: Es gibt keine „sichere KI“ und wer etwas anderes behauptet, lügt der potentiziellen Zielgruppe mitten ins Gesicht (oder vertraut darauf, dass die Zielgrupppe oder zumindest die Entscheider als eine Teilmenge dieser als Betriebs- oder Volkswirte so und so keine technische Expertise haben.
Schaut man auf die gängigen Machune Learning (ML)-Modelle, so kristallisieren sich schnell verschiedene Techniken des angreifenden maschinellen Lernens heraus. Je nachdem, auf welchem Detaillevel und von welcher Perspektive man auf die Machine Learning (ML) Modelle schaut, ist die Taxonomie von Angriffe auf ML-Modelle mal mehr und mal weniger komplex.1
Idealiter nähert man sich dem Thema mittels der in der Informationssicherheit allseits bekannten CIA-Triade: Confidentiality (Vertraulichkeit), Integrity (Integrität) und Availability (Verfügbarkeit). Sodann differenziert man noch zwischen prädiktiven oder generativen Modellen und schon kann man den Raum für die verschiedenen Angriffstechniken aufspannen. Die Attack-Vektoren reichen dabei über die gesamte Prozessekette des Entwurfs, Traninings, Testings und Deployments von ML-Modellen. Bezugspunkte der potentieller Angriffe sind sowohl Designschwachstellen in ML-Modellen als auch Schwächen in der Deployment-Umgebung des jeweilgen ML-Modells.
Als gängige Angriffstechniken gelten hierbei die folgenden:
- Umgehungsangriffe (Evasion Attacks)
- Vergriftungsangriffe (Poisoning Attacks)
- Angriffe auf sensible Daten (Sensitive Data Attacks)
- Missbrauchsangriffe (Abuse Attacks)
Bei einem Umgehungsangriff besteht das Ziel des Angreifers darin, Gegenbeispiele zu generieren und diese sodann dem Modell in der Testphase „unterzuschieben“, um sodann mit deren Hilfe im produktiven Arbeitsumfeld das vom Angreifer gewünschte Klassifizierungsergebnis zu erreichen.
Bei Poisoning Attacks „vergiftet“ der Angreifer die Trainingsdaten, mittels derer sodann das anvisierte Lernmodell trainiert werden soll. Auf diese Weise kann der Angreifer das Modell dazu bringen, auf bestimmte Anfragen sodann in der von ihm beabsichtigten Art und Weise zu reagieren.
Soweit sensitive Daten Zielobjekts eines Angriffs sind, geht es dem Angreifer zumeist darum, besimmte Informationen aus Datenquellen (bspw. aus Trainingsdaten) zu rekonstruieren bzw. zu extrahieren, Mit den so gewonnenen Informationen sind sodann zumeist weitere Rückschlüsse auf werthaltige Informationen möglich.
Bei Mißbrauchsangriffen schließlich nutzt der Angreifer die Fähigkeiten des angegriffenen Modells allein zu destruktiven Zwecken. Hierzu kann die Generierung von Schadcode2 ebenso zählen, wie die Vebreitung von Hassreden oder Falschinformationen.
Dies macht deutlich, dass es keine vertrauenswürdige oder sichere KI per se gibt. Vielmehr ist diese immer ein Kompromiss zwischen der Sicherheit des Modells und seiner Einsatzumgebung einerseits und der erwarteten Funktionalität und Genauigkeit des Modells andererseits.
Wenn also die typischen Snake Oil Dealer „die“ sichere KI verkaufen wollen, müssen sie das zugrundeliegende Modell entweder funktionell „verkrüppeln“ und damit für den Kunden aus dem Blickwinkel der Genauigkeit unantrakktiv machen oder aber dessen Robustheit und Fairness überproportional betonen, was im letztlich unter dem Blickwinkel der Genauigkeit wiederum zun Nachteil des potentiellen Nutzer geht.