Wichtige Erkenntnisse:
- Google Deepmind-Forscher identifizierten 6 Kategorien von KI-Agentenfallen mit einer Erfolgsquote bei der Inhaltsinjektion von 86 %.
- Verhaltenskontrollfallen, die auf Microsoft M365 Copilot abzielen, erreichten in dokumentierten Tests eine Datenexfiltration von 10/10.
- Deepmind fordert gegnerische Schulungen, Laufzeit-Inhaltsscanner und neue Webstandards, um Agenten bis 2026 zu schützen.
Deepmind-Papier: KI-Agenten können durch vergifteten Speicher und unsichtbare HTML-Befehle gekapert werden
Das Papiermit dem Titel „AI Agent Traps“ wurde von Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo und Simon Osindero verfasst, die alle mit verbunden sind Google Deepmind und wurde Ende März 2026 auf SSRN veröffentlicht. Es kommt zu einem Zeitpunkt, zu dem Unternehmen darum kämpfen, KI-Agenten einzusetzen, die ohne direkte menschliche Aufsicht im Internet surfen, E-Mails lesen, Transaktionen ausführen und Subagenten erzeugen können.
Die Forscher argumentieren, dass diese Fähigkeiten auch eine Belastung darstellen. „Indem sie die Umgebung und nicht das Modell verändert“, heißt es in dem Papier, „macht die Falle die eigenen Fähigkeiten des Agenten zu einer Waffe gegen sie.“
Der Rahmen des Papiers identifiziert insgesamt sechs Angriffskategorien, die danach geordnet sind, auf welchen Teil der Operation eines Agenten sie abzielen. Content-Injection-Traps nutzen die Lücke zwischen dem, was ein Mensch auf einer Webseite sieht, und dem, was ein Mensch auf einer Webseite sieht Ich habe einen Agenten analysiert die zugrunde liegenden HTML-, CSS- und Metadaten.
Anweisungen, die in HTML-Kommentaren, Barrierefreiheits-Tags oder unsichtbar gestaltetem Text verborgen sind, werden menschlichen Prüfern nie angezeigt, werden aber von Agenten als legitime Befehle registriert. Der WASP-Benchmark ergab, dass dies einfach und von Menschen geschrieben ist sofortige Injektionen In Webinhalte eingebettete Viren entführen Agenten teilweise in bis zu 86 % der getesteten Szenarien.
Semantische Manipulationsfallen funktionieren anders. Anstatt Befehle einzuschleusen, sättigen sie den Text mit Rahmen, Autoritätssignalen oder emotional aufgeladener Sprache, um die Argumentation eines Agenten zu verzerren. Große Sprachmodelle (LLMs) weisen die gleichen Verankerungs- und Framing-Vorurteile auf, die sich auf die menschliche Wahrnehmung auswirken, was bedeutet, dass die Umformulierung identischer Fakten zu dramatisch unterschiedlichen Agentenergebnissen führen kann.
Cognitive State Traps gehen noch einen Schritt weiter, indem sie die Abrufdatenbanken vergiften, die Agenten als Speicher verwenden. In dem Dokument zitierte Forschungsergebnisse zeigen, dass durch das Einfügen von weniger als einer Handvoll optimierter Dokumente in eine Wissensdatenbank Agentenantworten auf gezielte Anfragen zuverlässig umgeleitet werden können, wobei die Erfolgsraten einiger Angriffe bei über 80 % liegen und die Datenkontamination weniger als 0,1 % beträgt.
Verhaltenskontrollfallen überspringen die Subtilität und zielen direkt auf die Aktionsebene eines Agenten. Dazu gehören eingebettete Jailbreak-Sequenzen, die nach der Aufnahme die Sicherheitsausrichtung außer Kraft setzen, Datenexfiltrationsbefehle, die sensible Benutzerinformationen an vom Angreifer kontrollierte Endpunkte umleiten, und Sub-Agent-Spawning-Fallen, die einen übergeordneten Agenten dazu zwingen, kompromittierte untergeordnete Agenten zu instanziieren.
Das Papier dokumentiert einen Fall im Zusammenhang mit M365 Copilot von Microsoft, bei dem eine einzelne manipulierte E-Mail dazu führte, dass das System interne Klassifikatoren umging und seinen gesamten privilegierten Kontext an einen vom Angreifer kontrollierten Endpunkt weitergab. Systemische Fallen sind so konzipiert, dass sie ganze Netzwerke von Agenten gleichzeitig ausfallen lassen und nicht einzelne Systeme.
Dazu gehören Überlastungsangriffe, die Agenten bei der umfassenden Nachfrage nach begrenzten Ressourcen synchronisieren, gegenseitige Abhängigkeitskaskaden nach dem Vorbild des Börsen-Flash-Crashs von 2010 und kompositorische Fragmentfallen, die eine bösartige Nutzlast über mehrere harmlos aussehende Quellen verteilen, die sich erst dann zu einem vollständigen Angriff zusammenfügen, wenn sie aggregiert werden.
„Die Umgebung mit Eingaben besetzen, die darauf ausgelegt sind, über korreliertes Agentenverhalten Ausfälle auf Makroebene auszulösen“, so der Google Das Deepmind-Papier erklärt, dass es immer gefährlicher wird, je homogener die Ökosysteme der KI-Modelle werden. Die Finanzen und Krypto Sektoren sind einem direkten Risiko ausgesetzt, da algorithmische Agenten tief in die Handelsinfrastruktur eingebettet sind.
Human-in-the-Loop-Fallen runden die Taxonomie ab, indem sie auf die menschlichen Vorgesetzten abzielen, die die Agenten überwachen, und nicht auf die Agenten selbst. Ein kompromittierter Agent kann Ausgaben generieren, die so gestaltet sind, dass sie Genehmigungsmüdigkeit hervorrufen, technisch dichte Zusammenfassungen präsentieren, die ein Laie ohne Prüfung autorisieren würde, oder Phishing-Links einfügen, die wie legitime Empfehlungen aussehen. Die Forscher beschreiben diese Kategorie als wenig erforscht, es wird jedoch erwartet, dass sie als hybride menschlicheKI Systemmaßstab.
Forscher sagen, dass die Sicherung von KI-Agenten mehr als nur technische Korrekturen erfordert
Das Papier behandelt diese sechs Kategorien nicht isoliert. Einzelne Fallen können verkettet, über mehrere Quellen geschichtet oder so konzipiert werden, dass sie nur unter bestimmten zukünftigen Bedingungen aktiviert werden. Jeder Agent, der in den verschiedenen in der Studie zitierten Red-Teaming-Studien getestet wurde, wurde mindestens einmal kompromittiert und führte in einigen Fällen illegale oder schädliche Aktionen aus.
OpenAI CEO Sam Altman und andere haben zuvor auf die Risiken hingewiesen, die sich daraus ergeben, Agenten unkontrollierten Zugriff auf sensible Systeme zu gewähren, aber dieses Papier bietet die erste strukturierte Übersicht darüber, wie sich diese Risiken in der Praxis genau auswirken. Die Forscher von Deepmind fordern eine koordinierte Reaktion in drei Bereichen.
Auf der technischen Seite empfehlen sie ein gegnerisches Training während der Modellentwicklung, Laufzeit-Inhaltsscanner, Quellfilter vor der Aufnahme und Ausgabemonitore, die einen Agenten während der Aufgabe anhalten können, wenn anomales Verhalten erkannt wird. Auf Ökosystemebene plädieren sie für neue Webstandards, die es Websites ermöglichen würden, Inhalte zu kennzeichnen, die für den KI-Verbrauch bestimmt sind, sowie für Reputationssysteme, die die Zuverlässigkeit der Domain bewerten.
Auf rechtlicher Seite stellen sie eine Lücke bei der Rechenschaftspflicht fest: Wenn ein gekaperter Agent ein Finanzverbrechen begeht, bieten die aktuellen Rahmenbedingungen keine klare Antwort darauf, ob die Haftung beim Agentenbetreiber, beim Modellanbieter oder beim Domaininhaber liegt. Die Forscher formulieren die Herausforderung mit bewusstem Gewicht:
„Das Web wurde für das menschliche Auge geschaffen; jetzt wird es für maschinelle Lesegeräte umgestaltet.“
Mit zunehmender Agentenakzeptanz verlagert sich die Frage von den online vorhandenen Informationen hin zu den Informationen, die KI-Systemen darüber vermitteln sollen. Ob politische Entscheidungsträger, Entwicklerund Sicherheitsforscher können sich schnell genug koordinieren, um diese Frage zu beantworten, bevor reale Exploits in großem Maßstab auftreten, bleibt die offene Variable.

