Perplexity AI veröffentlicht BrowseSafe als Open-Source-Software, um das Einschleusen von Aufforderungen in KI-gestütztes Browsing zu bekämpfen.

MPOST2025/12/04 21:15

Von:MPOST

In Kürze Perplexity hat BrowseSafe, ein Sicherheitstool zum Schutz von KI-Browserassistenten vor in Webseiten versteckten schädlichen Anweisungen, als Open Source veröffentlicht.

Ratlosigkeit KI , das Unternehmen hinter der KI-gesteuerten Suchmaschine Perplexity, kündigte die Veröffentlichung von BrowseSafe an, einem offenen Forschungs-Benchmark und Inhaltserkennungsmodell, das die Benutzersicherheit erhöhen soll, wenn KI-Agenten direkt in der Browserumgebung operieren.

Da KI-Assistenten über traditionelle Technologien hinausgehen search Mit der Einführung von Schnittstellen und der Ausführung von Aufgaben innerhalb von Webbrowsern wird sich die Struktur des Internets voraussichtlich von statischen Seiten hin zu agentengesteuerten Interaktionen verändern. In diesem Modell wird der Browser zu einem Arbeitsbereich, in dem ein Assistent aktiv werden kann, anstatt lediglich Antworten zu liefern. Dies erfordert Systeme, die sicherstellen, dass der Assistent stets im Interesse des Nutzers handelt.

BrowseSafe ist ein spezialisiertes Erkennungsmodell, das darauf trainiert wurde, eine zentrale Frage zu beantworten: Enthält der HTML-Code einer Webseite schädliche Anweisungen, die einen KI-Agenten manipulieren sollen? Große, universelle Modelle können diese Risiken zwar präzise einschätzen, sind aber in der Regel zu ressourcenintensiv für kontinuierliche Echtzeit-Scans. BrowseSafe analysiert ganze Webseiten schnell und ohne die Browserleistung zu beeinträchtigen. Parallel zum Modell veröffentlicht das Unternehmen BrowseSafe-Bench, eine Testsuite zur kontinuierlichen Evaluierung und Verbesserung der Schutzmechanismen.

Der Aufstieg von KI-basiertes Browsen Dies bringt auch neue Herausforderungen für die Cybersicherheit mit sich, die aktualisierte Schutzstrategien erfordern. Das Unternehmen hatte zuvor erläutert, wie sein Comet-System mehrere Verteidigungsebenen einsetzt, um die Agenten an der Nutzerabsicht auszurichten, selbst wenn Websites versuchen, das Agentenverhalten durch Prompt-Injection zu verändern. Die neueste Erklärung konzentriert sich darauf, wie diese Bedrohungen abgewehrt werden. defined, getestet anhand realer Angriffsszenarien und in Modelle integriert, die darauf trainiert sind, schädliche Anweisungen schnell genug zu erkennen und zu blockieren, um eine sichere Bereitstellung im Browser zu gewährleisten.

Prompt-Injection bezeichnet das Einschleusen von Schadcode in Texte, die von einem KI-System verarbeitet werden, mit dem Ziel, das Systemverhalten zu manipulieren. Im Browser lesen KI-Systeme ganze Seiten, wodurch solche Angriffe in Bereichen wie Kommentaren, Vorlagen oder erweiterten Fußzeilen eingebettet werden können. Werden diese versteckten Anweisungen nicht erkannt, können sie die Aktionen der KI-Systeme beeinflussen. Sie können auch in subtilen oder mehrsprachigen Formaten verfasst oder in HTML-Elementen verborgen sein, die auf der Seite nicht sichtbar sind – wie Datenattribute oder nicht gerenderte Formularfelder –, die Benutzer nicht sehen, KI-Systeme aber dennoch interpretieren.

BrowseSafe-Bench: Verbesserung der Agentensicherheit in realen Webumgebungen

Um Bedrohungen durch Prompt-Injection in einer realitätsnahen Umgebung zu analysieren, entwickelte das Unternehmen BrowseSafe, ein als Open Source trainiertes Erkennungsmodell, sowie BrowseSafe-Bench, einen öffentlichen Benchmark mit 14,719 Beispielen, die produktiven Webseiten nachempfunden sind. Der Datensatz umfasst komplexe HTML-Strukturen, Inhalte unterschiedlicher Qualität und eine Vielzahl sowohl schädlicher als auch harmloser Beispiele, die sich hinsichtlich der Absicht des Angreifers, der Position der eingeschleusten Anweisung auf der Seite und des Sprachstils unterscheiden. Er deckt elf Angriffskategorien, neun Einschleusungsmethoden (von versteckten Elementen bis hin zu sichtbaren Textblöcken) und drei Sprachstile (von direkten Befehlen bis hin zu subtileren, indirekten Formulierungen) ab.

Unter dem defiGemäß dem Bedrohungsmodell arbeitet der Assistent in einer vertrauenswürdigen Umgebung, während alle externen Webinhalte als nicht vertrauenswürdig behandelt werden. Angreifer könnten ganze Websites kontrollieren oder schädliche Texte – wie Beschreibungen, Kommentare oder Beiträge – in ansonsten legitime Seiten einfügen, auf die der Agent zugreift. Um diese Risiken zu minimieren, wird jedes Tool, das nicht vertrauenswürdige Daten wie Webseiten, E-Mails oder Dateien zurückgeben kann, markiert und dessen Rohdaten von BrowseSafe verarbeitet, bevor der Agent sie interpretieren oder darauf reagieren kann. BrowseSafe ist Teil einer umfassenderen Sicherheitsstrategie, die das Scannen eingehender Inhalte, die standardmäßige Beschränkung von Tool-Berechtigungen und die Anforderung der Benutzergenehmigung für bestimmte sensible Vorgänge umfasst, ergänzt durch Standard-Browserschutzmechanismen. Dieser mehrstufige Ansatz soll die Nutzung leistungsfähiger browserbasierter Assistenten ermöglichen, ohne die Sicherheit zu beeinträchtigen.

Die Testergebnisse auf BrowseSafe-Bench zeigen mehrere Trends auf. Direkte Angriffsformen, wie der Versuch, Systemeingabeaufforderungen zu extrahieren oder Informationen über URL-Pfade umzuleiten, lassen sich von Modellen am einfachsten erkennen. Mehrsprachige Angriffe sowie Varianten in indirekter oder hypothetischer Formulierung sind tendenziell schwieriger zu erkennen, da sie lexikalische Hinweise vermeiden, auf die viele Erkennungssysteme angewiesen sind. Auch die Position des eingeschleusten Textes spielt eine Rolle. In HTML-Kommentaren versteckte Instanzen werden relativ effektiv erkannt, während solche in sichtbaren Bereichen wie Fußzeilen, Tabellenzellen oder Absätzen eine größere Herausforderung darstellen. Dies offenbart eine strukturelle Schwäche im Umgang mit nicht versteckten Einschleusungen. Verbessertes Training mit gut gestalteten Beispielen kann die Erkennungsleistung in diesen Fällen steigern.

BrowseSafe und BrowseSafe-Bench sind als Open-Source-Ressourcen verfügbar. Entwickler autonomer Agenten können sie nutzen, um ihre Abwehr gegen Prompt-Injection zu verstärken, ohne eigene Schutzsysteme entwickeln zu müssen. Das Erkennungsmodell läuft lokal und kennzeichnet schädliche Anweisungen, bevor diese die zentrale Entscheidungsebene eines Agenten erreichen. Die Performance ist für das Scannen ganzer Seiten in Echtzeit optimiert. BrowseSafe-Bench bietet mit seinen zahlreichen realistischen Angriffsszenarien die Möglichkeit, Modelle anhand komplexer HTML-Muster zu testen, die typischerweise Standard-Sprachmodelle kompromittieren. Chunking- und Parallelscan-Techniken helfen Agenten, große, nicht vertrauenswürdige Seiten effizient zu verarbeiten, ohne die Nutzer einem erhöhten Risiko auszusetzen.

Haftungsausschluss: Der Inhalt dieses Artikels gibt ausschließlich die Meinung des Autors wieder und repräsentiert nicht die Plattform in irgendeiner Form. Dieser Artikel ist nicht dazu gedacht, als Referenz für Investitionsentscheidungen zu dienen.

PoolX: Locked to Earn

APR von bis zu 10%. Mehr verdienen, indem Sie mehr Lockedn.

Jetzt Lockedn!

Das könnte Ihnen auch gefallen

Malaysia beginnt aggressives Durchgreifen, nachdem Bitcoin-Miner 1,1 Mrd. Dollar an Strom gestohlen haben

Cryptomonday•2025/12/05 09:48

AERO Krypto-Kursvorhersage bei sinkenden Einnahmen von Aerodrome

Cryptomonday•2025/12/05 09:48

CFTC genehmigt den Krypto-Spot-Handel an staatlich regulierten Krypto-Börsen

Cryptomonday•2025/12/05 09:48

Bitcoin Suisse und BlackRock: Marktanalysen und Trends für 2025 im Fokus

Zusammenfassung des Artikels Bitcoin Suisse prognostiziert für 2025 eine hohe Relevanz institutioneller Entscheidungen im Bitcoin-Markt, während Staatsfonds zunehmend in Bitcoin investieren und der Mining-Sektor vor Herausforderungen steht.

Kryptomagazin•2025/12/05 08:24