Perplexity AI、AIブラウジングにおけるプロンプトインジェクション対策としてBrowseSafeをオープンソース化

MPOST2025/12/05 05:21

著者:MPOST

簡単に言えば Perplexity は、Web ページに隠された悪意のある命令から AI ブラウザアシスタントを保護するように設計されたセキュリティツール BrowseSafe をオープンソース化しました。

困惑AI AI 駆動型検索エンジン Perplexity を開発する同社は、AI エージェントがブラウザ環境内で直接動作し始める際にユーザーの安全性を高めるために設計されたオープンリサーチベンチマークおよびコンテンツ検出モデルである BrowseSafe のリリースを発表しました。

AIアシスタントが従来のサーチインターフェースがウェブブラウザ内で動作し、タスクを実行するようになると、インターネットの構造は静的なページからエージェント主導のインタラクションへと移行すると予想されます。このモデルでは、ブラウザはアシスタントが単に回答を提供するだけでなく、実際に行動を起こすことができるワークスペースとなり、アシスタントが常にユーザーの利益のために行動することを保証するシステムが必要になります。

BrowseSafeは、WebページのHTMLにAIエージェントを操作するための有害な命令が含まれているかどうかという、単一の核心的な問題を評価するようにトレーニングされた、特殊な検出モデルです。大規模な汎用モデルはこれらのリスクを正確に評価できますが、通常、継続的なリアルタイムスキャンにはリソースを過度に消費します。BrowseSafeは、ブラウザのパフォーマンスに影響を与えることなく、Webページ全体を迅速に分析するように設計されています。このモデルに加え、同社は防御メカニズムの継続的な評価と改善を支援するためのテストスイートであるBrowseSafe-Benchをリリースします。

の始まり AIベースのブラウジングまた、最新の保護戦略を必要とする新たなサイバーセキュリティの課題も生じています。同社は以前、ウェブサイトがプロンプトインジェクションによってエージェントの挙動を変更しようとした場合でも、Cometシステムが多層防御を適用してエージェントをユーザーの意図に沿った状態に保つ仕組みについて説明しました。最新の説明では、これらの脅威がどのように機能するかに焦点を当てています。 defiこれらは開発され、現実世界の攻撃シナリオを使用してテストされ、ブラウザ内で安全に展開できるほど迅速に有害な命令を識別してブロックするようにトレーニングされたモデルに組み込まれています。

プロンプトインジェクションとは、AIシステムが処理するテキストに悪意のある言語を挿入することを指します。これは、システムの動作をリダイレクトすることを目的としています。ブラウザ設定では、エージェントはページ全体を読み込むため、コメント、テンプレート、拡張フッターなどの領域にこのような攻撃を埋め込むことができます。これらの隠された指示は、適切に検出されない場合、エージェントの動作に影響を与える可能性があります。また、巧妙な形式や多言語形式で記述されている場合や、データ属性やレンダリングされていないフォームフィールドなど、ページに視覚的に表示されないHTML要素に隠されている場合もあり、ユーザーには見えませんが、AIシステムは解釈します。

BrowseSafe-Bench: 現実世界のWeb環境におけるエージェントセキュリティの向上

実際のブラウジング環境に近い環境でプロンプトインジェクション型脅威を分析するため、同社は学習済みでオープンソースとして公開されている検出モデル「BrowseSafe」と、実運用のウェブページをモデルにした14,719件のサンプルを含む公開ベンチマーク「BrowseSafe-Bench」を開発しました。このデータセットには、複雑なHTML構造、様々な品質のコンテンツ、そして攻撃者の意図、ページ内でのインジェクション命令の配置、言語スタイルが異なる、悪性サンプルと無害サンプルの幅広いサンプルが含まれています。11の攻撃カテゴリ、隠し要素から表示可能なテキストブロックまで9つのインジェクション手法、そして直接的な命令からより繊細で間接的な表現まで3つの言語スタイルを網羅しています。

下 defi強化された脅威モデルにより、アシスタントは信頼できる環境で動作し、外部のウェブコンテンツはすべて信頼できないものとして扱われます。悪意のある攻撃者は、サイト全体を制御したり、エージェントがアクセスする正当なページに説明、コメント、投稿などの有害なテキストを挿入したりする可能性があります。こうしたリスクを軽減するために、ウェブページ、メール、ファイルなど、信頼できないデータを返すツールにはフラグが付けられ、その生の出力はエージェントが解釈したり操作したりする前に BrowseSafe によって処理されます。BrowseSafe は、受信コンテンツのスキャン、ツールの権限をデフォルトで制限する、特定の機密操作に対してユーザーの承認を求めるといった、より広範なセキュリティ戦略の一要素として機能し、標準的なブラウザ保護によって補完されます。この階層型アプローチは、安全性を損なうことなく、高機能なブラウザベースのアシスタントの使用をサポートすることを目的としています。

BrowseSafe-Bench のテスト結果から、いくつかの傾向が浮かび上がりました。システムプロンプトの抽出や URL パスを介したリダイレクトといった直接的な攻撃は、モデルにとって最も検出しやすい攻撃の一つです。多言語攻撃や、間接的または仮説的な表現で書かれた攻撃は、多くの検出システムが頼りにする語彙の手がかりを回避するため、検出が困難になる傾向があります。挿入されたテキストの場所も影響を及ぼします。HTML コメント内に隠されたインスタンスは比較的効果的に検出されますが、フッター、表のセル、段落などの表示セクションに配置されたインスタンスは検出が困難であり、隠されていない挿入の処理における構造的な弱点が明らかになります。適切に設計されたサンプルを用いたトレーニングを改善することで、これらのケースにおける検出性能を向上させることができます。

BrowseSafeとBrowseSafe-Benchはオープンソースリソースとして利用可能です。自律エージェントを開発する開発者は、これらを使用することで、個別に保護システムを構築することなく、プロンプトインジェクションに対する防御を強化できます。検出モデルはローカルで実行され、有害な命令がエージェントの中核となる意思決定層に到達する前にフラグ付けを行い、ページ全体をリアルタイムでスキャンできるようにパフォーマンスが最適化されています。BrowseSafe-Benchには、現実的な攻撃シナリオが豊富に用意されており、標準的な言語モデルを侵害する可能性のある複雑なHTMLパターンに対してモデルのストレステストを行う手段を提供します。また、チャンク化と並列スキャン技術により、エージェントはユーザーをリスクにさらすことなく、大規模で信頼できないページを効率的に処理できます。

免責事項：本記事の内容はあくまでも筆者の意見を反映したものであり、いかなる立場においても当プラットフォームを代表するものではありません。また、本記事は投資判断の参考となることを目的としたものではありません。

PoolX: 資産をロックして新しいトークンをゲット

最大12%のAPR！エアドロップを継続的に獲得しましょう！

今すぐロック