Shikata Ga Nai

Private? There is no such things.

AIエージェントの防御設計 — 実践的プレイブック（非エンジニア／技術責任者向け）

Bug Bounty LLM

Hello there, ('ω')ノ

1) 基本設計原則（全体の“安全姿勢”）

やること（サマリ）

最小権限（least privilege）でエージェントを扱う
フェールセーフとサーキットブレーカーを組み込む
ヒューマン・イン・ザ・ループ（HITL）を設計に組み込む
エージェントは「非人間のアイデンティティ」として管理する

なぜ / 根拠

AIエージェントは自律的に外部システムを呼び出し、データ操作を行えるため、従来のユーザ／サービスよりも被害範囲が広がりやすい。これを防ぐために、アクセス権や失敗時の停止ロジック、そして人間の介入ポイントを初期設計から埋めておくことが推奨されている。

2) アイデンティティ & アクセス管理（IAM） — 「エージェントをユーザーとして扱う」

何をするか

各エージェントごとに固有のIDを発行し、APIキー/証明書で認証する。
エージェント単位で最小権限ポリシー（アクセスできるデータ・アクションの白リスト）を適用する。
キーのローテーション、自動失効、キー使用のモニタリングを実装する。

どう実装する（高レベル）

IDプロバイダ（OIDC / mTLS / Vault）で「機械的アイデンティティ」を発行する。
IAMポリシーは「操作×データスコープ×時間」の3軸で定義する（例：このエージェントは2025-09-01から2025-10-01の間、顧客DBのread-onlyに限定）。
秘密情報はハードコードせず秘密管理基盤（HashiCorp Vault等）で運用。監査ログと組み合わせて不正使用を検出する。

なぜ重要か

誤ったエージェントが無制限に書き換えや削除を行うと即時に大きな被害が出る。エージェントを人間と同等に管理し、「何ができるか」を事前に限定することで被害の範囲を小さくできる。

3) ツールアクセス制御（外部通信／ツール呼び出しの制約）

何をするか

エージェントが呼べる“ツール”（外部API、データ書き込み、メール送信、クラウド操作等）をホワイトリスト化する。
各ツール呼び出しに対して目的文脈（何のために呼ぶか）を要求し、コンテキストチェックを行う。

どう実装する（高レベル）

エージェントからのツール呼び出しは全て「中継サービス」を通す設計にする（エージェント→中継API→実際のツール）。中継サービスでポリシー評価、レート制限、パラメータ検査、複合条件の承認フローを実行する。
高危険度の操作（データ削除、課金操作など）は「二段階承認（自動提案→人間承認→実行）」とする。

なぜ重要か

エージェントは「できること」が増えるほどリスクが指数的に拡大する。中継サービスは“安全ゲート”として振る舞い、後戻りできない操作を未然に防ぐ。これが実際の被害抑止に最も効く工夫の一つ。

4) プロンプト／入力ガバナンス（インジェクション・データ質対策）

何をするか

プロンプト（あるいはエージェントの外部入力）に対するフィルタと正規化ルールを必ず通す。
外部データ（ドキュメント、OCR結果、ウェブスクレイプ）を「品質格付け」して、低品質データは高リスク操作に使わせない。

どう実装する（高レベル）

入力は「サニタイズ→正規化→ラベル付け（トラストスコア）」のパイプラインで処理する。トラストスコアが低い入力から生成された命令には追加検証（人承認）を要求。
プロンプトテンプレートを厳格化し、動的挿入箇所は型制約や許容フォーマットを持たせる。

なぜ重要か

「ゴミ入力」→「ゴミ出力」はエージェントの一番の脆弱点。プロンプトインジェクションやデータ誤解釈で人命やビジネスに直結する誤操作が発生しうるため、入力の出所と品質を管理することが重要。

5) 行動制御（ガードレール、ルールエンジン、サーキットブレーカー）

何をするか

行動ポリシー（禁止リスト・閾値）をコード化してリアルタイムに評価する。
異常行動を検出したら即座にエージェントを一時停止するサーキットブレーカーを用意する。

どう実装する（高レベル）

ルールエンジン（OPAやカスタムポリシー）で「速やかに停止させる条件」を明文化。例：連続で10件以上の書き込み要求／1分で100MB超のデータ転送／未知ドメインへの外部接続など。
異常をトリガーしたら自動で監査ログを固め（immutability）、必要であればロールバックや隔離処理を走らせる。

なぜ重要か

エージェントは短時間で大規模に挙動を起こせるため、初動での遮断が被害最小化に直結する。サーキットブレーカーは“勝手に止める”ための保険であり、複数の重ね技（レート制限＋閾値＋人承認）で強くする。

6) サンドボックスと実行環境の分離（セキュア実行）

何をするか

エージェントが実行する実際のコードやツール呼び出しは分離されたサンドボックス内で実行する。
データアクセスはプロキシ層を通して最小データだけを渡す（必要最小限のマスク／トークナイズ）。

どう実装する（高レベル）

コンテナ隔離、名前空間制限、ネットワークポリシー、ファイルシステムの最小マウントを適用する。
機密情報は「トークン化して使い捨てで渡す」仕組みを使い、直接的なシークレットは与えない。

なぜ重要か

エージェントが外部モデルやプラグインを通じて予期しない操作をするリスクを物理的に制限するため。分離により「誤操作→インフラ破壊」の連鎖を断つ。

7) 観測性（Observability）とログ設計 — 「何が起きたか」を見える化する

何をするか

全てのエージェント操作（プロンプト、ツール呼び出し、外部通信、ポリシー判定結果）を時系列で記録する。
ログは改竄不可な形で保存し、アラートと相関分析を用意する。

どう実装する（高レベル）

構造化ログ（JSON）で「入力・エージェント決定・ツール呼び出し・結果・ポリシー評価」を含める。ログはWORMストレージや監査ログサービスへ送る。
異常検知用にSIEMやAIベースの行動分析を組み合わせ、通常と異なる振る舞いを早期検知する。

なぜ重要か

事後分析、責任追跡、法的対応に不可欠。観測性がなければ被害範囲の特定や再発防止策の検討ができない。

8) テスティング & レッドチーミング（事前の安全評価）

何をするか

エージェントをデプロイする前に、「攻撃シナリオに基づく」自動化テストとレッドチーム試験を実施する。
AIを使ったテスト生成は有効だが、False Positive/Negativeが多いので人間の精査を組み合わせる。

どう実装する（高レベル）

テスト環境でプロンプトインジェクション、ツール悪用、データ漏洩シナリオを模擬し、ルールエンジンやサーキットブレーカーの有効性を検証する。
自動テストは大雑把な網羅に使い、重要ケースは人の専門家が再現性を確認するワークフローを作る。

なぜ重要か

AIは未知の振る舞いを示すことがあるため、従来のユニットテストだけでは不十分。実運用前に“現実的な悪用パス”で壊してみることが必要。

9) サプライチェーン & モデルリスク管理

何をするか

利用するモデル・ライブラリ・プラグインの出所とバージョンを管理し、供給元のセキュリティ保証を評価する。
外部モデルを使う場合は受信出力に対して追加の検証（sanity checks）を置く。

どう実装する（高レベル）

モデルサプライヤーに対するSLA/セキュリティアセスメント、署名検証、定期アップデートと脆弱性パッチ手順を契約に含める。
出力に対する検証レイヤを設け、明らかな誤情報や危険指示はフィルタリングして人間に投げる。

なぜ重要か

モデルやライブラリ自体が攻撃経路になり得る（供給元が改ざんされる等）。モデルから来る「悪い指示」をそのまま鵜呑みにしないための防御。

10) ガバナンス、ポリシー、人材（組織的対策）

何をするか

AIエージェント運用のためのクロスファンクショナル委員会（セキュリティ、法務、プロダクト、機械学習）を設置する。
運用ポリシー（許可手順、承認フロー、インシデント分類）をドキュメント化する。

どう実装する（高レベル）

エージェントのリスクプロファイルに応じた運用レベル（低リスク・中リスク・高リスク）を定義し、それぞれに必要な承認や監視レベルを紐づける。
定期的にKPI（セーフティ・イベント数、停止トリガー発生率、未承認操作試行数など）をレビューし、改善サイクルを回す。

なぜ重要か

技術だけでなく組織ルールと人的判断がなければ、現実世界のリスクに対処できない。ガバナンスがないまま運用するとコンプライアンス・評判リスクが高まる。

11) インシデント対応（“エージェントが誤動作したとき”の手順）

何をするか（必須手順）

迅速隔離（該当エージェント停止）→被害範囲の特定→リカバリ（ロールバック）→フォレンジック→報告（内部・規制）。
事後は「原因根本（root cause）」と「短期／中期の対策」を必ずドキュメント化する。

なぜ重要か

AIエージェントの誤動作は短時間に広範囲の被害をもたらす。対応の迅速さと手順の明確さが被害の大きさを左右する。

12) 実装チェックリスト（優先度順・すぐ使える）

エージェント単位のIDと最小権限を必須化（高）
ツール呼び出しはすべて中継サービス経由にする（高）
行動のサーキットブレーカーを設計する（高）
入力のトラストスコアリングを導入する（中）
観測性（構造化ログ・監査）を整備する（中）
テスト自動化＋レッドチーミングをルーチン化する（中）
ガバナンス委員会と運用ポリシーを作る（中）
モデルサプライヤーのセキュリティ保証を契約に含める（低→長期）

Best regards, (^^ゞ