本番でのAIエージェント実行を安全化する設計: Isolate分離・ケイパビリティ境界・運用ガバナンス
AIエージェントは、提案や要約の段階を越えて、実際にAPIを呼び、データを書き換え、業務フローを動かす領域に入っています。ここで重要なのは「使えるか」ではなく、「事故の影響範囲を予測可能にできるか」です。
実務で機能する基本形は、短命Isolate実行 + ケイパビリティ限定API + ポリシー駆動の可観測性です。以下では、速度と安全性を両立するための現実的な運用モデルを示します。
1. 生成コードは常に“非信頼”として扱う
モデル出力の品質が高くても、実行時に信頼を前提にしてはいけません。
最低限の原則:
- リクエスト単位、または短寿命のIsolateで実行
- ネットワーク/ファイル/プロセスの暗黙アクセスを禁止
- 生SQLや汎用HTTPではなく、承認済みケイパビリティだけを公開
- CPU時間・メモリ使用量に上限を設定
- すべての能力呼び出しを相関ID付きで監査記録
「危険操作を禁止する」ではなく、「危険操作が構造的に不可能」な設計にするのがポイントです。
2. 権限表ではなく“ケイパビリティ契約”を定義する
巨大な権限マトリクスは更新が追いつかず、形骸化しやすいです。代わりに、小さく厳密な契約を持つ方が運用できます。
- 冪等性: 変更系操作には必ず冪等キー
- 入力スキーマ: 厳格バリデーションと拒否理由の明示
- 副作用クラス: read-only / bounded-write / privileged
- 補償手段: ロールバックか、手動復旧の責任者を明確化
これにより、レビュー可能で実装可能なガードレールになります。
3. 計画フェーズと実行フェーズを分離する
推奨は二段階モデルです。
- エージェントが実行計画を提案(手順・利用能力・副作用)
- ポリシーエンジンが各手順を許可/拒否
- 許可手順のみをスコープ済み資格情報で実行
副作用の前に意図を検査できるため、誤実行の大半を初期段階で抑止できます。
4. トークンと予算を“信頼性制御”として扱う
再試行暴走や長文エラーの蓄積は、気づいた時には大きなコスト事故になります。
- タスク単位のトークン上限・呼び出し回数上限
- テナント/プロジェクト単位の日次予算
- 機械可読で短い構造化エラー
- 消費率異常時の自動デグレード
予算管理は財務だけの話ではなく、サービス継続性の話です。
5. リリース前に“エージェント専用”インシデント手順を用意する
従来の障害対応手順だけでは不足します。少なくとも次を準備します。
- ポリシーロールバック: 直前の安全設定に即時復帰
- 能力キルスイッチ: 危険カテゴリを瞬時停止
- 会話/ツール呼び出しのスナップショット保全: 事後調査を可能に
- テナント隔離モード: 影響範囲を最小化
「5分以内に止められるか」を答えられないなら、本番準備は未完です。
6. 成果と安全を同時に測る指標を持つ
有効なのは、少数で意思決定に直結する指標です。
- 高リスク操作の遮断件数(誤検知率も併記)
- 人手介入なし完了率
- ポリシー違反から復旧までの平均時間
- 成功ワークフローあたりコスト
- 最小権限資格情報で動作した割合
この指標群が、開発・セキュリティ・FinOpsを同じ地図で動かします。
7. 導入は段階的に進める
現場で失敗しにくい順序:
- Phase A: 読み取り専用(社内ドキュメント/分析)
- Phase B: 重要度の低い変更系を人間承認付きで実施
- Phase C: 監視が十分な狭い領域だけ自律実行
全社一斉導入は避け、学習速度を上げつつ失敗の半径を小さく保つのが合理的です。
まとめ
エージェント実行は、境界設計さえ正しければ本番運用できます。Isolateで封じ込め、ケイパビリティ契約で意図を制御し、可観測性で運用の確実性を担保する。この三点を揃えることが、速度と安全の同時達成につながります。