CurrentStack
#ai#agents#edge#cloud#security#site-reliability#finops

Cloudflare Dynamic Workers時代のAIエージェント実行基盤設計

いま起きている変化

CloudflareのDynamic WorkersとWorkers AI関連アップデートは、AIエージェント実行基盤における前提を変えつつあります。従来の「重いコンテナを長時間立てる」方式から、「軽量アイソレートを短時間で大量に起動する」方式へのシフトです。

この変化を単純に性能改善として捉えるのは不十分です。実務では、遅延・コスト・セキュリティ境界を同時に再設計できることが本質です。

アイソレート前提で設計すると何が変わるか

起動コストが小さい環境では、分離そのものを標準動作にできます。具体的には以下です。

  • タスク単位で実行環境を都度生成
  • 永続資格情報を減らし短命トークンへ寄せる
  • 失敗時の影響範囲をタスク境界内に閉じ込める
  • 役割別のポリシーを細かく適用

結果として、可用性だけでなく監査適合性も高めやすくなります。

推奨4プレーン構成

1. Control Plane

  • タスク受理
  • リスク階層判定
  • 実行プロファイル配布
  • 短命資格情報の発行

2. Execution Plane(Isolates)

  • タスクごとの起動
  • ツール呼び出し
  • 実行制限(時間・メモリ)
  • 中間結果の標準イベント化

3. Policy Plane

  • ツール許可リスト
  • 外部送信先制御
  • 秘密情報アクセス判定
  • 破壊的操作前の人手承認

4. Observability Plane

  • レイテンシ、失敗率、再試行率
  • ポリシーブロック理由
  • トークン消費とタスク成功率
  • 失敗再現用のリプレイ情報

この分離により、拡張速度と統制品質を同時に維持しやすくなります。

性能最適化の実践ポイント

  1. リスク階層ごとに起動SLOを設定
  2. 長時間フローは分割可能なジョブへ再設計
  3. データ境界近くで軽量推論・ルーティング
  4. キュー長と同時実行上限で常時バックプレッシャー

特に4番がないと、速い基盤ほど障害の伝播も速くなります。

セキュリティ設計の要点

短命シークレット化

タスク単位で払い出し、完了後は無効化。常設キーを前提にしない。

ツール能力の明示

ツールごとに「何ができるか」を定義し、未定義操作は拒否。

意図別Egress制御

参照系APIと更新系APIを同列に扱わない。

Prompt/Tool Injection対策

外部入力とツール説明文の検査を実行前に差し込む。

高速起動の価値は、検査を省略しない設計で初めて活きます。

FinOps設計で見るべき指標

アイソレート化はアイドルコストを下げますが、再試行やバーストで費用が膨らむことがあります。以下を追跡してください。

  • 成功タスクあたりコスト
  • ポリシー準拠タスクあたりコスト
  • 再試行コスト比率
  • テナント別 p95 コスト

単価だけ見ると、失敗再実行が隠れて判断を誤ります。

コンテナ運用からの移行手順

Phase 1: シャドー実行

読み取り系タスクの一部をミラーし、品質差とコスト差を測定。

Phase 2: 低リスク本番移行

短時間・低リスクワークロードから実トラフィックへ。

Phase 3: 中リスク拡大

監査証跡とロールバック品質が安定したら適用範囲を拡張。

Phase 4: ハイブリッド最適化

バースト系はアイソレート、状態保持系はコンテナ、と使い分ける。

一気に全置換せず、実測で配分を決めるのが現実的です。

運用ループ

  • 日次: エラーバジェット、ポリシーブロック急増の確認
  • 週次: 失敗多発ツール経路とタイムアウト箇所の改善
  • 月次: リスク分類と許可ポリシーの再評価

「速い基盤」だけでは運用は回りません。失敗の学習ループを組み込むことが、継続的な品質改善に直結します。

まとめ

Dynamic Workersのような高速アイソレート基盤は、AIエージェント運用に大きな可能性があります。ただし勝ち筋は、単純な速度競争ではありません。

タスク境界の分離、短命資格情報、明示的ポリシー、再現可能な証跡。この4点を最初から実装することで、速度と信頼の両立が可能になります。

おすすめ記事