CurrentStack
#ai#agents#cloud#platform#platform-engineering

Cloudflare Project ThinkとBrowser Runで作る実運用エージェント基盤

CloudflareのAgents Weekで出たProject Think、Browser Run、Workflows制御プレーン再設計は、単発ニュースではなく「エージェント基盤をどう本番化するか」の前提を変えました。これから必要なのは、チャット体験の改善ではなく、常時稼働するソフトウェアワーカーの運用設計です。

参考: https://blog.cloudflare.com/tag/workers/

要点は3つです。サーバレスの速度、分散システムとしての状態管理、そしてゼロトラスト前提の統制を、同時に満たすこと。どれか1つでも欠けると、PoCは動いても本番は止まります。

何が変わったのか

今回の更新は個別機能よりも「組み合わせ」に価値があります。

  1. Project Think / Agents SDKの進化で、状態保持するエージェント実装が標準化された。
  2. Browser Runで、ブラウザ操作が周辺ツールではなく中核機能になった。
  3. Workflows制御プレーン刷新で、長時間ジョブの同時実行と生成性能が引き上げられた。

これまで多くの企業は、ブラウザ自動化、推論、オーケストレーションを別々の製品で継ぎ接ぎしていました。今回の意味は、その分断を減らして、統一された運用面を持てるようになった点にあります。

本番導入時の基準アーキテクチャ

実務で破綻しにくい最小構成は次の通りです。

  • Workers(入口層): 認証認可、レート制御、予算ガード。
  • Durable Objects(セッション調停): 状態固定、排他、再実行の責務分離。
  • Agents SDK + Workers AI(実行層): 計画、ツール選択、推論トレース。
  • Browser Run(ブラウザ層): UI操作、記録、ヒューマンチェックポイント。
  • Workflows(耐久実行): リトライ、補償処理、SLAタイマー。
  • R2/KV/D1(証跡層): 成果物、監査ログ、ポリシー判断履歴。

重要なのは、これを「6つのサービス」ではなく「1つの内部プロダクト」として運営することです。責任分界を曖昧にすると、障害時に誰も全体を見られません。

Browser Runで運用がどう変わるか

従来のブラウザ自動化は、次の失敗を繰り返してきました。

  • プランナー側の状態とブラウザ実状態の不整合
  • 失敗時に再現できず、原因特定が遅れる
  • スクリプト内に認証情報や回避ロジックが散らばる

Browser Runが入ると、少なくとも統制ポイントは中央化できます。実務上は以下が効きます。

  • リプレイ前提の障害解析: セッション録画IDをインシデント票に必須化する。
  • 段階承認モデル: 高リスクDOM操作前に人手承認を挟む。

この2点で、MTTR短縮とリスク低減を同時に達成しやすくなります。

FinOpsは「成功結果単価」で管理する

エージェントのコスト管理が崩れる典型は、推論費、ブラウザ費、ワークフロー費を別々に監視してしまうことです。見るべき指標は1つの事業KPIです。

CpSO(Cost per Successful Outcome)

CpSO = (推論 + Browser実行 + Workflow実行 + 保存 + 人手レビュー) ÷ 完了した成果件数

さらに業務クラスごとに分けます。

  • 低リスク: 参照中心の調査タスク
  • 中リスク: 業務フロー自動化
  • 高リスク: 更新・送信・決済など副作用あり

クラス別に予算上限、遅延上限、承認ルールをセットで設計すると、コスト爆発と品質劣化を防げます。

先に入れるべきセキュリティ制御

抽象的なAIガバナンスより、被害半径を直接下げる制御から入れるのが実務的です。

  1. ツール呼び出し単位の短命クレデンシャル
  2. 実行時の外向き通信制御(allowlist)
  3. 永続化前の構造化マスキング
  4. ポリシー判断とアクションIDの不可分な監査証跡
  5. テナント/地域境界に基づくルーティング分離

これらがないと、後で監査対応に詰まり、開発速度は必ず落ちます。

先に用意しておくRunbook

本番前に最低限、次のRunbookを準備してください。

  • Browserステップのタイムアウト連鎖
  • ツールアダプタのスキーマ差分による失敗
  • プロンプト回帰によるトークン急騰
  • Workflowsキュー滞留とSLA逸脱
  • 幻覚出力が副作用操作に接続したケース

各Runbookは「検知条件」「自動緩和」「人手エスカレーション」をセットで記述し、属人的対応をなくします。

90日導入ロードマップ

0〜30日: 計測とガードレール

  • 成果単位のコスト/遅延を計測
  • リスク別ポリシーを定義
  • 合成データでカナリア実行

31〜60日: 制御付き本番拡張

  • 実業務ワークフローを2〜3本導入
  • 高リスク操作に承認ゲートを適用
  • 障害管理にリプレイIDを組み込み

61〜90日: 運用定着

  • クラス別SLOを正式化
  • 予算連動の受付制御を実装
  • 信頼性/コスト/統制の月次スコアカードを公開

まとめ

Project ThinkとBrowser Runは、エージェント開発を「実験」から「運用工学」へ進める転換点です。状態管理、証跡、予算、承認を初期設計に組み込んだ組織が、2026年の本番競争で優位に立ちます。

おすすめ記事