CurrentStack
#ai#agents#search#platform-engineering#observability

Cloudflare Agent MemoryとAI Searchを実運用する, 状態を持つエージェント基盤の設計

CloudflareのAgents Weekで示されたAgent MemoryとAI Searchは、実務の本質的課題に直結しています。エージェントは記憶がないと役に立たず、記憶を持たせすぎるとコストとリスクが跳ね上がります。重要なのは「記憶する」ことではなく、何をどの期間どう管理するかです。

3層メモリで考える

実装しやすい構成は次の3層です。

  • 短期キャッシュ(直近ターンの連続性)
  • セッション記憶(作業中タスクの文脈)
  • 永続サマリ(長期的な嗜好・確定知識)

この分離がないと、不要データが永続層へ流れ込み、検索ノイズと保管コストを同時に増やします。

AI Searchの品質を決めるのは前処理

検索品質はベクトルDB選定だけで決まりません。むしろ効くのは以下です。

  • チャンク分割方針(意味単位)
  • メタデータ設計(更新日時、信頼度、機密区分)
  • 更新/失効ポリシー
  • クエリ時のフィルタ条件

「とりあえず全文投入」は、後で高確率で失敗します。

ガバナンス必須項目

  • データ区分別TTL
  • インデックス前の機密マスキング
  • エージェント単位の書き込み上限
  • 取得信頼度しきい値
  • 明示的な忘却フロー

特に忘却フローが無い設計は、法務・監査の観点で詰みやすいです。

コスト運用

推論トークンだけでなく、メモリ書込・検索呼び出しにも予算を設定します。ワークフロー単位で予算を切り、逸脱をアラート化すると、月末に突然コストが膨らむ事故を防げます。

まとめ

Agent Memoryは便利機能ではなく、データライフサイクル設計そのものです。AI Searchは検索APIではなく、運用品質の鏡です。初期段階でルールを明文化し、観測可能にしておくことが、状態を持つエージェントを安定運用する最短ルートです。

おすすめ記事