#agents#ai#ci/cd#testing#platform-engineering
MCP時代のエージェント評価基盤: GitHub Actionsで実現する本番前ゲート設計(2026)
QiitaやZennなど開発コミュニティでも、MCPベースのツール連携エージェントは急速に普及しています。一方で、実運用に必要な評価設計はまだ未整備なチームが多く、デモ成功のまま本番投入されるケースが目立ちます。
従来テストでは足りない理由
エージェントの不具合は単体テストだけでは検出しづらいです。
- 曖昧入力時に誤ったツールを選ぶ
- ツールスキーマ変更で挙動が急に崩れる
- リトライで副作用が重複する
- 長セッションで文脈ドリフトする
実践しやすい評価パイプライン
Stage A: シナリオパック管理
リスク別にシナリオを分けます。
- 正常系
- 境界系(曖昧入力)
- 攻撃系(プロンプト注入/権限逸脱)
- 劣化系(ツール遅延/失敗)
シナリオをバージョン管理し、仕様変更と同時に更新します。
Stage B: トレース付き実行
CIでモック/ステージングのMCPツールに対して実行し、次を保存します。
- ツール選択シーケンス
- 引数品質スコア
- ポリシー判定結果
- 最終アウトカムの正否
Stage C: 出荷ゲート
最小しきい値を設けます。
- シナリオ成功率
- ポリシー違反件数
- 直近基準との差分
- 許容トークン/コスト上限
閾値未達は自動でリリース停止にします。
GitHub Actions構成例
3ジョブ構成が運用しやすいです。
- Build/静的検査
- エージェント評価マトリクス実行
- 集計ゲート(Pass/Fail判定)
失敗トレースをPRアーティファクトとして残すと、レビュー速度が上がります。
役割分担
- Platform: 評価フレーム管理
- Product: 業務シナリオ追加
- Security: 攻撃シナリオ管理
- SRE: コスト/SLO閾値管理
責任を分散すると、評価基盤が陳腐化しにくくなります。
まとめ
MCP導入そのものは加速しますが、評価なしの本番投入は事故を増やします。CI上で評価を標準化し、出荷条件に組み込むことが、2026年のエージェント開発では必須です。