#ai#engineering#performance#dx#testing
Tokenmaxxingを超える, AIコーディング生産性を正しく測る実務指標
TechCrunchでの「Tokenmaxxing」議論が示した通り、生成量の増加は生産性向上を保証しません。むしろ、レビュー負荷と手戻りを増やす場合があります。最適化対象を誤ると、見かけの速度だけ上がって全体速度は落ちます。
何を最適化すべきか
本来の目標は、意思決定から本番反映までの時間を、品質と安全性を保ちながら短縮することです。トークン量は手段であり、成果ではありません。
実務で使える指標セット
-
フロー指標
- PRリードタイム
- レビュー待ち時間
- マージ頻度
-
品質指標
- 逸脱不具合率
- ロールバック頻度
- flaky test増減
-
人間系指標
- 1PRあたりレビュー工数
- コンテキストスイッチ回数
- 開発者の信頼度
この3系統を週次で同時に見ます。
ガードレール
- 大規模自動差分は段階レビュー必須
- 高リスク領域はテスト証跡がない変更を禁止
- エージェント作成モジュールに明確な保守責任者を設定
- 「AI差分の人手書き直し率」を計測
まとめ
トークン消費はコスト指標です。成果指標ではありません。AI導入で成果を出すチームは、生成量ではなく、リードタイム・品質・人間負荷の3点を同時に最適化しています。