Anthropic のClaudeチームが、AI会話システム「Claude Code」の開発で学んだプロンプトキャッシング(過去の計算結果を再利用する技術)の最適化方法を紹介しています。キャッシングは「前方一致マッチング」という仕組みで、リクエストの最初から最後まで同じ内容が続くほど、より多くの計算結果が再利用できます。そのため、システムプロンプトなどの固定部分を最初に配置し、会話メッセージなどの変わる部分を最後に配置することが重要です。また、セッション中にモデルやツールを変更するとキャッシュが無効になるため、避けるべきです。キャッシュ率を監視し、コンテキストウィンドウが満杯になった時の圧縮処理でもキャッシュを保つことが、コスト削減と応答性能の向上に直結します。