Claudeのコンピュータ・ブラウザ操作機能を使う際のベストプラクティス
原題: Best practices for computer and browser use with Claude
📝 要約
Anthropicが公開した、AI アシスタント「Claude」がコンピュータやブラウザを操作する際のベストプラクティスガイドです。最も重要なポイントは、スクリーンショット(画面の画像)をAPIに送信する前に適切なサイズに縮小することです。高解像度のままでは、APIの内部制限により自動的に圧縮され、モデルが見ている画像と実際のクリック座標がズレてしまいます。推奨解像度は1280×720ピクセルで、これによりクリック精度が大幅に向上します。その他にも、テキスト指示を画像の前に置く、座標を正しくスケーリングする、小さなUIэлементをズーム機能で拡大するなど、実装上の細かいテクニックが紹介されています。
📌 ポイント
- スクリーンショットを送信前に適切にサイズ縮小することが、クリック精度向上の最重要ポイント
- 推奨解像度は1280×720ピクセル(Opus 4.7の場合は1080p)で、APIの処理制限を避けられる
- テキスト指示を画像の前に配置し、返されたクリック座標を正しく元の画面解像度にスケーリングする必要がある
- 小さなボタンやチェックボックスはズーム機能を有効にするか、キーボード操作で対応する
- Claude Sonnet 4.6はクリック精度、Opus 4.7は高解像度対応と推論能力のバランスが優れている
💡 わかりやすく言うと…
スマートフォンで小さい文字を読むとき、ズームしないと見えづらいのと同じように、AIがスクリーンショットを見るときも、適切なサイズに調整してあげないと、ボタンの位置を正確に認識できません。大きく拡大しすぎても圧縮しすぎても精度が落ちるので、バランスの取れた「ちょうどいいサイズ」を見つけることが大切です。