GPT-5.4 Computer Use完全ガイド|PC操作AIの使い方と注意点
公開日: 2026年3月6日
OpenAIは2026年3月5日にGPT-5.4を発表し、native computer use capabilities を備えた最初の汎用モデルとして位置づけました。要するに、文章生成や推論だけでなく、画面を見てクリックし、入力し、複数アプリをまたぐ仕事まで同じ文脈で扱える段階に入った、ということです。
検索者が混同しやすいのは、GPT-5.4本体、旧Operator / agent mode、そして current public preview docs の関係です。本記事では、GPT-5.4全体像との違いを押さえつつ、AIエージェント市場の流れの中で Computer Use をどう扱うべきかを整理します。
3行で要点
- GPT-5.4 Computer Useは、画面を見てクリック・入力・スクロールし、Webとローカルアプリをまたぐ処理を実行できる機能です。
- 強いのは、フォーム入力、ブラウザから表計算への転記、複数アプリをまたぐ定型ワークフローのような構造化タスクです。
- CAPTCHA、MFA、決済、送信確定、本番データ削除のような高リスク操作は人間確認が前提です。OSWorld 75.0% は高い実力を示しますが、無監視運用の許可証ではありません。
Computer Useとは?3行で理解する
GPT-5.4 Computer Useは、モデルが画面を視覚的に理解しながら、クリック、入力、スクロール、アプリ切り替えを行い、指定されたゴールまで作業を進める能力です。OpenAIは公式発表で、Webからローカルアプリまで横断し、applications をまたぐ workflows を実行できることを強調しています。
ここで重要なのは、これが専用の研究プレビューだけでなく、mainline の GPT-5.4 に統合されたことです。以前は browser automation か preview model か、あるいは product surface としての Operator を別々に理解する必要がありました。今は「考える」「調べる」「コードを書く」「PCを触る」が同じタスク設計の中でつながり始めています。
AIリブート通信|週1本、仕事で使えるAI知識+ニュース解説をLINEで届ける(無料)
GPT-5.4のような新機能の速報を追うだけでなく、実務で試す順番と注意点を毎週1本の短い解説で受け取れます。ツール広告ではなく、仕事で使う前提の整理だけを知りたい方向けです。
\ 登録30秒・匿名OK・勧誘なし /
何ができるか・できないか
Computer Useで成果が出るのは、画面上の状態が読みやすく、手順がある程度固定されていて、途中で人間確認を挟める仕事です。逆に、UIの揺れが大きい、1回の誤操作コストが高い、資格情報や法的責任が絡む作業は、まだAIに最後まで握らせるべきではありません。
| 領域 | 向いている条件 | 止めるべき場面 |
|---|---|---|
| 定型フォーム入力 | 入力欄が安定し、止める位置を「送信前」で指定できる作業 | CAPTCHA、二段階認証、自治体ごとのUI変化が大きい画面は人手確認を残す |
| ブラウザ -> スプレッドシート -> メール | 情報収集、表更新、報告メール下書きを一連で処理する作業 | 送信確定や社外共有はAIに任せ切らず、レビューを挟む |
| ローカルアプリの反復操作 | ファイル整理、アップロード、ステータス更新などUIが安定した作業 | 権限の強い管理画面や削除操作は approval gate を入れる |
| 3Dプリンタ用の部品案/STL前処理 | rough draft、寸法の叩き台、STL修正の前工程 | 公差、強度、安全性は必ずCADと人手で再検証する |
| ログイン/MFA/決済 | 人間が takeover する前提の補助操作のみ | 秘密情報をメッセージに貼らない。login中は人がブラウザを握る |
| 金融・法務・本番データ更新 | 下書き、情報収集、チェックリスト化まで | 最終確定は必ず人間。高ステークス作業の自律実行は非推奨 |
実務での判断基準
まずは「同じ画面を何度も触る」「途中成果を保存できる」「失敗しても巻き戻せる」業務から始めるのが基本です。逆に、削除、送信、承認、契約、支払いのような irreversible action は Computer Use の対象外に置くか、必ず explicit approval を入れてください。
初期のコミュニティ検証では、3Dプリンタ用の部品案から STL 修正の前工程を回す maker workflow、大量のポータル入力、ブラウザから表計算とメールへつなぐ multi-app workflow が目立ちます。万能な desktop autopilot と捉えるより、「構造化されたPCオペレーションに強いエージェント」と考えるほうが実態に近いです。
OSWorld-Verified 75.0% の意味
OpenAIが前面に出している 75.0% は、OSWorld-Verified というPC操作ベンチマークでの成績です。重要なのは、単にクリックが速いという話ではなく、複数ステップの状態遷移を追いながら、途中のズレを修正してゴールまで到達できるかを測っている点です。
| 指標 | 数値 | 実務での読み方 |
|---|---|---|
| GPT-5.4 on OSWorld-Verified | 75.0% | OpenAI公式発表。PC操作ベンチマークで human baseline を上回る |
| Human baseline | 72.4% | 同じベンチマークでの人間成績。75.0% は「デモを超えた」ことを示す |
| Previous SOTA | 46.6% | GPT-5.4は前世代の state of the art から大幅に更新 |
| computer-use-preview (public guide) | 38.1% | 現行の公開実装ガイドは preview モデル基準。GPT-5.4の native Computer Use とは性能水準が異なる |
ここで見落としやすいのは、OpenAIの current public Computer use guide がまだ`computer-use-preview`を中心に書かれており、その guide 上の OSWorld は 38.1% だという点です。公開されている実装サンプルは参考になる一方、GPT-5.4 announcement が示す native Computer Use の性能水準はそれよりかなり先に進んでいます。
ただし、75.0% は「人間以上に安全」という意味ではありません。ベンチマークにない独自UI、社内権限モデル、session timeout、prompt injection、監査要件は別問題です。実務では benchmark を信用しつつも、最後は自社の workflow で acceptance test を通す必要があります。
実際の使い方(ChatGPT経由 / API経由)
ChatGPT経由で始める手順
- ChatGPTの paid plan と agent mode 利用可否を確認する。Free plan では使えない。
- 新しいチャットで tools menu から Agent を選ぶか、composer で `/agent` と入力する。
- ゴール、入力データ、止める条件を1プロンプトで明示する。例: 「CSVのA〜F列をフォームに入力し、送信前で止まってください」
- login、MFA、支払い情報、機密入力が必要になったら Take over browser に切り替えて人間が操作する。
- 完了後は結果だけでなく、失敗行、要確認箇所、次回使い回すプロンプトを agent に要約させる。
OpenAI Help Center によると、ChatGPT agent は visual browser、terminal、apps を使って 5〜30分程度の複雑タスクを処理できます。フォーム入力や spreadsheet 編集のようなタスクは向いていますが、login が必要な場面では takeover が前提です。takeover 中は screenshots を取得しないため、password や secret の入力は必ずそこで行ってください。
API経由で始める手順
- 個人PCではなく、sandboxed browser / VM / container のような isolated environment を用意する。
- Responses API で computer loop を組む。現時点の公開ガイドは `computer-use-preview` と `computer_use_preview` を使う。
- response の `computer_call` を受け取り、クリック、入力、スクロールなどをコードで実行する。
- 実行後の screenshot を `computer_call_output` として返し、可能なら `current_url` も送って safety check の精度を上げる。
- `pending_safety_checks` が返ったら、人間確認を挟んだうえで `acknowledged_safety_checks` を返す。
// Current public guide pattern (2026-03-06)
response = client.responses.create({
model: "computer-use-preview",
tools: [{
type: "computer_use_preview",
display_width: 1440,
display_height: 900,
environment: "browser"
}],
input: [{
role: "user",
content: [{ type: "input_text", text: "Open the portal and stop before submit." }]
}],
reasoning: { summary: "concise" },
truncation: "auto"
})
// Loop
// 1. Read computer_call
// 2. Execute click/type/scroll in sandbox
// 3. Send computer_call_output with screenshot + current_url
// 4. If pending_safety_checks exists, ask human and pass acknowledged_safety_checks公開ガイドでは `current_url` と `acknowledged_safety_checks` を送る設計が推奨されています。これは prompt injection や irrelevant domain の検出精度を上げるためです。
AIリブート通信|週1本、仕事で使えるAI知識+ニュース解説をLINEで届ける(無料)
GPT-5.4のような新機能の速報を追うだけでなく、実務で試す順番と注意点を毎週1本の短い解説で受け取れます。ツール広告ではなく、仕事で使う前提の整理だけを知りたい方向けです。
\ 登録30秒・匿名OK・勧誘なし /
活用シーン5選
「何に使うと一番効くのか」が分からないまま導入すると、Computer Use はすぐに過大評価か過小評価に振れます。最初は、成果物、止める条件、責任分界が明確な作業から始めるべきです。
1. 3Dプリンタ用の部品案とSTL前処理
初期のコミュニティ検証では、自然文の仕様から部品案を起こし、参考画像や寸法表を調べ、STL修正の前工程までつなげる使い方が試されています。価値が出るのは『最初のラフを速く作る』部分です。
運用ルール: 最終寸法、公差、強度計算、安全確認は人間の責任で行う。
2. 3万件規模のポータル入力ワークフロー
OpenAI公式発表では、Mainstay が custom confirmation policies を使い、3万超の property tax portals をまたぐ処理を進めている事例が紹介されています。Computer Useは、差分の大きいフォームでも『途中で止める』『危険な箇所だけ承認する』設計と相性が良いです。
運用ルール: 自治体やシステムごとの差分、session timeout、送信確定前のレビューを前提にする。
3. ブラウザ -> スプレッドシート -> メールの複数アプリ連携
価格調査、競合調査、進捗更新のような作業では、ブラウザで情報を集めて表に転記し、そのまま報告メールまで作る multi-app workflow が効果を出しやすいです。OpenAIも『workflows across applications』を GPT-5.4 の強みとして挙げています。
運用ルール: 社外送信や最終共有は人間がチェックする。
4. バックオフィスの定型処理
添付ファイルの保存、命名ルールの統一、管理画面のステータス更新、FAQの転記のような反復処理は、ルール化しやすく、Computer Useの導入候補になりやすい領域です。
運用ルール: 対象アプリを allowlist 化し、権限を最小化したアカウントで動かす。
5. 内製ツールのUI回帰チェック
smoke test 的にログイン画面、主要導線、保存前までのクリック列を流し、エラー時の screenshot を残す用途も実務的です。完全なE2Eテストの代替ではなく、人間の確認を減らす補助として捉えると設計しやすいです。
運用ルール: 本番データ変更は避け、テスト環境でだけ回す。
特に大量フォーム入力と複数アプリまたぎは、初期の反応が最も熱い領域です。逆に、Computer Use を「どんなPC作業でも丸ごと任せられる」と捉えると事故率が上がります。価値が出るのは、手順があり、途中レビューがあり、巻き戻しできる workflow です。
セキュリティ・プライバシーの注意点
企業利用で最初に見るべきは精度ではなく、screenshots と secrets の取り扱いです。ChatGPT agent は visual browser の screenshots を使ってページを理解します。画面に出した情報の範囲が、そのままモデルの判断材料になります。
- パスワード、APIキー、個人情報をメッセージ本文に貼らない。機密入力は takeover 中に人が行う。
- 必要な apps / connectors だけ有効化し、使わない権限は外す。
- agent が使う browser / VM は個人端末から分離し、履歴、cookie、downloads の扱いを決める。
- Plus / Pro では screenshots を含むデータが privacy policy に従って扱われる。Business / Enterprise / Edu は既定で学習に使われない点を分けて理解する。
- screenshots と browsing history は chat を削除するまで残る。機密タスク後は retention と削除フローを必ず回す。
- workspace 単位で RBAC、app controls、website blocking を使い、agent が触れてよい範囲を狭める。
OpenAI Help Center では、Plus / Pro と Business / Enterprise / Edu でデータの扱いが分かれています。業務で顧客情報や未公開情報を扱うなら、consumer plan の延長ではなく、workspace controls と retention policy を前提に設計すべきです。特に website blocking、RBAC、enabled apps の制御は導入初期から決めてください。
FAQ
AIリブート通信|週1本、仕事で使えるAI知識+ニュース解説をLINEで届ける(無料)
GPT-5.4のような新機能の速報を追うだけでなく、実務で試す順番と注意点を毎週1本の短い解説で受け取れます。ツール広告ではなく、仕事で使う前提の整理だけを知りたい方向けです。
\ 登録30秒・匿名OK・勧誘なし /
ツール名ではなく、AIを仕事に組み込む判断軸を持ちたい方へ
GPT-5.4のような新機能で差がつくのは、触った人より、どの業務に任せてどこを人が握るかを設計できる人です。AIリブートアカデミーでは、特定ツールの操作習得ではなく、生成AI活用力、自己理解・キャリアデザイン、仲間と共に学ぶ環境を一体で整えています。
生成AI活用力
新機能をただ試すのではなく、どの業務に当てると再現性が出るかを判断する力を育てます。
自己理解・キャリアデザイン
AIを鏡にして、自分の強み、任せるべき仕事、伸ばすべき役割を言語化します。
仲間と共に学ぶ環境
試行錯誤や運用知見を共有できる仲間がいることで、単発の検証を継続的な実務変化に変えます。
