GPT-5.4 Computer UseChatGPT PC操作自動化GPT-5.4 コンピュータ操作使い方AI PC自動化 2026

GPT-5.4 Computer Use完全ガイド｜PC操作AIの使い方と注意点

公開日: 2026年3月6日

OpenAIは2026年3月5日にGPT-5.4を発表し、native computer use capabilities を備えた最初の汎用モデルとして位置づけました。要するに、文章生成や推論だけでなく、画面を見てクリックし、入力し、複数アプリをまたぐ仕事まで同じ文脈で扱える段階に入った、ということです。

検索者が混同しやすいのは、GPT-5.4本体、旧Operator / agent mode、そして current public preview docs の関係です。本記事では、GPT-5.4全体像との違いを押さえつつ、AIエージェント市場の流れの中で Computer Use をどう扱うべきかを整理します。

3行で要点

GPT-5.4 Computer Useは、画面を見てクリック・入力・スクロールし、Webとローカルアプリをまたぐ処理を実行できる機能です。
強いのは、フォーム入力、ブラウザから表計算への転記、複数アプリをまたぐ定型ワークフローのような構造化タスクです。
CAPTCHA、MFA、決済、送信確定、本番データ削除のような高リスク操作は人間確認が前提です。OSWorld 75.0% は高い実力を示しますが、無監視運用の許可証ではありません。

Computer Useとは？3行で理解する

GPT-5.4 Computer Useは、モデルが画面を視覚的に理解しながら、クリック、入力、スクロール、アプリ切り替えを行い、指定されたゴールまで作業を進める能力です。OpenAIは公式発表で、Webからローカルアプリまで横断し、applications をまたぐ workflows を実行できることを強調しています。

ここで重要なのは、これが専用の研究プレビューだけでなく、mainline の GPT-5.4 に統合されたことです。以前は browser automation か preview model か、あるいは product surface としての Operator を別々に理解する必要がありました。今は「考える」「調べる」「コードを書く」「PCを触る」が同じタスク設計の中でつながり始めています。

位置づけを一言で言うと

旧Operatorが「どこから使うか」という product surface の話だったのに対し、GPT-5.4 Computer Useは「モデルが何をネイティブにできるか」という capability の話です。検索時にこの2つを分けておくと、ChatGPT手順とAPI手順の違いで迷いにくくなります。

AIリブート通信｜週1本、仕事で使えるAI知識＋ニュース解説をLINEで届ける（無料）

GPT-5.4のような新機能の速報を追うだけでなく、実務で試す順番と注意点を毎週1本の短い解説で受け取れます。ツール広告ではなく、仕事で使う前提の整理だけを知りたい方向けです。

LINEで週1AI通信を受け取る（無料）

＼登録30秒・匿名OK・勧誘なし／

何ができるか・できないか

Computer Useで成果が出るのは、画面上の状態が読みやすく、手順がある程度固定されていて、途中で人間確認を挟める仕事です。逆に、UIの揺れが大きい、1回の誤操作コストが高い、資格情報や法的責任が絡む作業は、まだAIに最後まで握らせるべきではありません。

領域	向いている条件	止めるべき場面
定型フォーム入力	入力欄が安定し、止める位置を「送信前」で指定できる作業	CAPTCHA、二段階認証、自治体ごとのUI変化が大きい画面は人手確認を残す
ブラウザ -> スプレッドシート -> メール	情報収集、表更新、報告メール下書きを一連で処理する作業	送信確定や社外共有はAIに任せ切らず、レビューを挟む
ローカルアプリの反復操作	ファイル整理、アップロード、ステータス更新などUIが安定した作業	権限の強い管理画面や削除操作は approval gate を入れる
3Dプリンタ用の部品案/STL前処理	rough draft、寸法の叩き台、STL修正の前工程	公差、強度、安全性は必ずCADと人手で再検証する
ログイン/MFA/決済	人間が takeover する前提の補助操作のみ	秘密情報をメッセージに貼らない。login中は人がブラウザを握る
金融・法務・本番データ更新	下書き、情報収集、チェックリスト化まで	最終確定は必ず人間。高ステークス作業の自律実行は非推奨

実務での判断基準

まずは「同じ画面を何度も触る」「途中成果を保存できる」「失敗しても巻き戻せる」業務から始めるのが基本です。逆に、削除、送信、承認、契約、支払いのような irreversible action は Computer Use の対象外に置くか、必ず explicit approval を入れてください。

初期のコミュニティ検証では、3Dプリンタ用の部品案から STL 修正の前工程を回す maker workflow、大量のポータル入力、ブラウザから表計算とメールへつなぐ multi-app workflow が目立ちます。万能な desktop autopilot と捉えるより、「構造化されたPCオペレーションに強いエージェント」と考えるほうが実態に近いです。

最初のPoCで外すべき領域

金融、法務、医療、個人情報の大量処理、本番データ削除、社外送信の自動確定は初期PoCから外してください。高ステークス領域は human-in-the-loop が前提であり、成功率より事故コストの管理が先です。

OSWorld-Verified 75.0% の意味

OpenAIが前面に出している 75.0% は、OSWorld-Verified というPC操作ベンチマークでの成績です。重要なのは、単にクリックが速いという話ではなく、複数ステップの状態遷移を追いながら、途中のズレを修正してゴールまで到達できるかを測っている点です。

指標	数値	実務での読み方
GPT-5.4 on OSWorld-Verified	75.0%	OpenAI公式発表。PC操作ベンチマークで human baseline を上回る
Human baseline	72.4%	同じベンチマークでの人間成績。75.0% は「デモを超えた」ことを示す
Previous SOTA	46.6%	GPT-5.4は前世代の state of the art から大幅に更新
computer-use-preview (public guide)	38.1%	現行の公開実装ガイドは preview モデル基準。GPT-5.4の native Computer Use とは性能水準が異なる

ここで見落としやすいのは、OpenAIの current public Computer use guide がまだ`computer-use-preview`を中心に書かれており、その guide 上の OSWorld は 38.1% だという点です。公開されている実装サンプルは参考になる一方、GPT-5.4 announcement が示す native Computer Use の性能水準はそれよりかなり先に進んでいます。

ただし、75.0% は「人間以上に安全」という意味ではありません。ベンチマークにない独自UI、社内権限モデル、session timeout、prompt injection、監査要件は別問題です。実務では benchmark を信用しつつも、最後は自社の workflow で acceptance test を通す必要があります。

実際の使い方（ChatGPT経由 / API経由）

ChatGPT経由で始める手順

ChatGPTの paid plan と agent mode 利用可否を確認する。Free plan では使えない。
新しいチャットで tools menu から Agent を選ぶか、composer で `/agent` と入力する。
ゴール、入力データ、止める条件を1プロンプトで明示する。例: 「CSVのA〜F列をフォームに入力し、送信前で止まってください」
login、MFA、支払い情報、機密入力が必要になったら Take over browser に切り替えて人間が操作する。
完了後は結果だけでなく、失敗行、要確認箇所、次回使い回すプロンプトを agent に要約させる。

OpenAI Help Center によると、ChatGPT agent は visual browser、terminal、apps を使って 5〜30分程度の複雑タスクを処理できます。フォーム入力や spreadsheet 編集のようなタスクは向いていますが、login が必要な場面では takeover が前提です。takeover 中は screenshots を取得しないため、password や secret の入力は必ずそこで行ってください。

API経由で始める手順

個人PCではなく、sandboxed browser / VM / container のような isolated environment を用意する。
Responses API で computer loop を組む。現時点の公開ガイドは `computer-use-preview` と `computer_use_preview` を使う。
response の `computer_call` を受け取り、クリック、入力、スクロールなどをコードで実行する。
実行後の screenshot を `computer_call_output` として返し、可能なら `current_url` も送って safety check の精度を上げる。
`pending_safety_checks` が返ったら、人間確認を挟んだうえで `acknowledged_safety_checks` を返す。

// Current public guide pattern (2026-03-06)
response = client.responses.create({
  model: "computer-use-preview",
  tools: [{
    type: "computer_use_preview",
    display_width: 1440,
    display_height: 900,
    environment: "browser"
  }],
  input: [{
    role: "user",
    content: [{ type: "input_text", text: "Open the portal and stop before submit." }]
  }],
  reasoning: { summary: "concise" },
  truncation: "auto"
})

// Loop
// 1. Read computer_call
// 2. Execute click/type/scroll in sandbox
// 3. Send computer_call_output with screenshot + current_url
// 4. If pending_safety_checks exists, ask human and pass acknowledged_safety_checks

公開ガイドでは `current_url` と `acknowledged_safety_checks` を送る設計が推奨されています。これは prompt injection や irrelevant domain の検出精度を上げるためです。

公開ドキュメントのズレに注意

GPT-5.4の発表では updated `computer` tool が API / Codex に追加されたと案内されていますが、2026-03-06 時点で一般公開されている詳細実装ガイドは `computer-use-preview` naming のままです。実装前に最新の API reference / release notes で、使うモデル名と tool 名を必ず再確認してください。

AIリブート通信｜週1本、仕事で使えるAI知識＋ニュース解説をLINEで届ける（無料）

LINEで週1AI通信を受け取る（無料）

＼登録30秒・匿名OK・勧誘なし／

活用シーン5選

「何に使うと一番効くのか」が分からないまま導入すると、Computer Use はすぐに過大評価か過小評価に振れます。最初は、成果物、止める条件、責任分界が明確な作業から始めるべきです。

1. 3Dプリンタ用の部品案とSTL前処理

初期のコミュニティ検証では、自然文の仕様から部品案を起こし、参考画像や寸法表を調べ、STL修正の前工程までつなげる使い方が試されています。価値が出るのは『最初のラフを速く作る』部分です。

運用ルール: 最終寸法、公差、強度計算、安全確認は人間の責任で行う。

2. 3万件規模のポータル入力ワークフロー

OpenAI公式発表では、Mainstay が custom confirmation policies を使い、3万超の property tax portals をまたぐ処理を進めている事例が紹介されています。Computer Useは、差分の大きいフォームでも『途中で止める』『危険な箇所だけ承認する』設計と相性が良いです。

運用ルール: 自治体やシステムごとの差分、session timeout、送信確定前のレビューを前提にする。

3. ブラウザ -> スプレッドシート -> メールの複数アプリ連携

価格調査、競合調査、進捗更新のような作業では、ブラウザで情報を集めて表に転記し、そのまま報告メールまで作る multi-app workflow が効果を出しやすいです。OpenAIも『workflows across applications』を GPT-5.4 の強みとして挙げています。

運用ルール: 社外送信や最終共有は人間がチェックする。

4. バックオフィスの定型処理

添付ファイルの保存、命名ルールの統一、管理画面のステータス更新、FAQの転記のような反復処理は、ルール化しやすく、Computer Useの導入候補になりやすい領域です。

運用ルール: 対象アプリを allowlist 化し、権限を最小化したアカウントで動かす。

5. 内製ツールのUI回帰チェック

smoke test 的にログイン画面、主要導線、保存前までのクリック列を流し、エラー時の screenshot を残す用途も実務的です。完全なE2Eテストの代替ではなく、人間の確認を減らす補助として捉えると設計しやすいです。

運用ルール: 本番データ変更は避け、テスト環境でだけ回す。

特に大量フォーム入力と複数アプリまたぎは、初期の反応が最も熱い領域です。逆に、Computer Use を「どんなPC作業でも丸ごと任せられる」と捉えると事故率が上がります。価値が出るのは、手順があり、途中レビューがあり、巻き戻しできる workflow です。

セキュリティ・プライバシーの注意点

企業利用で最初に見るべきは精度ではなく、screenshots と secrets の取り扱いです。ChatGPT agent は visual browser の screenshots を使ってページを理解します。画面に出した情報の範囲が、そのままモデルの判断材料になります。

パスワード、APIキー、個人情報をメッセージ本文に貼らない。機密入力は takeover 中に人が行う。
必要な apps / connectors だけ有効化し、使わない権限は外す。
agent が使う browser / VM は個人端末から分離し、履歴、cookie、downloads の扱いを決める。
Plus / Pro では screenshots を含むデータが privacy policy に従って扱われる。Business / Enterprise / Edu は既定で学習に使われない点を分けて理解する。
screenshots と browsing history は chat を削除するまで残る。機密タスク後は retention と削除フローを必ず回す。
workspace 単位で RBAC、app controls、website blocking を使い、agent が触れてよい範囲を狭める。

OpenAI Help Center では、Plus / Pro と Business / Enterprise / Edu でデータの扱いが分かれています。業務で顧客情報や未公開情報を扱うなら、consumer plan の延長ではなく、workspace controls と retention policy を前提に設計すべきです。特に website blocking、RBAC、enabled apps の制御は導入初期から決めてください。

企業導入前に最低限決める4項目

1. agent が触れてよいアプリとドメインの allowlist / blocklist。 2. login / approval / send / delete の責任者。 3. screenshots と logs の保存期間。 4. 失敗時の切り戻し手順。この4点が決まっていない状態で本番運用に入るのは危険です。

FAQ

AIリブート通信｜週1本、仕事で使えるAI知識＋ニュース解説をLINEで届ける（無料）

LINEで週1AI通信を受け取る（無料）

＼登録30秒・匿名OK・勧誘なし／

ツール名ではなく、AIを仕事に組み込む判断軸を持ちたい方へ

GPT-5.4のような新機能で差がつくのは、触った人より、どの業務に任せてどこを人が握るかを設計できる人です。AIリブートアカデミーでは、特定ツールの操作習得ではなく、生成AI活用力、自己理解・キャリアデザイン、仲間と共に学ぶ環境を一体で整えています。

生成AI活用力

新機能をただ試すのではなく、どの業務に当てると再現性が出るかを判断する力を育てます。

自己理解・キャリアデザイン

AIを鏡にして、自分の強み、任せるべき仕事、伸ばすべき役割を言語化します。

仲間と共に学ぶ環境

試行錯誤や運用知見を共有できる仲間がいることで、単発の検証を継続的な実務変化に変えます。

AIリブートアカデミーの詳細を見る