GPT‑5.4 が登場業務用途向けに設計|概要

GPT‑5.4 は、推論、コーディング、エージェント型ワークフローにおける最近の進歩の長所を、1つのフロンティアモデルに統合しています。GPT‑5.3‑Codex⁠ の業界最先端のコーディング能力を取り入れています。さらに、ツールやソフトウェア環境、スプレッドシート、プレゼンテーション、ドキュメントを扱うプロフェッショナルなタスク全体で、モデルの動作も改善しています。その結果、複雑な実務を正確かつ効果的に、効率よくこなすモデルが実現しました。より少ないやり取りで、求められた成果を提供します。

ChatGPT では、GPT‑5.4 Thinking は思考の進め方を回答の冒頭で示せるようになりました。これにより、返答の途中でも方針を調整でき、追加のやり取りをせずに、求めている結果により近い回答に導けます。GPT‑5.4Thinking はウェブ調査も強化されており、特に非常に具体的なクエリで効果を発揮します。また、より長い思考を必要とする質問でも、文脈をより適切に維持できるようになりました。これらの改善により、より高品質な回答をより速く提供でき、目の前のタスクに対する関連性も保てるようになりました。

Codex と API では、GPT‑5.4 は、ネイティブで最先端のコンピュータ操作能力を備えた、当社初の汎用モデルです。これにより、エージェントがコンピュータを操作し、複数のアプリケーションにまたがる複雑なワークフローを実行できるようになります。最大100万トークンのコンテキストをサポートし、エージェントが長い工程にわたるタスクを計画、実行、検証できるようにします。GPT‑5.4 は、tool search により、ツールやコネクターの大規模なエコシステムでもモデルがより適切に動作するよう改善しています。その結果、エージェントは知能を損なうことなく、適切なツールをより効率的に見つけて利用できます。最後に、GPT‑5.4 はこれまでで最もトークン効率の高いリーズニングモデルであり、GPT‑5.2 と比べて問題解決に使用するトークン数を大幅に削減しています。これにより、トークン使用量の削減と処理速度の向上を実現しています。

一般的な推論、コーディング、知識業務における進歩とあわせて、GPT‑5.4 は、ChatGPT、API、Codex 全体で、より信頼性の高いエージェント、より高速な開発者ワークフロー、そしてより高品質な出力を可能にします。

*以前は64.7%と報告されていました。GPT‑5.3‑Codex は、元の画像解像度を保持する新しい API パラメータを使用することで、74.0%を達成しています。

知識業務

GPT‑5.2 の汎用的な推論能力を基盤として、GPT‑5.4 は、専門職の実務に関わるタスクで、より一貫性があり洗練された結果を生み出します。

GDPval⁠ は、44職種にわたる明確に定義された知識業務の成果物をエージェントが作成できるかを評価するベンチマークです。この GDPval で GPT‑5.4 は新たな最先端の性能を達成しました。83.0%の比較で業界の専門職と同等以上の結果となり、GPT‑5.2 の71.0%を上回っています。

GDPval
知識業務タスク

GDPval では、米国 GDP に大きく寄与する上位9産業の44職種にわたる、明確に定義された知識業務タスクにモデルが取り組みます。これらのタスクでは、営業用プレゼンテーション、会計スプレッドシート、救急診療のスケジュール、製造図面、短編動画など、実際の成果物の作成が求められます。GPT‑5.4 では Reasoning effort を xhigh に、GPT‑5.2 では heavy に設定しました（ChatGPT ではやや低いレベルに相当します）。

「GPT-5.4 は、これまで試した中で最高のモデルです。プロフェッショナルサービス業務におけるモデル性能を測定する当社の APEX-Agents ベンチマークでも、現在トップに立っています。スライド資料、財務モデル、法的分析といった長期的な作業を伴う成果物の作成に特に優れており、競合するフロンティアモデルよりも高速かつ低コストでありながら、最高水準の性能を発揮します。」
— Mercor CEO、Brendan Foody氏
特に、スプレッドシート、プレゼンテーション、ドキュメントの作成と編集能力の向上に重点を置きました。初級レベルの投資銀行アナリストが行うようなスプレッドシートのモデリング業務を想定した社内ベンチマークでは、GPT‑5.4 の平均スコアは87.5%に達し、GPT‑5.2 の68.4%を大きく上回りました。プレゼンテーション評価用プロンプトでは、人間の評価者は68.0%の比較で GPT‑5.4 のプレゼンテーションを GPT‑5.2 より好むと評価しました。これは、デザイン性の高さ、視覚表現の多様さ、そして画像生成のより効果的な活用が理由です。

詳細はchatgpt5.4　詳細をご覧ください

Follow me!

@god_se_ta