GPT-5.4 已至:100万Token上下文与75%计算机使用得分,重新定义AI能力边界

Nanobanana2 TeamApril 1, 2026

OpenAI于2026年3月5日发布了GPT-5.4,其基准测试结果着实令人震撼。该模型在OSWorld-V(一个衡量真实生产力工作的桌面任务模拟基准测试)中获得了75%的得分,略高于人类基准线的72.4% (NxCode, 2026)。这是首次有AI模型在桌面计算机任务上的表现超越了普通人类工作者。

再加上100万Token的上下文窗口和原生计算机使用能力,GPT-5.4已不仅仅是对聊天机器人的一次升级。它成为了首个真正意义上的“数字同事”。

核心要点

  • GPT-5.4在OSWorld-V桌面任务模拟中获得75%的得分,超越了72.4%的人类基准线 (NxCode, 2026)
  • 100万Token的上下文窗口可容纳约75万个单词(1500页)——足以一次性处理整个代码库或文档库
  • 原生计算机使用能力使其能自主操作软件应用程序,而不仅仅是回答相关问题
  • 工具搜索能力在智能体工作流中,将总Token使用量减少了47%,同时保持了准确性

100万Token的上下文窗口究竟意味着什么?

100万Token大约相当于75万个单词——粗略估计是1500页密集文本 (DataCamp, 2026)。作为对比,GPT-4最初的8K上下文仅能容纳约6000个单词。GPT-5.4的上下文窗口是其125倍大。

在实践中,这意味着:

  • 整个代码库可以一次性处理,无需分块,会话间不会丢失上下文
  • 完整的合同库可以一起分析,不再有“我只看到了前50页”的情况
  • 长期的项目历史可以放入上下文,包括数月的邮件线程、文档和决策记录
  • 复杂的多步骤智能体任务能在数小时的自主工作中保持连贯状态

这个上下文窗口不仅仅是一个数字,它标志着一个分水岭:一边是连两句话前内容都会遗忘的AI,另一边则是能将整个项目同时置于脑海的AI。

GPT-5.4 的计算机使用能力究竟如何运作?

GPT-5.4 是首个具备原生、最先进计算机使用能力的通用模型 (Applying AI, 2026)。以往的模型只能描述如何执行任务,而 GPT-5.4 能够实际完成它们。

在 OSWorld-V 基准测试中获得 75% 的分数(人类基准为 72.4%),这意味着它能:

  • 打开应用程序、导航菜单、填写表单
  • 执行跨多个应用程序的多步骤工作流
  • 处理意外的用户界面状态和错误情况
  • 完成需要在不同工具间切换上下文的任务

这意味着什么: 知识工作者的生产力瓶颈不在于知道该做什么,而在于机械执行的时间。GPT-5.4 消除了这个瓶颈。一个需要人类花费 2 小时点击、复制和粘贴的任务,现在有可能在几分钟内自主完成。

什么是工具搜索?为何它能将成本降低 47%?

GPT-5.4 一个被低估的特性是工具搜索,即无需提供明确列表,就能从庞大的生态系统中识别并使用正确工具的能力 (DataCamp, 2026)。

在以往的智能体工作流中,模型需要被提供一个精心策划的可用工具列表(这会消耗 Token 并增加延迟),而 GPT-5.4 可以动态发现并选择合适的工具。结果是:在保持同等准确性的同时,总 Token 使用量减少了 47%。

对于企业部署而言,智能体可能需要访问数百个内部工具、API 和数据库,这在成本和可靠性方面都是一项显著的效率提升。

GPT-5.4 会取代知识工作者吗?

让我们直截了当:GPT-5.4 将自动化知识工作中相当大的一部分。问题不在于这是否会发生,它已经来了。问题在于你如何定位自己以适应它。

GPT-5.4 擅长处理的工作:

  • 数据汇总和报告生成
  • 代码生成、调试和文档编写
  • 跨大型文档集的多步骤研究
  • 常规邮件草拟和日程协调
  • 表单填写、数据录入和系统导航

人类仍具优势的工作:

  • 需要组织背景和政治意识的战略判断
  • 需要品味而不仅仅是生成的创造性工作
  • 依赖关系的沟通(客户、高管、敏感谈判)
  • 超出训练数据分布的新颖问题解决
  • 问责制,仍然需要有人对产出负责

一个反复出现的类比是电子表格的引入。电子表格没有淘汰会计师,而是淘汰了常规的算术工作,并将会计师的工作重心转向了分析、战略和判断。GPT-5.4 正在更大规模、更广泛的知识工作类别中做着类似的事情。

GPT-5.4 使用成本是多少?

GPT-5.4 的 API 定价为每百万输入 Token 2.50 美元,每百万输出 Token 10.00 美元 (NxCode, 2026)。作为参考,一次性处理一份 1500 页的文档(即完整的 100 万 Token 上下文)大约需要 2.50 美元的输入 Token 成本。

提供两个版本:

  • GPT-5.4:适用于生产部署的标准版本
  • GPT-5.4 Thinking:适用于复杂多步骤问题的扩展推理模式,延迟和成本更高

ChatGPT Pro 订阅用户可免费使用 GPT-5.4,这使得个人专业人士无需 API 集成开销即可访问。


Nano Banana 2 相关资源:

常见问题解答

GPT-5.4 与之前的 OpenAI 模型有何不同?

GPT-5.4 引入了三项真正的新能力:100 万 Token 的上下文窗口(是 GPT-4 原始限制的 125 倍)、支持自主操作软件的原生计算机使用能力,以及在桌面生产力基准测试中达到 75% 的分数,超过了人类基线 (TechCrunch, 2026)。它是首个为自主多步骤工作而设计的模型,而不仅仅是回答问题。

GPT-5.4 能取代人类员工吗?

它可以自动化知识工作中相当大的一部分,特别是涉及数据处理、代码生成和多应用工作流的机械性任务。需要组织判断力、关系管理、创造性品味和问责制的任务,仍然需要人类的参与。可以将其视为一个能力极强的协作者,而非替代者 (The Agency Journal, 2026)。

GPT-5.4 的费用是多少?

GPT-5.4 API 的定价为每百万输入 Token 2.50 美元,每百万输出 Token 10 美元。处理完整的 100 万 Token 上下文大约需要 2.50 美元的输入成本。ChatGPT Pro 订阅用户(每月 200 美元)已包含 GPT-5.4 的访问权限。GPT-5.4 Thinking 版本针对扩展推理任务定价更高 (NxCode, 2026)。

什么是 OSWorld-V?它为何重要?

OSWorld-V 是一个模拟真实桌面计算机任务的基准测试,即知识工作者实际从事的工作类型。75% 的分数意味着 GPT-5.4 能正确完成 4 个真实桌面任务中的 3 个,而人类基线为 72.4%。其重要性在于它衡量的是实际的生产力能力,而不仅仅是语言理解能力 (Humai Blog, 2026)。

GPT-5.4 的上下文窗口与竞争对手相比如何?

GPT-5.4 的 100 万 Token 上下文与 Google Gemini 1.5 Pro 标称的上下文窗口大小相当,也与 Claude 的 100 万 Token 上下文匹配。这已成为前沿模型的竞争性行业标准。差异化因素不仅仅是上下文大小,还在于模型如何可靠地使用长上下文信息,而 GPT-5.4 将上下文、计算机使用和工具搜索相结合,创造了一种能力独特的智能体架构 (MindStudio, 2026)。