GPT-5.4 发布解读：83% 知识工作达标与原生「用电脑」能力

一、这次真不只是「又发了一个模型」

3 月 5 日，OpenAI 把 GPT-5.4 铺进了 ChatGPT、API 和 Codex。光看版本号像小步迭代，但这次一口气踩过了三条线。

以前大家比的是考试考多少分、代码修多少 bug。这回不一样：44 个真实职业、专家盲评的 220 个任务里，83% 的情况下模型交出来的东西被判「达到或超过从业者水平」——交的不是试卷，是法律简报、表格、演示稿、排班表这类真能拿去用的交付物。

同一时间，在「像人一样用桌面」的 OSWorld 上它头一回跑赢人类（75% 对 72.4%），推理、编码和「看屏+键鼠操作电脑」也头一回塞进同一条模型线。参数多了、名字新了都不重要，重要的是「模型能替人做到哪一步」这答案，实实在在往前挪了一格。

二、83% 到底在测什么

GDPval 这名字来自 GDP。OpenAI 从美国 GDP 占比最高的 9 个行业里挑了 44 个以知识工作为主的职业，拿真实的工作产出当题：不是选择题也不是算法题，而是给你一份需求、一堆资料，让你产出一份法律简报、一张工程图、一套销售演示或一份护理计划。出题和把关的都是干了十几年的老手，格式怎么交、标准怎么评，按行业习惯来。

全量 1320 个任务，对外公开的「金标」子集 220 个。评分时专家不知道哪份是 AI、哪份是人，只比「这份和那份谁更好或差不多」。在这套规则下，GPT-5.4 在 83% 的任务里拿到「达到或超过人类专家」的判定，上一代 5.2 和 5.3-Codex 都是 70.9%。GDPval 目前还是单轮、任务说清楚的设定，没涵盖「客户改了三版」「目标一开始就很模糊」那种真实协作。说白了：任务和资料都齐备的时候，多数职业任务上模型已经能交出专家级的活——不是人类全体下班，而是「可交付」这条线被划出来了。

以前行业比模型，看 MMLU、SWE-Bench，其实都在比「会不会做题」。GDPval 把尺子换成了「交出来的东西能不能当正经工作成果用」，覆盖法律、会计、制造、医疗、金融、零售……企业谈采购、人机分工、培训该教什么，总算有个贴着真实经济价值的标尺能参照。

三、「会用电脑」从绝活变成了标配

GPT-5.4 是 OpenAI 头一个在通用模型里把计算机使用做到业界最好的版本。以前要自动化一个界面，要么接 API 要么写 RPA，前提都是接口稳定、流程固定。现在模型能看截图、发键鼠指令，在真实桌面和浏览器里一步步操作——你看屏、点哪、填什么，它就按同样方式做。

底层就是「看屏 → 想一步 → 动一步」的循环，也就是他们说的 CUA（Computer-Using Agent），视觉+强化学习，像人一样跟图形界面打交道。

看数字就行：OSWorld-Verified 测的是「给你一个桌面环境，用截图和键鼠把任务做完」。GPT-5.4 成功率 75%，人类 72.4%——头一回有模型在这类测试上跑赢人。浏览器场景的 WebArena、Mind2Web 上它也领先一截。图输入上了更高清档（original 最高约 10.24M 像素），点得准、看得细，复杂界面更好使。

先动到的就是「谁在电脑前点点填填」。老系统、内网后台、没开放 API 的软件，人能用的，模型理论上也能按步骤跑。RPA、流程外包、客服和运营里一大堆「坐电脑前操作」的活，得重新算账：继续招人点，还是交给能看屏、能键鼠的智能体。

基准一览

基准	说明	GPT-5.4	GPT-5.2	参考
OSWorld-Verified	截图+键鼠操作桌面	75.0%	47.3%	人类 72.4%
WebArena-Verified	浏览器（DOM+截图）	67.3%	65.4%	—
Online-Mind2Web	仅截图的浏览器任务	92.8%	—	Atlas 70.9%

四、长上下文、少出错、办公活儿更好使

剩下就是几件实用事。上下文拉到最多 100 万 token（输入最多约 100 万、输出 12.8 万），整本书、整座代码库塞进去一起推，长链规划和复杂文档更好搞。出错也少：单句错误率比 5.2 降了约 33%，整段里出现任何错误的概率降了约 18%。

表格和演示更贴近真干活：内部那种投行分析师级的建模任务，5.4 平均 87.3% 对 5.2 的 68.4%；做 PPT，人工打分约 68% 更偏好 5.4 的版式和配图。工具侧多了 Tool search，工具一多就只先传名单、用到了再取定义，MCP Atlas 这类场景里总 token 能省一大截（约 47%）还不掉准确率。多轮上网找难找的信息（BrowseComp），5.4 从 5.2 的 65.8% 提到 82.7%，Pro 到 89.3%。编码接着吃 5.3-Codex 的老本，SWE-Bench Pro 上 57.7%，复杂前端和多步工具更稳；Codex 里开 /fast 还能再快一截。

五、Thinking、安全、怎么用上

ChatGPT 里用 GPT-5.4 Thinking，先给你一个思考或计划摘要，你可以在它干活中途改方向，少来回几轮。要顶配就 GPT-5.4 Pro（Pro/Enterprise 和 API 的 gpt-5.4-pro）。安全按「高网络能力」那一套管，监控和 CoT 可审计性都加强了。5.2 Thinking 还会留大概三个月，2026 年 6 月 5 日退役；API 价 5.4 比 5.2 贵（输入 $2.50/M、输出 $15/M），Batch/Flex 半价，Priority 双倍。

六、为什么说是拐点

标尺换了。以前看考得好不好，现在 GDPval 直接看干得好不好——44 个职业的真实交付物，同行专家盲评。83% 就是在这把尺子上，模型已经迈过「多数任务能交活」的线。企业和人力聊的，自然会从「能不能用」变成「怎么用、谁把关、责任怎么划」。

「用电脑」从绝活变标配：不用再给每个系统接 API 或写死脚本，截图+键鼠就能对付任意界面。人坐在电脑前点点填填的流程，都进了「可以给智能体试一把」的名单，RPA、外包、内勤的性价比得重新算。

推理、编码、用电脑三条线头一回在同一个模型里打通。单点强不稀奇，能同时交文档、写代码、操桌面，才撑得起「一个代理从理解需求到在多应用里执行」的闭环。产品会从「对话+插件」往「能塞进任意工作流的数字员工」走，竞品、客户预期、什么叫 AI 原生，都得跟着动。

七、谁会被波及、谁该早想一步

能拆清楚、能验收的活（报表、演示、初稿、简单流程），「先让模型出一版再给人审」会从试点变常规。企业和采购比的不再只是买不买某个 AI，而是人做、模型做、人机一起怎么配更划算。

重复度高、输入输出都规范的那块——法务初稿、财务建模、客服话术、运营填表——会更快变成「模型主做、人复核」。值钱的是需求澄清、例外判断、背锅和跟人沟通；只会按清晰指令执行、不参与判断的岗位，压力会上去。

能直接调「用电脑」的 API，会带出一波新的自动化和助手产品，不接满世界 API 也能动老系统和内网。开发者和做智能体的，能做的事越多，安全、权限、审计就得越明确，滥用和误用的线得提前画好。

83% 要是在更多职业和任务上站稳甚至再涨，教育就得想清楚：到底在培养模型替不掉的判断、创造和担责，还是能被工具大幅增强的执行与产出。只会「做得快、格式对」的竞争力会掉价，审辨、沟通、担责、跨域整合会更值钱。

八、一句收尾

GPT-5.4 把「知识工作八成能交活」（GDPval 83%）和「像人一样用桌面」（OSWorld 超人类）塞进同一条线，数字员工从概念走到可量产，拐点就在这儿。边界也有：GDPval 仍是单轮、任务清晰的那一块，真工作里的模糊目标、多轮沟通、合规和责任，还得人和流程兜着。拿它当尺子就够——任务和资料齐备时，多数职业任务模型能达标甚至超标，还能直接操作电脑。想清楚「哪些交给模型、哪些必须留给人」，比吵取不取代人实在。

官方发布与 GDPval 说明：Introducing GPT-5.4，GDPval 介绍。

GPT-5.4 发布解读：83% 知识工作达标与原生「用电脑」能力

一、这次真不只是「又发了一个模型」

二、83% 到底在测什么

三、「会用电脑」从绝活变成了标配

基准一览

四、长上下文、少出错、办公活儿更好使

五、Thinking、安全、怎么用上

六、为什么说是拐点

七、谁会被波及、谁该早想一步

八、一句收尾

评论

发表回复取消回复

GPT-5.4 发布解读：83% 知识工作达标与原生「用电脑」能力

一、这次真不只是「又发了一个模型」

二、83% 到底在测什么

三、「会用电脑」从绝活变成了标配

基准一览

四、长上下文、少出错、办公活儿更好使

五、Thinking、安全、怎么用上

六、为什么说是拐点

七、谁会被波及、谁该早想一步

八、一句收尾

评论

发表回复 取消回复

发表回复取消回复