一、这次真不只是「又发了一个模型」
3 月 5 日,OpenAI 把 GPT-5.4 铺进了 ChatGPT、API 和 Codex。光看版本号像小步迭代,但这次一口气踩过了三条线。
以前大家比的是考试考多少分、代码修多少 bug。这回不一样:44 个真实职业、专家盲评的 220 个任务里,83% 的情况下模型交出来的东西被判「达到或超过从业者水平」——交的不是试卷,是法律简报、表格、演示稿、排班表这类真能拿去用的交付物。

同一时间,在「像人一样用桌面」的 OSWorld 上它头一回跑赢人类(75% 对 72.4%),推理、编码和「看屏+键鼠操作电脑」也头一回塞进同一条模型线。参数多了、名字新了都不重要,重要的是「模型能替人做到哪一步」这答案,实实在在往前挪了一格。
二、83% 到底在测什么
GDPval 这名字来自 GDP。OpenAI 从美国 GDP 占比最高的 9 个行业里挑了 44 个以知识工作为主的职业,拿真实的工作产出当题:不是选择题也不是算法题,而是给你一份需求、一堆资料,让你产出一份法律简报、一张工程图、一套销售演示或一份护理计划。出题和把关的都是干了十几年的老手,格式怎么交、标准怎么评,按行业习惯来。

全量 1320 个任务,对外公开的「金标」子集 220 个。评分时专家不知道哪份是 AI、哪份是人,只比「这份和那份谁更好或差不多」。在这套规则下,GPT-5.4 在 83% 的任务里拿到「达到或超过人类专家」的判定,上一代 5.2 和 5.3-Codex 都是 70.9%。GDPval 目前还是单轮、任务说清楚的设定,没涵盖「客户改了三版」「目标一开始就很模糊」那种真实协作。说白了:任务和资料都齐备的时候,多数职业任务上模型已经能交出专家级的活——不是人类全体下班,而是「可交付」这条线被划出来了。
以前行业比模型,看 MMLU、SWE-Bench,其实都在比「会不会做题」。GDPval 把尺子换成了「交出来的东西能不能当正经工作成果用」,覆盖法律、会计、制造、医疗、金融、零售……企业谈采购、人机分工、培训该教什么,总算有个贴着真实经济价值的标尺能参照。
三、「会用电脑」从绝活变成了标配
GPT-5.4 是 OpenAI 头一个在通用模型里把计算机使用做到业界最好的版本。以前要自动化一个界面,要么接 API 要么写 RPA,前提都是接口稳定、流程固定。现在模型能看截图、发键鼠指令,在真实桌面和浏览器里一步步操作——你看屏、点哪、填什么,它就按同样方式做。
底层就是「看屏 → 想一步 → 动一步」的循环,也就是他们说的 CUA(Computer-Using Agent),视觉+强化学习,像人一样跟图形界面打交道。

看数字就行:OSWorld-Verified 测的是「给你一个桌面环境,用截图和键鼠把任务做完」。GPT-5.4 成功率 75%,人类 72.4%——头一回有模型在这类测试上跑赢人。浏览器场景的 WebArena、Mind2Web 上它也领先一截。图输入上了更高清档(original 最高约 10.24M 像素),点得准、看得细,复杂界面更好使。
先动到的就是「谁在电脑前点点填填」。老系统、内网后台、没开放 API 的软件,人能用的,模型理论上也能按步骤跑。RPA、流程外包、客服和运营里一大堆「坐电脑前操作」的活,得重新算账:继续招人点,还是交给能看屏、能键鼠的智能体。
基准一览
| 基准 | 说明 | GPT-5.4 | GPT-5.2 | 参考 |
|---|---|---|---|---|
| OSWorld-Verified | 截图+键鼠操作桌面 | 75.0% | 47.3% | 人类 72.4% |
| WebArena-Verified | 浏览器(DOM+截图) | 67.3% | 65.4% | — |
| Online-Mind2Web | 仅截图的浏览器任务 | 92.8% | — | Atlas 70.9% |
四、长上下文、少出错、办公活儿更好使
剩下就是几件实用事。上下文拉到最多 100 万 token(输入最多约 100 万、输出 12.8 万),整本书、整座代码库塞进去一起推,长链规划和复杂文档更好搞。出错也少:单句错误率比 5.2 降了约 33%,整段里出现任何错误的概率降了约 18%。

表格和演示更贴近真干活:内部那种投行分析师级的建模任务,5.4 平均 87.3% 对 5.2 的 68.4%;做 PPT,人工打分约 68% 更偏好 5.4 的版式和配图。工具侧多了 Tool search,工具一多就只先传名单、用到了再取定义,MCP Atlas 这类场景里总 token 能省一大截(约 47%)还不掉准确率。多轮上网找难找的信息(BrowseComp),5.4 从 5.2 的 65.8% 提到 82.7%,Pro 到 89.3%。编码接着吃 5.3-Codex 的老本,SWE-Bench Pro 上 57.7%,复杂前端和多步工具更稳;Codex 里开 /fast 还能再快一截。
五、Thinking、安全、怎么用上
ChatGPT 里用 GPT-5.4 Thinking,先给你一个思考或计划摘要,你可以在它干活中途改方向,少来回几轮。要顶配就 GPT-5.4 Pro(Pro/Enterprise 和 API 的 gpt-5.4-pro)。安全按「高网络能力」那一套管,监控和 CoT 可审计性都加强了。5.2 Thinking 还会留大概三个月,2026 年 6 月 5 日退役;API 价 5.4 比 5.2 贵(输入 $2.50/M、输出 $15/M),Batch/Flex 半价,Priority 双倍。
六、为什么说是拐点
标尺换了。以前看考得好不好,现在 GDPval 直接看干得好不好——44 个职业的真实交付物,同行专家盲评。83% 就是在这把尺子上,模型已经迈过「多数任务能交活」的线。企业和人力聊的,自然会从「能不能用」变成「怎么用、谁把关、责任怎么划」。

「用电脑」从绝活变标配:不用再给每个系统接 API 或写死脚本,截图+键鼠就能对付任意界面。人坐在电脑前点点填填的流程,都进了「可以给智能体试一把」的名单,RPA、外包、内勤的性价比得重新算。
推理、编码、用电脑三条线头一回在同一个模型里打通。单点强不稀奇,能同时交文档、写代码、操桌面,才撑得起「一个代理从理解需求到在多应用里执行」的闭环。产品会从「对话+插件」往「能塞进任意工作流的数字员工」走,竞品、客户预期、什么叫 AI 原生,都得跟着动。
七、谁会被波及、谁该早想一步
能拆清楚、能验收的活(报表、演示、初稿、简单流程),「先让模型出一版再给人审」会从试点变常规。企业和采购比的不再只是买不买某个 AI,而是人做、模型做、人机一起怎么配更划算。
重复度高、输入输出都规范的那块——法务初稿、财务建模、客服话术、运营填表——会更快变成「模型主做、人复核」。值钱的是需求澄清、例外判断、背锅和跟人沟通;只会按清晰指令执行、不参与判断的岗位,压力会上去。
能直接调「用电脑」的 API,会带出一波新的自动化和助手产品,不接满世界 API 也能动老系统和内网。开发者和做智能体的,能做的事越多,安全、权限、审计就得越明确,滥用和误用的线得提前画好。
83% 要是在更多职业和任务上站稳甚至再涨,教育就得想清楚:到底在培养模型替不掉的判断、创造和担责,还是能被工具大幅增强的执行与产出。只会「做得快、格式对」的竞争力会掉价,审辨、沟通、担责、跨域整合会更值钱。
八、一句收尾
GPT-5.4 把「知识工作八成能交活」(GDPval 83%)和「像人一样用桌面」(OSWorld 超人类)塞进同一条线,数字员工从概念走到可量产,拐点就在这儿。边界也有:GDPval 仍是单轮、任务清晰的那一块,真工作里的模糊目标、多轮沟通、合规和责任,还得人和流程兜着。拿它当尺子就够——任务和资料齐备时,多数职业任务模型能达标甚至超标,还能直接操作电脑。想清楚「哪些交给模型、哪些必须留给人」,比吵取不取代人实在。
官方发布与 GDPval 说明:Introducing GPT-5.4,GDPval 介绍。
发表回复