AI 新纪元!GPT-5.4 原生电脑操控,Agent 能力大爆发

4 条回复
65 次浏览

📰 内容说明:本文为 AI 资讯摘要与编辑评论,所有内容均已标注原文链接。如涉及版权问题请联系处理。


今日亮点

今天 AI 圈最大的新闻莫过于 OpenAI 重磅发布了新一代旗舰模型 GPT-5.4 及其专业版。最大的亮点是它首次原生支持“电脑操控”,能在真实桌面环境中像人一样操作电脑,并在多项专业任务中超越人类表现,标志着 AI Agent 能力迈出了一大步。此外,GPT-5.4 还在推理、编程和多模态理解上都有显著提升,并带来了更高效的 Tool Search 机制。

💡 产品动态

🚀 OpenAI 发布 GPT-5.4:原生电脑操控,Agent 能力里程碑!

核心信息: OpenAI 今天正式推出 GPT-5.4 及其 Pro 版本,成为首个原生支持“Computer Use”(电脑操控)的通用模型,能通过截图、鼠标、键盘操作真实电脑。在 OSWorld 测试中,GPT-5.4 的电脑操控成功率达 75%,超越人类平均水平(72.4%)。它在知识工作(GDPval 基准达 83%)、投行建模、编程(SWE-Bench Pro 达 57.7%)等多个专业领域展现出显著提升,并引入了“Tool Search”机制以节省 token(减少 47% 消耗),以及 GPT-5.4 Thinking 支持在生成过程中中途打断思考。新模型上下文达到 100 万,API 定价输入 2.5 美元/百万 token,输出 15 美元/百万 token,即日起向 ChatGPT Plus/Team/Pro 用户及 API 开放。

💡 编辑观点: 这次升级是 AI Agent 发展历程中的一个里程碑式事件。原生支持电脑操控意味着大模型不再仅仅是文字对话工具,而是具备了与真实数字世界深度交互的能力,极大地拓宽了 AI 的自动化和实际应用边界。上下文长度和 Tool Search 机制则有效解决了 Agent 实际应用中的效率和成本痛点。GPT-5.4 的全面提升,尤其是超越人类的电脑操控能力,预示着一个由 AI 深度参与并自动化日常数字任务的新时代正在加速到来。

📎 查看详细报道 | 来源: Twitter @宝玉 (引用 OpenAI 官方)

📈 GPT-5.4 FrontierMath 刷新数学难题基准纪录

核心信息: Epoch AI 报告称,OpenAI 的 GPT-5.4 在极具挑战性的 FrontierMath 数学基准测试中创下新纪录,其中 GPT-5.4 Pro 在 Tiers 1-3 得分 50%,Tier 4 得分 38%。

💡 编辑观点: 这一成绩再次证明了 OpenAI 在模型推理能力上的持续突破,尤其是在复杂逻辑和抽象思维方面,这是实现更高级通用智能的关键。对于需要高精度计算和严谨推理的科学研究和工程领域而言,GPT-5.4 将是极大的助力,有望加速科学发现的进程。

📎 查看完整报道 | 来源: Twitter @Kevin Weil

🔬 学术前沿

  • LLM 作为评估器时的偏好泄露:研究揭示了当 LLM 作为评估器(LLM-as-a-judge)时,可能因与合成数据生成器模型的相关性而产生偏好泄露问题,导致评估结果出现偏差,这是一个普遍存在的真实世界挑战。 → 📄 阅读论文
  • 病理报告生成的 MoE 与检索:新模型 RANGER 结合了稀疏门控 Mixture-of-Experts (MoE) 和自适应检索重排,提升了病理报告生成的准确性和语义一致性,尤其适用于处理复杂形态学的全玻片图像(WSI)。 → 📄 阅读论文
  • RAG 系统中的共指消解:研究表明,对检索增强生成(RAG)系统中的文档进行共指消解,能显著提升检索效率和问答性能,尤其对处理指代模糊能力有限的小型模型效果更佳。 → 📄 阅读论文
  • 超低比特率图像压缩中的场景文本提升:TextBoost 方法通过整合 OCR 辅助语义信息,在超低比特率下显著提升了图像中场景文本的保真度,同时保持了整体视觉质量。 → 📄 阅读论文

🌍 行业观察

今天有消息指出,AI 对经济生产力的影响可能已经开始显现,Alex Imas 跟踪的证据表明微观层面的生产力提升正在转化为宏观数据。

💡 编辑观点: 这是一个令人振奋的信号。长期以来,关于 AI 是否真正提升了生产力,经济学界一直存在争议。如果微观层面的积极影响开始大规模体现到宏观经济数据中,这将为 AI 投资和技术扩散提供更强有力的证据,预示着一个以 AI 驱动的生产力增长新时代可能正在到来,值得我们密切关注。

📎 深度报道

此外,OpenAI 正在加大对 AI 基础设施的投入,获得 SoftBank、NVIDIA 和 Amazon 的投资,并在德克萨斯州建设名为“Stargate”的大型计算中心。

💡 编辑观点: 这表明 OpenAI 正在为未来更大规模、更复杂的 AI 模型训练和部署做准备。AI 模型性能的持续飞跃离不开强大的底层算力支撑,这些巨额投资和基础设施建设,预示着 OpenAI 对未来 AGI 的决心和信心。同时,这也反映出 AI 军备竞赛的白热化,算力已成为决定 AI 未来发展格局的关键要素。

📎 深度报道

💬 社区热议

  • GPT-5.4 体验好评如潮:多位早期测试者对 GPT-5.4 Pro 赞不绝口,认为其在创意、洞察力、抽象智能和泛化能力上均显著超越 GPT-5.2 Pro,并表现出“更像 AGI 的推理能力”和“类人直觉”。 (来源:Twitter @Kevin Weil RT Derya Unutmaz, MD)
  • Codex 应用前景广阔:有用户表示已将自己的主动型 Agent 切换至 Codex,认为其设置“绝对疯狂”,非常适合高级复杂编排,预计 GPT-5.4 将进一步提升水平。(来源:Twitter @elvis)
  • Claude 与 GPT-5.4 价格与能力对比:卡尔的 AI 沃茨详细对比了 GPT-5.4 和 Claude Opus 4.6 在上下文、价格、编程、电脑操控和视觉理解等方面的表现,认为 GPT-5.4 在多方面领先,特别是 Computer Use 和 Tool Search 机制大大节省了成本。(来源:Twitter @卡尔的 AI 沃茨)
👍1

5.4,我的 5.4,你终于来了(咦,为什么是 5.4?原来 openai 又跳版本了)

发表一个评论

R保持