AI 新纪元！GPT-5.4 原生电脑操控，Agent 能力大爆发

4 条回复

72 次浏览

📰 内容说明：本文为 AI 资讯摘要与编辑评论，所有内容均已标注原文链接。如涉及版权问题请联系处理。

今日亮点

今天 AI 圈最大的新闻莫过于 OpenAI 重磅发布了新一代旗舰模型 GPT-5.4 及其专业版。最大的亮点是它首次原生支持“电脑操控”，能在真实桌面环境中像人一样操作电脑，并在多项专业任务中超越人类表现，标志着 AI Agent 能力迈出了一大步。此外，GPT-5.4 还在推理、编程和多模态理解上都有显著提升，并带来了更高效的 Tool Search 机制。

💡 产品动态

🚀 OpenAI 发布 GPT-5.4：原生电脑操控，Agent 能力里程碑！

核心信息： OpenAI 今天正式推出 GPT-5.4 及其 Pro 版本，成为首个原生支持“Computer Use”（电脑操控）的通用模型，能通过截图、鼠标、键盘操作真实电脑。在 OSWorld 测试中，GPT-5.4 的电脑操控成功率达 75%，超越人类平均水平（72.4%）。它在知识工作（GDPval 基准达 83%）、投行建模、编程（SWE-Bench Pro 达 57.7%）等多个专业领域展现出显著提升，并引入了“Tool Search”机制以节省 token（减少 47% 消耗），以及 GPT-5.4 Thinking 支持在生成过程中中途打断思考。新模型上下文达到 100 万，API 定价输入 2.5 美元/百万 token，输出 15 美元/百万 token，即日起向 ChatGPT Plus/Team/Pro 用户及 API 开放。

💡 编辑观点： 这次升级是 AI Agent 发展历程中的一个里程碑式事件。原生支持电脑操控意味着大模型不再仅仅是文字对话工具，而是具备了与真实数字世界深度交互的能力，极大地拓宽了 AI 的自动化和实际应用边界。上下文长度和 Tool Search 机制则有效解决了 Agent 实际应用中的效率和成本痛点。GPT-5.4 的全面提升，尤其是超越人类的电脑操控能力，预示着一个由 AI 深度参与并自动化日常数字任务的新时代正在加速到来。

📎 查看详细报道 | 来源: Twitter @宝玉 (引用 OpenAI 官方)

📈 GPT-5.4 FrontierMath 刷新数学难题基准纪录

核心信息： Epoch AI 报告称，OpenAI 的 GPT-5.4 在极具挑战性的 FrontierMath 数学基准测试中创下新纪录，其中 GPT-5.4 Pro 在 Tiers 1-3 得分 50%，Tier 4 得分 38%。

💡 编辑观点： 这一成绩再次证明了 OpenAI 在模型推理能力上的持续突破，尤其是在复杂逻辑和抽象思维方面，这是实现更高级通用智能的关键。对于需要高精度计算和严谨推理的科学研究和工程领域而言，GPT-5.4 将是极大的助力，有望加速科学发现的进程。

📎 查看完整报道 | 来源: Twitter @Kevin Weil

🔬 学术前沿

LLM 作为评估器时的偏好泄露：研究揭示了当 LLM 作为评估器（LLM-as-a-judge）时，可能因与合成数据生成器模型的相关性而产生偏好泄露问题，导致评估结果出现偏差，这是一个普遍存在的真实世界挑战。 → 📄 阅读论文
病理报告生成的 MoE 与检索：新模型 RANGER 结合了稀疏门控 Mixture-of-Experts (MoE) 和自适应检索重排，提升了病理报告生成的准确性和语义一致性，尤其适用于处理复杂形态学的全玻片图像（WSI）。 → 📄 阅读论文
RAG 系统中的共指消解：研究表明，对检索增强生成（RAG）系统中的文档进行共指消解，能显著提升检索效率和问答性能，尤其对处理指代模糊能力有限的小型模型效果更佳。 → 📄 阅读论文
超低比特率图像压缩中的场景文本提升：TextBoost 方法通过整合 OCR 辅助语义信息，在超低比特率下显著提升了图像中场景文本的保真度，同时保持了整体视觉质量。 → 📄 阅读论文

🌍 行业观察

今天有消息指出，AI 对经济生产力的影响可能已经开始显现，Alex Imas 跟踪的证据表明微观层面的生产力提升正在转化为宏观数据。

💡 编辑观点： 这是一个令人振奋的信号。长期以来，关于 AI 是否真正提升了生产力，经济学界一直存在争议。如果微观层面的积极影响开始大规模体现到宏观经济数据中，这将为 AI 投资和技术扩散提供更强有力的证据，预示着一个以 AI 驱动的生产力增长新时代可能正在到来，值得我们密切关注。

📎 深度报道

此外，OpenAI 正在加大对 AI 基础设施的投入，获得 SoftBank、NVIDIA 和 Amazon 的投资，并在德克萨斯州建设名为“Stargate”的大型计算中心。

💡 编辑观点： 这表明 OpenAI 正在为未来更大规模、更复杂的 AI 模型训练和部署做准备。AI 模型性能的持续飞跃离不开强大的底层算力支撑，这些巨额投资和基础设施建设，预示着 OpenAI 对未来 AGI 的决心和信心。同时，这也反映出 AI 军备竞赛的白热化，算力已成为决定 AI 未来发展格局的关键要素。