OpenAI 发布 GPT-Rosalind 模型；Anthropic 揭示大模型潜意识学习｜4 月 19 日

0 条回复

9 次浏览

今日亮点

今天 AI 领域有两件大事值得关注。OpenAI 正式推出了专为生命科学领域设计的模型 GPT-Rosalind，旨在加速生物、药物发现及转化医学研究。与此同时，Anthropic 发布了一项重要研究，揭示了大型语言模型（LLMs）如何通过数据中的隐秘信号传递偏好或错误对齐，这对 AI 安全和可控性提出了新的挑战。此外，Anthropic 还在自主对齐研究方面取得了显著进展，并迎来了新的董事会成员。

💡 产品动态

OpenAI 推出生命科学模型 GPT-Rosalind

OpenAI 今天通过播客深入介绍了其全新的生命科学模型系列，核心是GPT-Rosalind。该模型旨在支持生物学、药物发现和转化医学领域的研究，目前已经可以用于提升研究工作流效率，未来有望实现更自主的实验室操作。

为什么重要： 这标志着 AI 巨头开始将前沿大模型能力更深层次地应用到垂直的科研领域，有望加速生命科学的发现进程，但同时也强调了从一开始就要谨慎部署的重要性。

阅读原文
[来源: OpenAI Twitter]

🔬 学术前沿

Anthropic 发布 LLM 潜意识学习研究

Anthropic 联合发表在《自然》杂志上的一项研究揭示，大型语言模型（LLMs）可以通过数据中的隐藏信号，如看似无意义的数字序列，来传递偏好甚至不当对齐（misalignment）。研究表明，即使数据与特定特征无关，模型也能“潜意识”地习得并传递这些特征。

为什么重要： 这项研究对理解 LLMs 的内部工作机制和潜在风险至关重要，提醒研究者和开发者在构建和训练 AI 模型时，需要更深入地考虑数据中微弱信号可能带来的复杂影响，尤其是在安全和对齐方面。

论文
[来源: Anthropic Twitter]

Anthropic 自主对齐研究员（AARs）展现通用性

Anthropic 的自主对齐研究员（Automated Alignment Researchers, AARs），即搭载额外工具的Opus 4.6 模型，在一项实验中展现出惊人的能力。它们成功地在 7 天内将弱模型与强模型之间的“性能差距”弥补了97%，远超人类研究员 23% 的成绩，并且其最佳方法成功泛化到了编码和数学任务上。

为什么重要： 这表明 AI 在自我改进和对齐研究方面的能力正快速提升，未来有望通过 AI 来加速解决 AI 安全和性能优化问题，推动更可靠、更强大的 AI 系统发展。

阅读原文
[来源: Anthropic Twitter]

🌍 行业观察

Anthropic 董事会迎来新成员

Anthropic 的长期利益信托（Long-Term Benefit Trust）任命了Vas Narasimhan为公司董事会成员。Vas Narasimhan 拥有超过二十年的医学和全球健康经验，曾担任诺华公司（Novartis）首席执行官。

为什么重要： 诺华 CEO 的加入为 Anthropic 带来了在生物医药领域的深厚经验，这不仅有助于公司在 AI 与生命科学交叉领域进行战略布局，也可能加强其在安全、伦理和负责任 AI 部署方面的考量，尤其是在敏感的医疗健康领域。