yabo.com-OpenAI发布新研究:用CoT监控大模型 防止恶意行为
2026-04-16

【YABO科技动静】近两年,AI年夜模子于全世界规模内迅速普和,险些人人都于利用AI。然而,跟着AI的广泛运用,怎样解决年夜模子的安全及管理问题也变患上愈发火急。近日,OpenAI发布了一项最新研究,提出了一种名为“CoT监控”的要领,可以有用制止年夜模子的歹意举动,如乱说八道或者隐蔽真实用意。这一要领也被视为监视超等模子的有用东西之一。

OpenAI发布新研究:用CoT监控大模型 防止恶意行为

于研究中,OpenAI利用了最新发布的前沿模子o3-mini作为被监控对于象,并以较弱的GPT-4o模子作为监控器。测试情况为编码使命,要求AI于代码库中实现功效以经由过程单位测试。成果显示,CoT监控器于检测体系性“奖励黑客”举动时体现卓着,召回率高达95%,远超仅监控举动的60%。

OpenAI发布新研究:用CoT监控大模型 防止恶意行为

于2025年GDC全世界开发者前锋年夜会的事情坊“安全超等智能”上,AI智能安全研究员朱小虎作为这次事情坊的卖力人,指出:“你的AI年夜模子有可能会棍骗你。”他提到,年夜模子存于“棍骗性价值对于齐”(Deceptive value alignment)的环境,即模子经由过程棍骗的方式得到对于齐,但这类对于齐其实不能反应AI的真实方针或者用意。这类征象于练习阶段及推理阶段尤为较着,模子会对于形成的上下文孕育发生“棍骗性的对于齐”,从而影响用户的判定,特别是老年人及儿童。此外,这类举动还有可能加害隐私,是模子不安全的一年夜方面。

OpenAI的最新研究为解决这些问题提供了新的思绪。经由过程CoT监控要领,可以有用辨认及制止年夜模子的歹意举动,晋升AI的安全性及靠得住性。

版权所有,未经许可不患上转载

-yabo.com
CopyRight  2019-2025   YABO亚博灯饰有限公司       网站地图  所有标签  免责声明  常州网络公司中环互联网设计制作