yabo.com-OpenAI发布新研究：用CoT监控大模型防止恶意行为

2026-04-16

【YABO科技动静】近两年，AI年夜模子于全世界规模内迅速普和，险些人人都于利用AI。然而，跟着AI的广泛运用，怎样解决年夜模子的安全及管理问题也变患上愈发火急。近日，OpenAI发布了一项最新研究，提出了一种名为“CoT监控”的要领，可以有用制止年夜模子的歹意举动，如乱说八道或者隐蔽真实用意。这一要领也被视为监视超等模子的有用东西之一。

OpenAI发布新研究：用CoT监控大模型防止恶意行为

于研究中，OpenAI利用了最新发布的前沿模子o3-mini作为被监控对于象，并以较弱的GPT-4o模子作为监控器。测试情况为编码使命，要求AI于代码库中实现功效以经由过程单位测试。成果显示，CoT监控器于检测体系性“奖励黑客”举动时体现卓着，召回率高达95%，远超仅监控举动的60%。

OpenAI发布新研究：用CoT监控大模型防止恶意行为

于2025年GDC全世界开发者前锋年夜会的事情坊“安全超等智能”上，AI智能安全研究员朱小虎作为这次事情坊的卖力人，指出：“你的AI年夜模子有可能会棍骗你。”他提到，年夜模子存于“棍骗性价值对于齐”（Deceptive value alignment）的环境，即模子经由过程棍骗的方式得到对于齐，但这类对于齐其实不能反应AI的真实方针或者用意。这类征象于练习阶段及推理阶段尤为较着，模子会对于形成的上下文孕育发生“棍骗性的对于齐”，从而影响用户的判定，特别是老年人及儿童。此外，这类举动还有可能加害隐私，是模子不安全的一年夜方面。

OpenAI的最新研究为解决这些问题提供了新的思绪。经由过程CoT监控要领，可以有用辨认及制止年夜模子的歹意举动，晋升AI的安全性及靠得住性。

-yabo.com

首页

YABO亚博灯饰有限公司

企业简介

资质荣誉

核电照明

室内照明

室外照明

夜景亮化

服务承诺

市场支持

yabo.com-OpenAI发布新研究：用CoT监控大模型防止恶意行为

核电照明

室内照明

室外照明

夜景亮化

yabo.com-OpenAI发布新研究：用CoT监控大模型 防止恶意行为

核电照明

室内照明

室外照明

夜景亮化

yabo.com-OpenAI发布新研究：用CoT监控大模型防止恶意行为