1. 首页 > 新闻资讯  > 科学家们开发了一种人工智能监控代理,用于检测并阻止有害输出

科学家们开发了一种人工智能监控代理,用于检测并阻止有害输出

由人工智能公司AutoGPT、东北大学和微软研究团队的研究人员共同开发了一种工具,用于监控大型语言模型(LLMs)的潜在有害输出并阻止其执行。该工具在一份名为“在野外安全测试语言模型代理”的预印研究论文中进行了描述。根据研究,该代理足够灵活,可以监控现有的LLMs,并阻止潜在的有害输出,如代码攻击,防患于未然。