科学家们开发了一种人工智能监控代理,用于检测并阻止有害输出
更新时间:2023-11-21 07:37:08 •阅读 0
由人工智能公司AutoGPT、东北大学和微软研究团队的研究人员共同开发了一种工具,用于监控大型语言模型(LLMs)的潜在有害输出并阻止其执行。该工具在一份名为“在野外安全测试语言模型代理”的预印研究论文中进行了描述。根据研究,该代理足够灵活,可以监控现有的LLMs,并阻止潜在的有害输出,如代码攻击,防患于未然。
由人工智能公司AutoGPT、东北大学和微软研究团队的研究人员共同开发了一种工具,用于监控大型语言模型(LLMs)的潜在有害输出并阻止其执行。该工具在一份名为“在野外安全测试语言模型代理”的预印研究论文中进行了描述。根据研究,该代理足够灵活,可以监控现有的LLMs,并阻止潜在的有害输出,如代码攻击,防患于未然。