科学家们开发了一种人工智能监控代理，用于检测并阻止有害输出

更新时间：2023-11-21 07:37:08 •阅读 0

由人工智能公司AutoGPT、东北大学和微软研究团队的研究人员共同开发了一种工具，用于监控大型语言模型（LLMs）的潜在有害输出并阻止其执行。该工具在一份名为“在野外安全测试语言模型代理”的预印研究论文中进行了描述。根据研究，该代理足够灵活，可以监控现有的LLMs，并阻止潜在的有害输出，如代码攻击，防患于未然。