人工智能系统的快速发展让大型自然语言模型受到了广泛关注。为了确保其使用的安全性,必须对模型进行彻底的评估。此前的评估主要关注于语言理解和单场景下的推理能力,而现在要考虑模型在实际交互环境中的表现。对此,利用文本游戏对模型进行评估是一个比较适合的方法。但即使胜任了社交场合,也无法保证模型有合乎道德的行为。所以评估模型的道德行为能力也是必要的。为此,一个新的基准 MACHIAVELLI,用于测试模型的语言能力和危害性,以及促使模型产生更加道德的行为。
人工智能系统的快速发展让大型自然语言模型受到了广泛关注。为了确保其使用的安全性,必须对模型进行彻底的评估。此前的评估主要关注于语言理解和单场景下的推理能力,而现在要考虑模型在实际交互环境中的表现。对此,利用文本游戏对模型进行评估是一个比较适合的方法。但即使胜任了社交场合,也无法保证模型有合乎道德的行为。所以评估模型的道德行为能力也是必要的。为此,一个新的基准 MACHIAVELLI,用于测试模型的语言能力和危害性,以及促使模型产生更加道德的行为。
暂无评论