Anthropic是一家由前OpenAI高管创立的创业公司,似乎正在试图在快速发展的市场中开辟自己的明确定位,提供由大语言模型支持的服务(称为生成AI)。
Claude是一个人工智能聊天机器人,类似于OpenAI的ChatGPT,Anthropic于3月份发布。
在一篇博客文章中,这家初创公司解释了它用来训练其类似ChatGPT的聊天机器人Claude的方法,以产生比其他聊天机器人危害更小、更准确的结果。
Anthropic详细介绍了其“宪法AI”训练方法,旨在为其克劳德聊天机器人注入清晰的“价值观”,以解决人工智能系统对透明度、安全性和决策的担忧,而不依赖人类的反馈来评估响应。
Anthropic表示,随着AI系统的不断发展,我们希望用它们来监管其他AI。我们在尝试一种方式,通过自我提升,训练一个无害的AI助手,不需要任何有害输出的人工标注。
唯一的人工监督是通过一系列规则或原则来实现的,所以我们称之为“宪法AI”。这个过程包括两个阶段:监督学习和强化学习。
在监督阶段,我们从一个初始模型中采样,然后生成自我批评和修改的结果,然后将修改后的结果微调到原始模型。
在强化学习阶段,我们从微调后的模型中采样,用一个模型来评估哪个采样结果更好,然后从这个AI偏好数据集中训练偏好模型。
之后我们用偏好模型作为奖励信号,即“AI反馈强化学习”(RLAIF)进行训练。因此,我们可以通过解释其反对有害查询的原因,来训练一个无害但非侵入性的AI助手进行交互。无论是监督学习还是强化学习,这些方法都可以利用链式思维推理来提高AI决策的性能和透明度,使得对AI行为的控制更加准确,并且需要更少的人工标注。