微软研究人员首次利用GPT-4生成语言模型微调指令数据,使ChatGPT模型的输出更符合人类偏好。使用由GPT-4生成的5.2万条英语和汉语instruction-following数据可优于以前最先进的模型生成的指令数据,也避免了指令标注工资耗费人力的问题。研究人员从GPT-4中收集数据进行评估和训练,并在使用Alpaca模型的5.2万条指令中重用任务上下文和输入作为输入或可选上下文。
微软研究人员首次利用GPT-4生成语言模型微调指令数据,使ChatGPT模型的输出更符合人类偏好。使用由GPT-4生成的5.2万条英语和汉语instruction-following数据可优于以前最先进的模型生成的指令数据,也避免了指令标注工资耗费人力的问题。研究人员从GPT-4中收集数据进行评估和训练,并在使用Alpaca模型的5.2万条指令中重用任务上下文和输入作为输入或可选上下文。
暂无评论