这份内容主要探讨在多轮对话场景下,如何评估 ChatGPT 的性能,并重点研究用于衡量对话连贯性的指标。