ChatGPT是一种强大的大型语言模型,它具有强大的自然语言理解能力。为了评估ChatGPT作为问答系统的表现,我们使用了一个框架来测试它在解决复杂问题上的能力。我们的方法将潜在特征分类,并使用多个标签描述每个测试问题,以识别组合推理。我们的评估结果表明,ChatGPT在语义解析和推理方面表现优良,可以作为传统基于知识的问答系统的潜在替代品。具体评估结果参考Ribeiro等人[1]提出的CheckList黑盒测试规范。我们比较了ChatGPT、GPT3.5、GPT3和FLAN-T5的评估结果,以揭示LLMs长期存在的历史问题。