本报告分析了GPT-4和ChatGPT在多个逻辑推理数据集上的表现,并且构建了一个逻辑推理的分布外数据集,以测试它们的鲁棒性。结果表明,在知名数据集如LogiQA和ReClor上,ChatGPT表现优于RoBERTa微调方法,而GPT-4在手动测试中表现更好。但对于新发布的数据集和分布外自然语言推理数据集,其中两个模型的表现都有所下降。综合来说,逻辑推理仍然是一个具有挑战性的任务。