显而易见,目前并没有类似ChatGPT能力的模型。这主要有以下几个原因:首先,缺乏中文高质量数据集。虽然人们普遍认识到高质量数据对AI模型的重要性,但为什么没有中文高质量数据集呢?原因之一是缺乏人力资源。数据的清洗需要耗费大量的时间和精力,博士、研究员们常常没有足够的时间和耐心来完成这项工作。如果有充足的时间,他们可能更愿意寻找已经清洗好的公开数据集,来进行参数的调整和一些技巧的改进,以达到顶级会议论文的效果。另外,数据标注和清洗通常被交给数据标注公司或者低年级的学生来完成,这些人对于数据和任务之间的关系了解较少,因此很难建立起高质量的数据集。数据集的建设必须由研究员或工程师亲自参与,并经过反复的迭代。在大模型的时代,好的数据比好的模型重要得多。(2)缺乏利益驱动。在科研领域,许多人都等着别人公开数据集;而在商业化公司中,又不愿意投入资源去构建数据集。大部分科研人员甚至不愿意写爬虫,因为已经有许多公开数据集供他们使用了。他们只需要辛苦地爬取一些数据,标注一些数据,然后快速发布文章,以引用其他人的研究。那是否存在高质量数据集和一般质量数据集之间的差别呢?这关系到训练大型模型的能力。目前,国内许多机构都在发布大模型,但真正能够训练出高质量模型的往往是那些拥有高质量数据集的研究机构。