ChatGPT是OpenAI开发的一种语言AI模型,借助海量语料库生成与人类相似的反应。它的参数量级持续增长,GPT2模型和GPT3模型的参数分别达到15亿和1750亿。这种参数量的提升使得ChatGPT3已经在商业、研究和开发活动中得到广泛应用。大型AI模型成为各大科技公司的研发重点,它们的基础是高质量的大数据。ChatGPT的前身GPT-3使用了3000亿单词和超过40T的数据。这种大数据基础的前提包括有效场景下的数据采集、大数据的存储、清洗和标注,以及数据质量检验。