人工智能领域最近的突破发展主要得益于大语言模型,如ChatGPT和GPT-4。GPT模型在自然语言处理任务上表现出色,但仅仅增加模型参数是不够的。实际上,GPT的成功离不开大量高质量的训练数据。本文从数据为中心的角度分析了GPT模型,介绍了数据训练、推理数据开发和数据维护三个方面的重要性和技术方法。