最近,人工智能领域取得了重大突破,包括大语言模型(LLMs)如ChatGPT和GPT-4在内,在自然语言处理任务上表现出色。但是,仅仅增加模型参数是不够的。在本文中,我们将从数据为中心的人工智能视角去分析一系列GPT模型(之后会用Data-centric AI以避免啰嗦)。Data-centric AI大体上可以分文三个目标:训练数据开发(training data development)、推理数据开发(inference data development)和数据维护(data maintenance)。了解这些技术可以有助于理解GPT模型的成功背后。