浙大、北大、CMU和人大的研究人员共同开发了一个基于ChatGPT的音频理解与生成系统,称之为AudioGPT。该系统具备跨模态转换的能力,能够理解和生成音频模态,并且可以解决多语种、多模态的AI音频任务超过20种。最近几个月,ChatGPT和GPT-4的出现引起了广泛关注,这些大型语言模型在语言理解、生成、交互和推理方面展现出了卓越的性能,被认为具有构建通用人工智能系统的潜力。现阶段的GPT模型在语言生成方面表现出色,是最先进的自然语言处理模型之一,在对话、翻译、代码生成等领域得到了广泛应用。然而,在自然对话中,人们主要使用口语进行交流,而传统的单模态GPT模型无法满足对音频模态(如语音、音乐、背景音、3D说话人)的理解和生成需求。这主要归因于两个问题:一是GPT模型在模态限制上存在不足;二是音频数据和模型相对较少,并且基础模型的数量有限或者交互性较差。