GPT-4是一款由OpenAI开发的语言模型,它能够处理大量的文本数据。最近的研究表明,GPT-4一次可以处理长达64k的上下文token长度,这比之前的记录要长得多。这一突破得益于谷歌研究院的CoLT5,在Transformer架构上进行了改进。以往的模型在处理长文本时会面临计算上的困难,因为注意力成本会随着输入长度呈指数增长。但是,采用了一种名为Recurrent Memory Transformer(RMT)的架构后,研究者们成功将BERT模型的有效上下文长度增加到了2。这一发展将为长对话、长文本处理以及文件搜索和分析等应用带来更大的便利。
暂无评论