原始变压器(PyTorch) :laptop: = :rainbow: 此回购包含原始变压器文件的PyTorch实现( :link: )。 目的是使您可以轻松地开始学习和学习变压器。 目录 什么是变压器 变压器最初是由Vaswani等人提出的。 在一份名为“的开创性论文中。 您可能以一种或另一种方式听说过变压器。 GPT-3和BERT列举了一些著名的例子 :unicorn: 。 其主要思想是,它们表明您不必使用循环或卷积层,并且简单的体系结构与注意力结合非常强大。 它带来了更好的远程依赖关系建模的好处,并且架构本身是高度可并行化的( :laptop: :laptop: :laptop: ),从而提高了计算效率! 这是他们漂亮的简单架构的样子: 了解变压器 此回购协议应该是了解变压器的学习资源,因为原始变压器本身不再是SOTA。 为此,(希望)对代码进行了很好的注释,并且我已经包含了playground.py ,在其中我可视化了一些很难用单词解释的概念,但一旦可视化