文本表示(Representation) 文本是一种非结构化的数据信息,是不可以直接被计算的。 文本表示的作用就是将这些非结构化的信息转化为结构化的信息,这样就可以针对文本信息做计算,来完成我们日常所能见到的文本分类,情感判断等任务。 文本表示的方法有很多种,下面只介绍 3 类方式: 独热编码 | one-hot representation 整数编码 词嵌入 | word embedding 独热编码 | one-hot representation 假如我们要计算的文本中一共出现了4个词:猫、狗、牛、羊。向量里每一个位置都代表一个词。所以用 one-hot 来表示就是: 猫:[1,0,