Datawhale_打卡2

feiyutajian 6 0 PDF 2021-01-16 16:01:32

4 文本预处理与语言模型 4.1 文本预处理 主要包括读入文本、分词、建立字典将每个词映射到一个唯一的索引(index)和将文本从词的序列转换为索引的序列,方便输入模型 4.2 语言模型 一段自然语言文本可以看作是一个离散时间序列,给定一个长度为TTT的词的序列w1,w2,...,wTw_1, w_2, \ldots, w_Tw1​,w2​,...,wT​,语言模型的目标就是评估该序列是否合理,即计算该序列的概率: P(w1,w2,...,wT). P(w_1, w_2, \ldots, w_T). P(w1​,w2​,...,wT​). n元语法 序列长度增加,计算和存储多个词共同出现的概率的复杂度会呈指数

用户评论
请输入评论内容
评分:
暂无评论