首先需要将人声或声音转换为计算机可以分析的数字信号。下一步,将数字信号转换为词语。第三步是分析,这其中包括理解句子的结构、语法、语境等。 语音识别的单词错误率大幅降低,这主要是由于使用了更高效的声学模型,运用深度神经网络(DNN)取代高斯混合模型(GMM,之前多年以来的首选方法)等统计技术。Nuance的研究主管 Nils Lenke 展示数据显示,在将深度神经网络算法成功纳入语音识别系统后,单词错误率从 2010 年左右开始急剧下降,每年降低约 18%。 语音识别主要是分析句子、句法(名词、动词、形容词、副词等)以及结构,即语法(主语动词、宾语),以便进行转录或翻译。而自然语言处理的重点