本文提出了一种使用HMM和DNN的两步合成技术来合成基于像素的逼真的有声谈话动画的技术。 我们引入面部表情参数作为中间表示,它与面部图像的输入上下文和输出像素数据都具有良好的对应性。 使用具有静态和动态特征的上下文相关HMM对面部表情参数的序列进行建模。 使用DNN训练从表达参数到目标像素图像的映射。 我们检查了HMM和DNN所需的训练数据量,并通过客观和主观评估实验比较了所提出的技术与基于PCA的常规技术的性能。