文字转语音 深度学习和Google翻译的结合,可将手写文本转换为音频输出。 该项目将记录在案的手写文本作为输入,并以108种不同语言的音频格式提供翻译后的输出。 该项目的主干是手写文本检测模型,该模型使用RESNET50上的转移学习进行了训练。 该模型的输入来自上可用的数据集与MNIST数据集的组合,所有图像均调整为(32,32)。 经过训练的图像总数为4,42,451。 该模型在SGD优化器上训练了50个纪元,记录的训练和验证准确性分别为96.53%和96.81%。 每个字符的分类报告: 该模型在Tensorflow 2.1.0和OpenCV 4.2.0上进行了训练。 训练后的模型文件位于