Text_to_Speech:深度学习和Google翻译的结合可将手写文本转换为音频输出 源码
文字转语音 深度学习和Google翻译的结合,可将手写文本转换为音频输出。 该项目将记录在案的手写文本作为输入,并以108种不同语言的音频格式提供翻译后的输出。 该项目的主干是手写文本检测模型,该模型使用RESNET50上的转移学习进行了训练。 该模型的输入来自上可用的数据集与MNIST数据集的组合,所有图像均调整为(32,32)。 经过训练的图像总数为4,42,451。 该模型在SGD优化器上训练了50个纪元,记录的训练和验证准确性分别为96.53%和96.81%。 每个字符的分类报告: 该模型在Tensorflow 2.1.0和OpenCV 4.2.0上进行了训练。 训练后的模型文件位于
文件列表
Text_to_Speech-main.zip
(预估有个17文件)
Text_to_Speech-main
training plot.png
18KB
data
__init__.py
110B
datasets.py
1KB
test images
ocr.png
11KB
final.png
166KB
saved_sounds
Translated-2021-02-21-12-30.mp3
116KB
暂无评论