ocr-dataset包含SyntheticChineseStringDataset和Chinese_dataset