ocr-dataset 包含SyntheticChineseStringDataset和Chinese_dataset