CSE576_Dataset_Generation 合成各种数据集以进行可视文本理解模型训练。 资料集 visual_7W: : 用法 cd CSE576_Dataset_Generation python utils . py 贡献与工作 visual_7w是VQA任务数据集,带有带注释的边界框,用于在文本和图像中描述的对象。 对于我们的任务,我们想将问题答案对分别转换为对应图像的文本描述,就像 “谁拿着网球拍”,“网球运动员” 到 “网球运动员拿着网球拍” 这里的对象是球员和网球拍 在这一部分,唯一的问题键入谁是用来生成样本。