机智:WIT(基于Wikipedia的图像文本)数据集是一个大型的多模式多语言数据集包含超过1100万种独特的图像以及超过100种语言的37M +种图像 文本对
WIT:基于维基百科的图像文本数据集 基于维基百科的图像文本(WIT)数据集是一个大型的多模式多语言数据集。 WIT由3,760万个实体丰富的图像文本示例的精选集组成,这些示例文本包含108种Wikipedia语言中的1,150万个唯一图像。 它的大小使WIT可以用作多模式机器学习模型的预训练数据集。 关键优势 WIT的一些独特优势: 按图像文本示例的数量最大的多模式数据集(撰写本文时)。 大规模的多语言(同类中的第一种),涵盖了100多种语言。 各种概念和现实世界实体的集合。 提出具有挑战性的真实世界的测试仪。 您可以从了解有关WIT数据集的更多信息。 WIT示例 维基百科页面 例如,让我们的Wikipedia页面。 Wikipedia页面,其中包含我们可以提取的内容的注释 在此页面上,我们重点介绍了可以提取的各种关键数据-图像,它们各自的文本片段以及一些上下文元数据。 通过
文件列表
wit-main.zip
(预估有个4文件)
wit-main
images
wit_half_dome_wiki.png
493KB
tmp.txt
25B
wit_take2_half_dome_with_annotations.png
860KB
README.md
4KB
暂无评论