GBC10M
收藏OpenCSG2024-07-19 更新2026-01-19 收录
下载链接:
https://opencsg.com/datasets/AIWizards/GBC10M?tab=summary
下载链接
链接失效反馈官方服务:
资源简介:
GBC10M提供了一种新的图像标注模式,结合了长文本描述、区域描述和场景图的优点。它通过连接区域描述来创建统一的描述,同时提供类似于场景图的结构化信息。数据集包含超过1000万张图像,并提供了图像URL和JSON lines格式的标注,平均每张图像包含12.24个顶点、21.81条边、17.67条描述和533.98个单词。标注信息包括边界框信息和合成文本描述,每个样本都以`GbcGraph`的形式存储,包含顶点和边的信息。GBC10M支持图像到文本和文本到图像的任务,并提供标准化数据操作,可以通过HuggingFace `datasets`库直接加载。数据集的标注是在CC BY-NC 4.0许可下发布的,原始图像URL文本样本由Google发布,个人图像受其自身版权保护。
提供机构:
AIWizards
创建时间:
2024-07-19



