GBC10M_HU
收藏数据集概述
基本信息
- 许可证: MIT
- 语言: 英语, 匈牙利语
- 数据集名称: Graph Based Captions 10M Hungarian
- 数据规模: 10M<n<100M
- 标签:
- 视觉-语言预训练
- 图像描述
- 任务类别: 图像到文本
数据集描述
该数据集是现有图像描述数据集的扩展,针对基于图的描述(GBC)进行了增强,并增加了匈牙利语翻译。它为从事图像描述研究的研究人员和开发人员提供了一个有价值的资源,特别是那些对GBC和跨语言应用感兴趣的人。
数据集统计
- 成功获取的图像: 约80%
- 失败的图像: 约20%
注意: 数据集目前尚未准备好使用,当前仅获取了3/10的parquet文件。
数据结构
一个示例如下: python { url: http://www.allisonshamrellblog.com/wp-content/uploads/2012/09/boxer-and-pit-bull-mix.jpg, img: PILImage(), en_cap: The image presents two dogs sitting on grass against a backdrop of trees and sunlight. The dog on ..., hu_cap: A képen két kutya ül a fűben a fák és a napfény hátterében. A bal oldali kutyának ... }
数据字段
url(str): 图像的URL。img(image): 描述的图像。en_cap(str): 图像的英语描述。hu_cap(str): 图像的匈牙利语描述。
数据分割
所有配置包含一个单独的train分割。
开始使用
由于1000万条描述被格式化为10个parquet文件,因此可以轻松访问数据集的一小部分,而无需使用流式传输或下载整个数据集。
下载单个包含100万条描述的文件: bash !wget https://huggingface.co/datasets/Obscure-Entropy/GBC10M_HU/resolve/main/data/train-00000-of-00010.parquet
python from datasets import load_dataset
dataset = load_dataset(parquet, data_files = train-00000-of-00010.parquet)
下载整个包含1000万条描述的数据集: python from datasets import load_dataset
dataset = load_dataset(Obscure-Entropy/GBC10M_HU)
限制
- 机器翻译准确性: 尽管我们旨在提供高质量的翻译,但由于机器翻译的限制,一些匈牙利语描述可能包含不准确之处。
- 缺少图注释: 数据集目前缺乏显式的图注释。
- 图像质量降低: 为了减小数据集大小并便于下载和处理,JPEG图像的质量已降低。研究人员在处理需要高分辨率图像的任务时应特别注意这一限制。
翻译来源
- DeepL (~5%)
- GoogleTranslate (~65%)
- 第三方机器翻译 (~28%)
- Gemini Pro (~2%)
致谢
我们感谢作为此工作基础的原始图像描述数据集的创建者。 📄 ArXiv Paper




