PIXELPROSE_HU
收藏Pixel Prose 16M 数据集概述
基本信息
- 许可证: MIT
- 语言: 英语 (en), 匈牙利语 (hu)
- 大小: 10M < n < 100M
- 标签: 视觉语言预训练, 图像描述
- 任务类别: 图像到文本, 文本到图像
数据集描述
Pixel Prose 16M 数据集是现有图像描述数据集的扩展,特别针对 PixelProse 进行了增强,并增加了匈牙利语翻译。该数据集为从事图像描述研究的研究人员和开发者提供了一个宝贵的资源,尤其是对 PixelProse 和跨语言应用感兴趣的人。
数据集统计
- 成功获取的图像: 约 80%
- 失败的图像: 约 20%
数据结构
数据集示例如下: python { url: http://www.allisonshamrellblog.com/wp-content/uploads/2012/09/boxer-and-pit-bull-mix.jpg, img: PILImage(), en_cap: The image presents two dogs sitting on grass against a backdrop of trees and sunlight. The dog on ..., hu_cap: A képen két kutya ül a fűben a fák és a napfény hátterében. A bal oldali kutyának ... }
数据字段
url(str): 图像的 URL。img(image): 描述的图像。en_cap(str): 图像的英语描述。hu_cap(str): 图像的匈牙利语描述。
数据分割
所有配置包含一个单独的 train 分割。
开始使用
数据集的 1680 万条描述被格式化为 17 个 parquet 文件,因此可以轻松访问数据集的一小部分,而无需使用流式传输或下载整个数据集。
下载单个文件(100 万条描述)
bash !wget https://huggingface.co/datasets/Obscure-Entropy/PIXELPROSE_HU/resolve/main/data/train-00000-of-00017.parquet
下载整个数据集(1680 万条描述)
python from datasets import load_dataset
dataset = load_dataset(Obscure-Entropy/PIXELPROSE_HU)
限制
- 机器翻译准确性: 虽然我们力求高质量的翻译,但某些匈牙利语描述可能因机器翻译的限制而存在不准确之处。
- 缺少图表注释: 该数据集目前缺乏明确的图表注释。
- 图像质量降低: 为了减小数据集大小并便于下载和处理,JPEG 图像的质量已被降级。研究人员在处理需要高分辨率图像的任务时应特别注意这一限制。
翻译来源
- GoogleTranslate (约 80%)
- 第三方机器翻译 (约 10%)
- Gemini Pro (约 10%)
致谢
我们感谢作为此工作基础的原始图像描述数据集的创建者。 📄 ArXiv Paper




