HausaNLP/HausaVG
收藏HaVG: Hausa Visual Genome
数据集描述
Hausa Visual Genome (HaVG) 数据集包含用Hausa语和其对应的英语描述的图像或图像中的部分内容。该数据集是通过自动翻译Hindi Visual Genome (HVG)中的英语图像描述并经过仔细的后编辑而准备的。数据集包含32,923张图像及其描述,分为训练集、开发集、测试集和挑战测试集。Hausa Visual Genome是同类数据集中的第一个,可用于Hausa-English机器翻译、多模态研究、图像描述等多种自然语言处理和生成任务。
支持的任务
- 翻译
- 图像到文本
- 文本到图像
语言
- Hausa
- 英语
数据集结构
数据字段
所有文本文件包含以下七列:
- Column1 - image_id
- Column2 - X
- Column3 - Y
- Column4 - Width
- Column5 - Height
- Column6 - 英语文本
- Column7 - Hausa文本
数据分割
| 数据集 | 片段数 | 英语单词数 | Hausa单词数 |
|---|---|---|---|
| 训练集 | 28,930 | 143,106 | 140,981 |
| 开发集 | 998 | 4922 | 4857 |
| 测试集 | 1595 | 7853 | 7736 |
| 挑战测试集 | 1400 | 8186 | 8752 |
| 总计 | 32,923 | 164067 | 162326 |
单词数是近似值,在分词之前。
数据集创建
源数据
源数据来自Hindi Visual Genome数据集,是Visual Genome数据集的一个子集。
标注过程
翻译是通过为这项任务专门开发的网络应用程序获得的。
标注者
数据集由HausaNLP和Bayero University Kano的专业翻译人员创建。
个人和敏感信息
数据集不包含任何个人或敏感信息。
使用数据的注意事项
数据集的社会影响
HaVG将促进Hausa语言自然语言应用的更高质量模型的创建。
附加信息
许可信息
该数据集在Creative Commons BY-NC-SA许可下共享。
引用信息
如果您在工作中使用此数据集,请引用我们。
@inproceedings{abdulmumin-etal-2022-hausa, title = "{H}ausa Visual Genome: A Dataset for Multi-Modal {E}nglish to {H}ausa Machine Translation", author = "Abdulmumin, Idris and Dash, Satya Ranjan and Dawud, Musa Abdullahi and Parida, Shantipriya and Muhammad, Shamsuddeen and Ahmad, Ibrahim Sa{}id and Panda, Subhadarshi and Bojar, Ond{v{r}}ej and Galadanci, Bashir Shehu and Bello, Bello Shehu", booktitle = "Proceedings of the Thirteenth Language Resources and Evaluation Conference", month = jun, year = "2022", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://aclanthology.org/2022.lrec-1.694", pages = "6471--6479" }
贡献
[更多信息需要]




