casey-martin/qald_9_plus
收藏Hugging Face2023-12-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/casey-martin/qald_9_plus
下载链接
链接失效反馈官方服务:
资源简介:
QALD-9-plus是一个用于基于知识图谱的问答系统(KGQA)的数据集,基于著名的QALD-9数据集。它支持在DBpedia和Wikidata上进行训练和测试,包含9种不同语言的问题:英语、德语、俄语、法语、亚美尼亚语、白俄罗斯语、立陶宛语、巴什基尔语和乌克兰语。部分问题在某些语言中有多种表达方式,这有助于评估KGQA系统的鲁棒性和训练复述模型。问题的翻译由母语者提供,被视为黄金标准,因此可以用于训练和评估机器翻译工具。
QALD-9-plus是一个用于基于知识图谱的问答系统(KGQA)的数据集,基于著名的QALD-9数据集。它支持在DBpedia和Wikidata上进行训练和测试,包含9种不同语言的问题:英语、德语、俄语、法语、亚美尼亚语、白俄罗斯语、立陶宛语、巴什基尔语和乌克兰语。部分问题在某些语言中有多种表达方式,这有助于评估KGQA系统的鲁棒性和训练复述模型。问题的翻译由母语者提供,被视为黄金标准,因此可以用于训练和评估机器翻译工具。
提供机构:
casey-martin
原始信息汇总
QALD-9-plus 数据集概述
数据集描述
QALD-9-plus 是一个基于 QALD-9 的知识图谱问答(KGQA)数据集。该数据集支持在 DBpedia 和 Wikidata 上使用 9 种不同语言(英语、德语、俄语、法语、亚美尼亚语、白俄罗斯语、立陶宛语、巴什基尔语和乌克兰语)进行 KGQA 系统的训练和测试。部分问题在特定语言中有多个替代写法,这有助于评估 KGQA 系统的鲁棒性和训练释义模型。由于问题翻译由母语者提供,被视为金标准,因此该数据集也可用于训练和评估机器翻译工具。
数据集配置
- 默认配置:
data/*_train.parquet - 语言特定配置:
- 巴什基尔语 (ba):
data/*_ba_train.parquet - 白俄罗斯语 (be):
data/*_be_train.parquet - 德语 (de):
data/*_de_train.parquet - 英语 (en):
data/*_en_train.parquet - 法语 (fr):
data/*_fr_train.parquet - 亚美尼亚语 (hy):
data/*_hy_train.parquet - 立陶宛语 (lt):
data/*_lt_train.parquet - 俄语 (ru):
data/*_ru_train.parquet - 乌克兰语 (uk):
data/*_uk_train.parquet
- 巴什基尔语 (ba):
数据集统计
| en | de | fr | ru | uk | lt | be | ba | hy | # questions DBpedia | # questions Wikidata | |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Train | 408 | 543 | 260 | 1203 | 447 | 468 | 441 | 284 | 80 | 408 | 371 |
| Test | 150 | 176 | 26 | 348 | 176 | 186 | 155 | 117 | 20 | 150 | 136 |
数据集许可
该数据集遵循 CC-BY-4.0 许可。
引用信息
bibtex @inproceedings{perevalov2022qald9plus, author={Perevalov, Aleksandr and Diefenbach, Dennis and Usbeck, Ricardo and Both, Andreas}, booktitle={2022 IEEE 16th International Conference on Semantic Computing (ICSC)}, title={QALD-9-plus: A Multilingual Dataset for Question Answering over DBpedia and Wikidata Translated by Native Speakers}, year={2022}, pages={229-234}, doi={10.1109/ICSC52841.2022.00045} }
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



