five

ARCD

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/ARCD
下载链接
链接失效反馈
官方服务:
资源简介:
由众包工作人员在维基百科文章中提出的 1,395 个问题以及斯坦福问答数据集 (Arabic-SQuAD) 的机器翻译组成。本文使用维基百科作为我们的知识源来解决开放域事实阿拉伯语问答 (QA) 的问题。这将任何问题的答案限制为 Wikipedia 中的一段文本。阿拉伯语的开放域 QA 面临三个挑战:阿拉伯语注释 QA 数据集、大规模高效信息检索和机器阅读理解。为了解决缺乏阿拉伯语 QA 数据集的问题,我们提供了阿拉伯语阅读理解数据集 (ARCD),该数据集由众包工作人员在 Wikipedia 文章中提出的 1,395 个问题组成,以及斯坦福问答数据集 (Arabic-SQuAD) 的机器翻译。我们的阿拉伯语开放域问答系统(SOQAL)基于两个组件:(1)使用分层 TF-IDF 方法的文档检索器和(2)使用预训练双向变压器 BERT 的神经阅读理解模型.我们在 ARCD 上的实验表明我们的方法的有效性,基于 BERT 的阅读器获得了 61.3 F1 分数,我们的开放域系统 SOQAL 获得了 27.6 F1 分数。
提供机构:
OpenDataLab
创建时间:
2022-06-23
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作