community-datasets/parsinlu_reading_comprehension
收藏数据集概述
数据集描述
数据集摘要
PersiNLU (Reading Comprehension) 是一个波斯语阅读理解任务数据集,用于生成答案,给定问题和上下文段落。问题通过 Google 自动补全挖掘,答案和相应的证据文档由母语者手动标注。
支持的任务和排行榜
[更多信息待补充]
语言
数据集中的文本为波斯语 (fa)。
数据集结构
数据实例
以下是数据集中的一个示例: json { "question": "پیامبر در چه سالی به پیامبری رسید؟", "url": "https://fa.wikipedia.org/wiki/%D9%85%D8%AD%D9%85%D8%AF", "passage": "محمد که از روش زندگی مردم مکه ناخشنود بود، گهگاه در غار حرا در یکی از کوهu200cهای اطراف آن دیار به تفکر و عبادت میu200cپرداخت. به باور مسلمانان، محمد در همین مکان و در حدود ۴۰ سالگی از طرف خدا به پیامبری برگزیده، و وحی بر او فروفرستاده شد. در نظر آنان، دعوت محمد همانند دعوت دیگر پیامبرانِ کیش یکتاپرستی مبنی بر این بود که خداوند (الله) یکتاست و تسلیم شدن برابر خدا راه رسیدن به اوست.", "answers": [ {"answer_start": 160, "answer_text": "حدود ۴۰ سالگی"} ] }
数据字段
question: 通过 Google 自动补全挖掘的问题。passage: 包含答案的段落。url: 从中挖掘段落的 URL。answers: 包含答案的列表,包含字段answer_start和answer_text。在测试集中,某些answer_start值缺失并替换为-1。
数据分割
数据集分为训练集和测试集,包含 600/575 个样本。
数据集创建
策划理由
问题通过 Google 自动补全收集,答案由母语者标注。更多详情请查看相应草案。
源数据
初始数据收集和规范化
[更多信息待补充]
源语言生产者
[更多信息待补充]
标注
标注过程
[更多信息待补充]
标注者
[更多信息待补充]
个人和敏感信息
[更多信息待补充]
使用数据的注意事项
数据集的社会影响
[更多信息待补充]
偏见讨论
[更多信息待补充]
其他已知限制
数据集仅供研究目的使用。请查看数据集许可证以获取更多信息。
附加信息
数据集策展人
[更多信息待补充]
许可信息
CC BY-NC-SA 4.0 许可证
引用信息
bibtex
@article{huggingface:dataset,
title = {ParsiNLU: A Suite of Language Understanding Challenges for Persian},
authors = {Khashabi, Daniel and Cohan, Arman and Shakeri, Siamak and Hosseini, Pedram and Pezeshkpour, Pouya and Alikhani, Malihe and Aminnaseri, Moin and Bitaab, Marzieh and Brahman, Faeze and Ghazarian, Sarik and others},
year={2020},
journal = {arXiv e-prints},
eprint = {2012.06154},
}
贡献
感谢 @danyaljj 添加此数据集。



