ruanchaves/faquad-nli
收藏Hugging Face2023-04-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ruanchaves/faquad-nli
下载链接
链接失效反馈官方服务:
资源简介:
FaQuAD-NLI是一个葡萄牙语的阅读理解数据集,基于斯坦福问答数据集(SQuAD)的格式,专门针对巴西高等教育系统中的学术问题。它是FaQuAD数据集的修改版本,将问答任务重新定义为问题和其可能答案之间的文本蕴含任务。数据集包含900个问题,涉及249个阅读段落,这些段落来自巴西联邦大学计算机科学学院的18份官方文件和21篇与巴西高等教育系统相关的维基百科文章。数据集分为训练集、验证集和测试集,分别包含3128、731和650个实例。
提供机构:
ruanchaves
原始信息汇总
数据集卡片 for FaQuAD-NLI
数据集描述
数据集概述
FaQuAD 是一个葡萄牙语阅读理解数据集,遵循斯坦福问答数据集(SQuAD)的格式。它是首个使用 SQuAD 挑战性格式的葡萄牙语阅读理解数据集。该数据集旨在解决巴西高等教育系统中大量学术问题,其答案可在现有机构文件中找到的问题。它包含 900 个关于 249 个阅读段落的问题,这些段落来自巴西联邦大学计算机科学学院的 18 份官方文件和 21 篇与巴西高等教育系统相关的维基百科文章。
FaQuAD-NLI 是 FaQuAD 数据集 的修改版本,将问答任务重新定义为问题与其可能答案之间的文本蕴含任务。
支持的任务和排行榜
question_answering:该数据集可用于训练巴西高等教育机构领域中的问答任务模型。textual_entailment:FaQuAD-NLI 可用于训练文本蕴含任务模型,其中问答对中的答案被分类为合适或不合适。
语言
该数据集为巴西葡萄牙语。
数据集结构
数据字段
document_index:表示文档索引的整数。document_title:包含文档标题的字符串。paragraph_index:表示文档中段落索引的整数。question:包含与段落相关的问题的字符串。answer:包含与问题相关的答案的字符串。label:表示答案是否适合问题(1)或不适合(0)的整数。
数据分割
数据集分为三个子集:训练集、验证集和测试集。分割时仔细确保属于同一文档的问题和答案对不会出现在多个分割中。
| 训练集 | 验证集 | 测试集 | |
|---|---|---|---|
| 实例数 | 3128 | 731 | 650 |



