eraldoluis/faquad

Name: eraldoluis/faquad
Creator: eraldoluis
Published: 2023-01-23 08:45:41
License: 暂无描述

Hugging Face2023-01-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/eraldoluis/faquad

下载链接

链接失效反馈

官方服务：

资源简介：

--- pretty_name: FaQuAD annotations_creators: - expert-generated language_creators: - found language: - pt license: - cc-by-4.0 multilinguality: - monolingual size_categories: - n<1K source_datasets: - extended|wikipedia task_categories: - question-answering task_ids: - extractive-qa # paperswithcode_id: faquad train-eval-index: - config: plain_text task: question-answering task_id: extractive_question_answering splits: train_split: train eval_split: validation col_mapping: question: question context: context answers: text: text answer_start: answer_start metrics: - type: squad name: SQuAD --- # Dataset Card for FaQuAD ## Table of Contents - [Table of Contents](#table-of-contents) - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards) - [Languages](#languages) - [Dataset Structure](#dataset-structure) - [Data Instances](#data-instances) - [Data Fields](#data-fields) - [Data Splits](#data-splits) - [Dataset Creation](#dataset-creation) - [Curation Rationale](#curation-rationale) - [Source Data](#source-data) - [Annotations](#annotations) - [Personal and Sensitive Information](#personal-and-sensitive-information) - [Considerations for Using the Data](#considerations-for-using-the-data) - [Social Impact of Dataset](#social-impact-of-dataset) - [Discussion of Biases](#discussion-of-biases) - [Other Known Limitations](#other-known-limitations) - [Additional Information](#additional-information) - [Dataset Curators](#dataset-curators) - [Licensing Information](#licensing-information) - [Citation Information](#citation-information) - [Contributions](#contributions) ## Dataset Description - **Homepage:** https://github.com/liafacom/faquad - **Repository:** https://github.com/liafacom/faquad - **Paper:** https://ieeexplore.ieee.org/document/8923668/  - **Point of Contact:** Eraldo R. Fernandes <eraldoluis@gmail.com> ### Dataset Summary Academic secretaries and faculty members of higher education institutions face a common problem: the abundance of questions sent by academics whose answers are found in available institutional documents. The official documents produced by Brazilian public universities are vast and disperse, which discourage students to further search for answers in such sources. In order to lessen this problem, we present FaQuAD: a novel machine reading comprehension dataset in the domain of Brazilian higher education institutions. FaQuAD follows the format of SQuAD (Stanford Question Answering Dataset) [Rajpurkar et al. 2016]. It comprises 900 questions about 249 reading passages (paragraphs), which were taken from 18 official documents of a computer science college from a Brazilian federal university and 21 Wikipedia articles related to Brazilian higher education system. As far as we know, this is the first Portuguese reading comprehension dataset in this format. ### Supported Tasks and Leaderboards [More Information Needed] ### Languages [More Information Needed] ## Dataset Structure ### Data Instances [More Information Needed] ### Data Fields | name |train|validation| |---------|----:|----:| |faquad|837|63| ### Data Splits [More Information Needed] ## Dataset Creation ### Curation Rationale [More Information Needed] ### Source Data #### Initial Data Collection and Normalization [More Information Needed] #### Who are the source language producers? [More Information Needed] ### Annotations #### Annotation process [More Information Needed] #### Who are the annotators? [More Information Needed] ### Personal and Sensitive Information [More Information Needed] ## Considerations for Using the Data ### Social Impact of Dataset [More Information Needed] ### Discussion of Biases [More Information Needed] ### Other Known Limitations [More Information Needed] ## Additional Information ### Dataset Curators [More Information Needed] ### Licensing Information [More Information Needed] ### Citation Information [More Information Needed] ### Contributions Thanks to [@github-username](https://github.com/<github-username>) for adding this dataset.

提供机构：

eraldoluis

原始信息汇总

数据集卡片 for FaQuAD

数据集描述

数据集概述

FaQuAD 是一个针对巴西高等教育机构领域的机器阅读理解数据集。该数据集遵循 SQuAD（Stanford Question Answering Dataset）的格式，包含 900 个关于 249 个阅读段落（段落）的问题。这些段落来自巴西一所联邦大学的计算机科学学院的 18 份官方文件和 21 篇与巴西高等教育系统相关的维基百科文章。据我们所知，这是首个以这种格式呈现的葡萄牙语阅读理解数据集。

支持的任务和排行榜

[更多信息待补充]

语言

[更多信息待补充]

数据集结构

数据实例

[更多信息待补充]

数据字段

名称	训练集	验证集
faquad	837	63

数据分割

[更多信息待补充]

数据集创建

策划理由

[更多信息待补充]

源数据

初始数据收集和规范化

[更多信息待补充]

源语言生产者是谁？

[更多信息待补充]

注释

注释过程

[更多信息待补充]

注释者是谁？

[更多信息待补充]

个人和敏感信息

[更多信息待补充]

使用数据集的注意事项

数据集的社会影响

[更多信息待补充]

偏见的讨论

[更多信息待补充]

其他已知限制

[更多信息待补充]

附加信息

数据集策展人

[更多信息待补充]

许可信息

[更多信息待补充]

引用信息

[更多信息待补充]

贡献

感谢 @github-username 添加此数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集