lincoln/newsquadfr
收藏Hugging Face2022-08-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lincoln/newsquadfr
下载链接
链接失效反馈官方服务:
资源简介:
newsquadfr是一个用于问答任务的小型数据集,包含从2020/2021年期间的九个法国在线报纸中提取的文章段落。数据集包含2520个三元组(上下文-问题-答案),并受到Piaf和Squad数据集的启发。数据集支持的任务包括抽取式问答和开放域问答。数据集的创建过程包括从原始数据中选择段落,并根据网站、命名实体数量和段落大小进行分层。注释过程使用了Piaf注释工具,主要由三个人完成。数据集的语言为法语(fr-FR),许可证为CC BY-NC-SA 4.0。
NewsQUADfr is a small-scale dataset for question answering tasks, comprising article passages extracted from nine French online newspapers between 2020 and 2021. It contains 2520 (context-question-answer) triples and is inspired by the Piaf and SQuAD datasets. The supported tasks include extractive question answering and open-domain question answering. The dataset creation process entails selecting passages from raw data, with stratification performed based on the source website, count of named entities, and passage length. The annotation process utilized the Piaf annotation tool, and was primarily completed by three annotators. The dataset is in French (fr-FR) and is licensed under CC BY-NC-SA 4.0.
提供机构:
lincoln
原始信息汇总
数据集概述
数据集名称: newsquadfr
语言: 法语(fr-FR)
许可证: CC-BY-NC-SA-4.0
数据集大小: 1K<n<10K
多语言性: 单语种
源数据: 原始数据、报纸、在线资源
任务类别: 问答(question-answering)
具体任务: 提取式问答(extractive-qa)、开放领域问答(open-domain-qa)
数据集结构
数据实例: 每个实例包含答案、文章ID、文章标题、文章URL、上下文、ID、段落ID、问题和网站来源。
数据字段:
answers: 包含text(字符串)和answer_start(整数)。article_id: 整数。article_title: 字符串。article_url: 字符串。context: 字符串。id: 字符串。paragraph_id: 整数。question: 字符串。website: 字符串。
数据分割:
train: 1650test: 415valid: 455
数据集创建
来源数据:
- 初始数据收集和规范化遵循特定规则,如文章ASCII字符比例、段落大小限制等。
- 数据集根据网站、命名实体数量和段落大小进行分层。
注释过程: 使用Piaf注释工具,主要由三个人进行。
使用数据集的考虑
已知偏差:
- 注释控制不足。
- 基于新闻的问答存在偏差。
附加信息
许可证信息: CC-BY-NC-SA-4.0



