PlanTL-GOB-ES/SQAC
收藏Hugging Face2023-10-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PlanTL-GOB-ES/SQAC
下载链接
链接失效反馈官方服务:
资源简介:
SQAC(西班牙问答语料库)是一个用于西班牙语的抽取式问答数据集,包含6,247个上下文和18,817个问题及其答案。数据来源于西班牙维基百科、Wikinews和AnCora语料库,每个上下文包含1到5个问题。数据集支持抽取式问答任务,语言为西班牙语。数据集的结构包括训练集、开发集和测试集,分别包含15,036、1,864和1,910个实例。数据集的内容分析显示,每个上下文平均包含250个词,每个问题平均包含10.8个词,每个答案平均包含4.8个词。数据集的创建遵循了SQUAD 1.0的指导方针,由母语为西班牙语的注释者进行注释。
提供机构:
PlanTL-GOB-ES
原始信息汇总
数据集概述
数据集名称
- 名称: Spanish Question Answering Corpus (SQAC)
- 别名: SQAC
数据集描述
- 语言: 西班牙语 (es)
- 许可: CC-BY-SA-4.0
- 多语言性: 单语
- 任务类别: 问答
- 任务ID: 提取式问答 (extractive-qa)
数据集来源
- 原始数据来源:
- 西班牙维基百科
- 西班牙维基新闻
- AnCora语料库
数据集内容
- 包含:
- 6,247个上下文
- 18,817个问题及其答案
- 每个片段有1到5个问题
数据集结构
- 数据实例:
id: 字符串title: 字符串context: 字符串question: 字符串answers:text: 字符串列表answer_start: 整数列表
数据分割
- 分割:
train: 15,036个实例dev: 1,864个实例test: 1,910个实例
数据分析
- 文章、段落和问题数量:
- 文章数量: 3,834
- 上下文数量: 6,247
- 问题数量: 18,817
- 问题/上下文比例: 3.01
词汇变化
- 问题中的词汇在上下文中出现的比例: 46.38%
问题类型统计
- 各类型问题数量及百分比:
qué: 6,381 (33.91%)quién/es: 2,952 (15.69%)cuál/es: 2,034 (10.81%)cómo: 1,949 (10.36%)dónde: 1,856 (9.86%)cuándo: 1,639 (8.71%)cuánto: 1,311 (6.97%)cuántos: 495 (2.63%)adónde: 100 (0.53%)cuánta: 49 (0.26%)no question mark: 43 (0.23%)cuántas: 19 (0.10%)
数据集创建
- 注释过程:
- 遵循SQUAD 1.0指南,为每个上下文创建1到5个问题
- 注释者: 母语为西班牙语的专家
数据集使用注意事项
- 社会影响: 促进西班牙语语言模型的发展
- 偏见讨论: 未采取后处理步骤以减轻潜在的社会偏见
搜集汇总
数据集介绍

背景与挑战
背景概述
SQAC是一个西班牙语抽取式问答数据集,包含6,247个上下文和18,817个问题,每个上下文对应1到5个问题,数据来源于西班牙维基百科、Wikinews新闻和AnCora语料库,使用CC许可。该数据集专为抽取式问答任务设计,支持西班牙语自然语言处理研究,常用于训练和评估问答模型。
以上内容由遇见数据集搜集并总结生成



