five

PlanTL-GOB-ES/SQAC

收藏
Hugging Face2023-10-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PlanTL-GOB-ES/SQAC
下载链接
链接失效反馈
官方服务:
资源简介:
SQAC(西班牙问答语料库)是一个用于西班牙语的抽取式问答数据集,包含6,247个上下文和18,817个问题及其答案。数据来源于西班牙维基百科、Wikinews和AnCora语料库,每个上下文包含1到5个问题。数据集支持抽取式问答任务,语言为西班牙语。数据集的结构包括训练集、开发集和测试集,分别包含15,036、1,864和1,910个实例。数据集的内容分析显示,每个上下文平均包含250个词,每个问题平均包含10.8个词,每个答案平均包含4.8个词。数据集的创建遵循了SQUAD 1.0的指导方针,由母语为西班牙语的注释者进行注释。
提供机构:
PlanTL-GOB-ES
原始信息汇总

数据集概述

数据集名称

  • 名称: Spanish Question Answering Corpus (SQAC)
  • 别名: SQAC

数据集描述

  • 语言: 西班牙语 (es)
  • 许可: CC-BY-SA-4.0
  • 多语言性: 单语
  • 任务类别: 问答
  • 任务ID: 提取式问答 (extractive-qa)

数据集来源

  • 原始数据来源:
    • 西班牙维基百科
    • 西班牙维基新闻
    • AnCora语料库

数据集内容

  • 包含:
    • 6,247个上下文
    • 18,817个问题及其答案
    • 每个片段有1到5个问题

数据集结构

  • 数据实例:
    • id: 字符串
    • title: 字符串
    • context: 字符串
    • question: 字符串
    • answers:
      • text: 字符串列表
      • answer_start: 整数列表

数据分割

  • 分割:
    • train: 15,036个实例
    • dev: 1,864个实例
    • test: 1,910个实例

数据分析

  • 文章、段落和问题数量:
    • 文章数量: 3,834
    • 上下文数量: 6,247
    • 问题数量: 18,817
    • 问题/上下文比例: 3.01

词汇变化

  • 问题中的词汇在上下文中出现的比例: 46.38%

问题类型统计

  • 各类型问题数量及百分比:
    • qué: 6,381 (33.91%)
    • quién/es: 2,952 (15.69%)
    • cuál/es: 2,034 (10.81%)
    • cómo: 1,949 (10.36%)
    • dónde: 1,856 (9.86%)
    • cuándo: 1,639 (8.71%)
    • cuánto: 1,311 (6.97%)
    • cuántos: 495 (2.63%)
    • adónde: 100 (0.53%)
    • cuánta: 49 (0.26%)
    • no question mark: 43 (0.23%)
    • cuántas: 19 (0.10%)

数据集创建

  • 注释过程:
    • 遵循SQUAD 1.0指南,为每个上下文创建1到5个问题
    • 注释者: 母语为西班牙语的专家

数据集使用注意事项

  • 社会影响: 促进西班牙语语言模型的发展
  • 偏见讨论: 未采取后处理步骤以减轻潜在的社会偏见
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
SQAC是一个西班牙语抽取式问答数据集,包含6,247个上下文和18,817个问题,每个上下文对应1到5个问题,数据来源于西班牙维基百科、Wikinews新闻和AnCora语料库,使用CC许可。该数据集专为抽取式问答任务设计,支持西班牙语自然语言处理研究,常用于训练和评估问答模型。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作