five

projecte-aina/viquiquad

收藏
Hugging Face2025-09-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/viquiquad
下载链接
链接失效反馈
官方服务:
资源简介:
ViquiQuAD是一个从加泰罗尼亚维基百科中提取的提取式问答数据集。该数据集包含从597篇高质量原创文章中提取的3111个上下文片段,每个片段有1到5个问题及其答案。数据集可用于微调和评估提取式问答和语言模型。

ViquiQuAD is an extractive question answering (QA) dataset extracted from the Catalan Wikipedia. This dataset contains 3,111 context segments extracted from 597 high-quality original articles, with each segment paired with 1 to 5 questions and their corresponding answers. This dataset can be used for fine-tuning and evaluating extractive QA systems and language models.
提供机构:
projecte-aina
原始信息汇总

数据集概述

数据集名称: ViquiQuAD

数据集类型: 抽取式问答(Extractive QA)

语言: 加泰罗尼亚语(ca)

许可证: CC-BY-SA-4.0

数据集大小: 10K<n<100K

数据来源: 原始数据,来源于加泰罗尼亚语维基百科

任务类别: 问答

数据集详细信息

数据集摘要

ViquiQuAD是一个专为加泰罗尼亚语设计的抽取式问答数据集,数据来源于加泰罗尼亚语维基百科。该数据集包含从597篇高质量原始文章中提取的3111个上下文,每个上下文对应1至5个问题及其答案。这些文章均使用CC-by-sa许可证。

支持的任务和排行榜

  • 抽取式问答(Extractive-QA)
  • 语言模型(Language Model)

数据集结构

  • 数据实例: 每个实例包含唯一ID、文章标题、上下文、问题及答案。
  • 数据字段: 包括ID、标题、上下文、问题和答案列表,其中答案列表包含文本和起始偏移量。
  • 数据分割: 训练集11259例,开发集1493例,测试集1428例。

数据集创建

  • 数据收集与规范化: 数据来源于随机选择的597篇加泰罗尼亚语维基百科文章,从中提取了3111个上下文,并为每个上下文创建了1至5个问题。
  • 注释过程: 注释工作由专业公司负责,雇佣了母语为加泰罗尼亚语的团队进行。

使用数据集的考虑因素

  • 社会影响: 旨在促进加泰罗尼亚语语言模型的发展。
  • 偏见讨论: 未提供详细信息。
  • 其他已知限制: 未提供详细信息。

附加信息

  • 数据集管理员: 巴塞罗那超级计算中心文本挖掘单元(TeMU)
  • 许可证信息: 本作品采用<a rel="license" href="https://creativecommons.org/licenses/by-sa/4.0/">Attribution-ShareAlike 4.0 International License</a>。
  • 引用信息: 请参考提供的引用格式。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作