five

projecte-aina/xquad-ca

收藏
Hugging Face2024-09-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/xquad-ca
下载链接
链接失效反馈
官方服务:
资源简介:
XQuAD-Ca数据集是XQuAD数据集的专业加泰罗尼亚语翻译版本,用于评估跨语言问答性能。数据集包含来自SQuAD v1.1开发集的240个段落和1190个问答对,并翻译成包括加泰罗尼亚语在内的13种语言。数据集的结构包括一个JSON文件,包含1189个示例,每个示例包含上下文、问题和答案。数据集的主要用途是支持加泰罗尼亚语的语言模型开发,并允许跨语言比较。
提供机构:
projecte-aina
原始信息汇总

数据集概述

数据集名称

  • 名称: XQuAD-Ca
  • 语言: 加泰罗尼亚语 (ca-ES)
  • 许可证: CC-by-sa-4.0

数据集内容

  • 任务类型: 问答(Extractive-QA)
  • 数据集大小: 未知
  • 数据实例数量: 1189个
  • 数据结构: 一个JSON文件,包含context, qas, answers, id, question, text, answer_start等字段

数据集创建

  • 创建理由: 为了促进加泰罗尼亚语(一种低资源语言)的语言模型发展,并与其他语言的类似数据集兼容,以便进行跨语言比较
  • 源数据: 专业翻译自XQuAD数据集
  • 注释者: 专业翻译公司

使用考虑

  • 社会影响: 有助于加泰罗尼亚语语言模型的发展
  • 偏见讨论: 未提供
  • 其他已知限制: 未提供

附加信息

  • 数据集管理者: 巴塞罗那超级计算中心(BSC)的文本挖掘单元(TeMU)
  • 许可证信息: 此工作根据CC-by-sa许可证授权
  • 引用信息: 提供了一个引用格式,包括作者、标题、出版信息等

数据集结构

数据实例

  • 格式: JSON
  • 数量: 1189个实例
  • 示例结构: json { "context": "...", "qas": [ { "answers": [ { "text": "...", "answer_start": ... } ], "id": "...", "question": "..." }, ... ] }

数据字段

  • id: 字符串,唯一标识符
  • title: 字符串,文章标题
  • context: 字符串,段落文本
  • question: 字符串,问题
  • answers: 列表,每个答案包含textanswer_start

数据分割

  • 测试集: 1189个实例

数据集创建

源数据

  • 来源: XQuAD数据集的专业翻译
  • 收集和标准化: 由BSC TeMU在Projecte AINA框架内委托进行

注释

  • 注释过程: 由专业翻译公司完成
  • 注释者: 专业翻译公司

个人和敏感信息

  • 包含情况: 不包含个人或敏感信息
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作