projecte-aina/xquad-ca
收藏Hugging Face2024-09-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/xquad-ca
下载链接
链接失效反馈官方服务:
资源简介:
XQuAD-Ca数据集是XQuAD数据集的专业加泰罗尼亚语翻译版本,用于评估跨语言问答性能。数据集包含来自SQuAD v1.1开发集的240个段落和1190个问答对,并翻译成包括加泰罗尼亚语在内的13种语言。数据集的结构包括一个JSON文件,包含1189个示例,每个示例包含上下文、问题和答案。数据集的主要用途是支持加泰罗尼亚语的语言模型开发,并允许跨语言比较。
提供机构:
projecte-aina
原始信息汇总
数据集概述
数据集名称
- 名称: XQuAD-Ca
- 语言: 加泰罗尼亚语 (
ca-ES) - 许可证: CC-by-sa-4.0
数据集内容
- 任务类型: 问答(Extractive-QA)
- 数据集大小: 未知
- 数据实例数量: 1189个
- 数据结构: 一个JSON文件,包含
context,qas,answers,id,question,text,answer_start等字段
数据集创建
- 创建理由: 为了促进加泰罗尼亚语(一种低资源语言)的语言模型发展,并与其他语言的类似数据集兼容,以便进行跨语言比较
- 源数据: 专业翻译自XQuAD数据集
- 注释者: 专业翻译公司
使用考虑
- 社会影响: 有助于加泰罗尼亚语语言模型的发展
- 偏见讨论: 未提供
- 其他已知限制: 未提供
附加信息
- 数据集管理者: 巴塞罗那超级计算中心(BSC)的文本挖掘单元(TeMU)
- 许可证信息: 此工作根据CC-by-sa许可证授权
- 引用信息: 提供了一个引用格式,包括作者、标题、出版信息等
数据集结构
数据实例
- 格式: JSON
- 数量: 1189个实例
- 示例结构: json { "context": "...", "qas": [ { "answers": [ { "text": "...", "answer_start": ... } ], "id": "...", "question": "..." }, ... ] }
数据字段
- id: 字符串,唯一标识符
- title: 字符串,文章标题
- context: 字符串,段落文本
- question: 字符串,问题
- answers: 列表,每个答案包含
text和answer_start
数据分割
- 测试集: 1189个实例
数据集创建
源数据
- 来源: XQuAD数据集的专业翻译
- 收集和标准化: 由BSC TeMU在Projecte AINA框架内委托进行
注释
- 注释过程: 由专业翻译公司完成
- 注释者: 专业翻译公司
个人和敏感信息
- 包含情况: 不包含个人或敏感信息



