projecte-aina/xquad-ca

Name: projecte-aina/xquad-ca
Creator: projecte-aina
Published: 2024-09-20 12:47:24
License: 暂无描述

Hugging Face2024-09-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/projecte-aina/xquad-ca

下载链接

链接失效反馈

官方服务：

资源简介：

XQuAD-Ca数据集是XQuAD数据集的专业加泰罗尼亚语翻译版本，用于评估跨语言问答性能。数据集包含来自SQuAD v1.1开发集的240个段落和1190个问答对，并翻译成包括加泰罗尼亚语在内的13种语言。数据集的结构包括一个JSON文件，包含1189个示例，每个示例包含上下文、问题和答案。数据集的主要用途是支持加泰罗尼亚语的语言模型开发，并允许跨语言比较。

提供机构：

projecte-aina

原始信息汇总

数据集概述

数据集名称

名称: XQuAD-Ca
语言: 加泰罗尼亚语 (ca-ES)
许可证: CC-by-sa-4.0

数据集内容

任务类型: 问答（Extractive-QA）
数据集大小: 未知
数据实例数量: 1189个
数据结构: 一个JSON文件，包含context, qas, answers, id, question, text, answer_start等字段

数据集创建

创建理由: 为了促进加泰罗尼亚语（一种低资源语言）的语言模型发展，并与其他语言的类似数据集兼容，以便进行跨语言比较
源数据: 专业翻译自XQuAD数据集
注释者: 专业翻译公司

使用考虑

社会影响: 有助于加泰罗尼亚语语言模型的发展
偏见讨论: 未提供
其他已知限制: 未提供

附加信息

数据集管理者: 巴塞罗那超级计算中心（BSC）的文本挖掘单元（TeMU）
许可证信息: 此工作根据CC-by-sa许可证授权
引用信息: 提供了一个引用格式，包括作者、标题、出版信息等

数据集结构

数据实例

格式: JSON
数量: 1189个实例
示例结构: json { "context": "...", "qas": [ { "answers": [ { "text": "...", "answer_start": ... } ], "id": "...", "question": "..." }, ... ] }