projecte-aina/arc_ca

Name: projecte-aina/arc_ca
Creator: projecte-aina
Published: 2024-09-20 08:03:25
License: 暂无描述

Hugging Face2024-09-20 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/projecte-aina/arc_ca

下载链接

链接失效反馈

官方服务：

资源简介：

arc_ca（AI2推理挑战 - 加泰罗尼亚语）是一个基于小学水平科学问题的多项选择问答数据集。数据集包含Easy版本的2950个实例（测试集570个，验证集2380个）和Challenge版本的1469个实例（测试集299个，验证集1170个）。每个实例包含一个问题题干、3到5个可能的选项以及表示正确答案的字母。数据集由BSC-CNS的语言技术单位策划，由Projecte AINA资助，使用CC-BY-SA 4.0许可证。

提供机构：

projecte-aina

原始信息汇总

数据集概述

名称: arc_ca

语言: 加泰罗尼亚语

许可: CC-BY-SA 4.0

任务类别: 问答、多选

数据集大小:

下载大小: 286851字节
数据集大小: 525323字节

配置名称: ARC-Challenge

数据集结构:

id: 字符串类型，问题-答案对的标识符
question: 字符串类型，待回答的问题
choices: 字典类型，包含答案文本和标签
answerKey: 字符串类型，正确答案的标签

数据集分割:

测试集: 1172个示例，417236字节
验证集: 299个示例，108087字节

数据集描述

arc_ca是一个基于多选科学问题的问答数据集，适用于小学水平。数据集包含2950个实例，分为Easy和Challenge版本。每个实例包含一个问题、3至5个可能的答案及正确答案的字母标识。

数据集使用

适用场景:

常识问答
高级问答
多选测试
阅读理解测试

不适用场景:

不应使用测试集和验证集来训练任何语言模型

数据集创建

翻译过程:

日期和单位转换
人名翻译
语言风格保持
数据集逻辑维护
错误处理
避免模式并保持长度

5,000+

优质数据集

54 个

任务类型

进入经典数据集