Mollel/ARC_Challenge_SWH
收藏Hugging Face2024-07-09 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/Mollel/ARC_Challenge_SWH
下载链接
链接失效反馈官方服务:
资源简介:
ARC_Challenge_Swahili数据集是原始英文ARC(AI2 Reasoning Challenge)数据集的斯瓦希里语翻译版本,用于评估AI系统回答小学水平科学选择题的能力。该数据集通过机器翻译和人工验证相结合的方式创建,确保了翻译的高质量和准确性。数据集支持多项选择题回答任务,语言为斯瓦希里语。数据结构包括每个问题的唯一标识符、语言、问题文本、选择题选项和正确答案。数据分割为训练集、验证集和测试集。
ARC_Challenge_Swahili is a Swahili translation of the original English ARC (AI2 Reasoning Challenge) dataset. This dataset evaluates the ability of AI systems to answer grade-school level multiple-choice science questions. The Swahili version was created using a combination of machine translation and human annotation to ensure high-quality and accurate translations. The dataset supports multiple-choice question-answering tasks and is in Swahili. The data structure includes a unique identifier for each question, language, question text, multiple-choice options, and the correct answer. The data is split into training, validation, and test sets.
提供机构:
Mollel
原始信息汇总
ARC_Challenge_Swahili 数据集概述
数据集摘要
ARC_Challenge_Swahili 是原始英语 ARC(AI2 Reasoning Challenge)数据集的斯瓦希里语翻译版本。该数据集评估 AI 系统回答小学水平的多项选择科学问题的能力。斯瓦希里语版本通过机器翻译和人工注释的结合创建,以确保高质量和准确的翻译。
翻译方法
ARC_Challenge_Swahili 数据集的翻译过程包括两个主要阶段:
机器翻译
- 初始翻译从英语到斯瓦希里语使用 SeamlessM4TModel 翻译模型进行。
- 翻译参数如下: python inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=1024).to(device) outputs = model.generate(**inputs, tgt_lang=dest_lang) translation = tokenizer.batch_decode(outputs, skip_special_tokens=True)
人工验证和注释
- 初始机器翻译后,翻译结果通过 GPT-3.5 进行验证。
- 人工翻译者审查和注释 GPT-3.5 标记为有问题的翻译,以确保斯瓦希里语的准确性和自然性。
支持的任务和排行榜
- 多项选择:数据集支持多项选择问答任务。
语言
数据集使用斯瓦希里语。
数据集结构
数据实例
一个数据实例的示例: json { "id": "example-id", "language": "sw", "question": "Ni gani kati ya zifuatazo ni sehemu ya mmea?", "choices": [ {"text": "Majani", "Jiwe", "Ubao", "Nondo"}, {"label": "A", "B": "C", "D"}, ], "answerKey": "A" }
数据字段
- id:每个问题的唯一标识符。
- language:问题的语言为斯瓦希里语(sw)。
- question:斯瓦希里语的科学问题。
- choices:多项选择选项,每个选项包含文本和标签。
- answerKey:每个问题的正确答案。
数据分割
| 分割 | 行数 |
|---|---|
| train | 1119 |
| validation | 299 |
| test | 1172 |



