Global-MMLU-Lite
收藏数据集概述
数据集名称
Global-MMLU-Lite
数据集简介
Global-MMLU-Lite 是一个多语言评估数据集,涵盖15种语言,包括英语。它是原始 Global-MMLU 数据集 的精简版本。该数据集包含每种语言的200个文化敏感(CS)和200个文化无关(CA)样本。
数据集特点
- 语言数量: 15种语言
- 样本类型: 每种语言包含200个文化敏感(CS)和200个文化无关(CA)样本
- 数据来源: 由 Cohere For AI Community 的专业标注者和贡献者精心策划
- 许可证: Apache 2.0
数据集配置
数据集包含以下语言配置:
- ar (阿拉伯语)
- bn (孟加拉语)
- de (德语)
- en (英语)
- es (西班牙语)
- fr (法语)
- hi (印地语)
- id (印度尼西亚语)
- it (意大利语)
- ja (日语)
- ko (韩语)
- pt (葡萄牙语)
- sw (斯瓦希里语)
- yo (约鲁巴语)
- zh (中文)
数据字段
每个数据字段在所有拆分中都是相同的,具体描述如下:
sample_id: 问题的唯一标识符subject: 问题所属的主要主题subject_category: 主题所属的高级类别(如STEM、人文学科、社会科学、医学、商业、其他)question: 从MMLU翻译过来的问题option_a: 可能的选项之一option_b: 可能的选项之一option_c: 可能的选项之一option_d: 可能的选项之一answer: 正确答案(A/B/C/D)required_knowledge: 标注者投票决定回答问题所需的知识(可能的值包括:“cultural”, “regional”, “dialect” 或 “none”)time_sensitive: 标注者投票指示问题的答案是否与时间相关(可能的值包括:Yes/No)reference: 标注问题中包含文化/地区/方言引用的部分culture: 标注问题所属的文化region: 问题相关的地理区域country: 问题涉及的具体国家cultural_sensitivity_label: 标注者投票决定问题是否具有文化敏感性(CS)或文化无关性(CA)is_annotated: 指示样本是否包含文化偏差研究的标注
数据拆分
数据集包含以下拆分:
test: 6,000个实例,覆盖15种语言dev: 4,275个实例,覆盖15种语言
数据实例
以下是 test 集中的一个示例:
json
{
sample_id: astronomy/test/58,
subject: astronomy,
subject_category: STEM,
question: When traveling north from the United States into Canada you’ll see the North Star (Polaris) getting _________.,
option_a: Brighter,
option_b: Dimmer,
option_c: Higher in the sky,
option_d: Lower in the sky,
answer: C,
required_knowledge: "[regional, regional, regional, regional]",
time_sensitive: "[No, No, No, No]",
reference: "[{end: 55, label: Geographic, score: None, start: 5}, {end: 43, label: Geographic, score: None, start: 30}, {end: 55, label: Geographic, score: None, start: 5}]"
}




