five

Global-MMLU-Lite|多语言评估数据集|文化敏感性评估数据集

收藏
huggingface2024-12-12 更新2024-12-13 收录
多语言评估
文化敏感性评估
下载链接:
https://huggingface.co/datasets/CohereForAI/Global-MMLU-Lite
下载链接
链接失效反馈
资源简介:
Global-MMLU-Lite是一个多语言评估数据集,涵盖15种语言,包括英语。它是原始Global-MMLU数据集的精简版本,每种语言包含200个文化敏感(CS)和200个文化无关(CA)样本。该数据集的样本是原始Global-MMLU数据集中完全人工翻译或后期编辑的样本。数据集由Cohere For AI社区的专业注释者和贡献者策划。它包含多个数据字段,如sample_id、subject、subject_category、question、选项(a、b、c、d)、answer、required_knowledge、time_sensitive、reference、culture、region、country、cultural_sensitivity_label和is_annotated。该数据集支持多种语言,并采用Apache 2.0许可证。
提供机构:
Cohere For AI
创建时间:
2024-12-12
原始信息汇总

数据集概述

数据集名称

Global-MMLU-Lite

数据集简介

Global-MMLU-Lite 是一个多语言评估数据集,涵盖15种语言,包括英语。它是原始 Global-MMLU 数据集 的精简版本。该数据集包含每种语言的200个文化敏感(CS)和200个文化无关(CA)样本。

数据集特点

  • 语言数量: 15种语言
  • 样本类型: 每种语言包含200个文化敏感(CS)和200个文化无关(CA)样本
  • 数据来源: 由 Cohere For AI Community 的专业标注者和贡献者精心策划
  • 许可证: Apache 2.0

数据集配置

数据集包含以下语言配置:

  • ar (阿拉伯语)
  • bn (孟加拉语)
  • de (德语)
  • en (英语)
  • es (西班牙语)
  • fr (法语)
  • hi (印地语)
  • id (印度尼西亚语)
  • it (意大利语)
  • ja (日语)
  • ko (韩语)
  • pt (葡萄牙语)
  • sw (斯瓦希里语)
  • yo (约鲁巴语)
  • zh (中文)

数据字段

每个数据字段在所有拆分中都是相同的,具体描述如下:

  • sample_id: 问题的唯一标识符
  • subject: 问题所属的主要主题
  • subject_category: 主题所属的高级类别(如STEM、人文学科、社会科学、医学、商业、其他)
  • question: 从MMLU翻译过来的问题
  • option_a: 可能的选项之一
  • option_b: 可能的选项之一
  • option_c: 可能的选项之一
  • option_d: 可能的选项之一
  • answer: 正确答案(A/B/C/D)
  • required_knowledge: 标注者投票决定回答问题所需的知识(可能的值包括:“cultural”, “regional”, “dialect” 或 “none”)
  • time_sensitive: 标注者投票指示问题的答案是否与时间相关(可能的值包括:Yes/No)
  • reference: 标注问题中包含文化/地区/方言引用的部分
  • culture: 标注问题所属的文化
  • region: 问题相关的地理区域
  • country: 问题涉及的具体国家
  • cultural_sensitivity_label: 标注者投票决定问题是否具有文化敏感性(CS)或文化无关性(CA)
  • is_annotated: 指示样本是否包含文化偏差研究的标注

数据拆分

数据集包含以下拆分:

  • test: 6,000个实例,覆盖15种语言
  • dev: 4,275个实例,覆盖15种语言

数据实例

以下是 test 集中的一个示例: json { sample_id: astronomy/test/58, subject: astronomy, subject_category: STEM, question: When traveling north from the United States into Canada you’ll see the North Star (Polaris) getting _________., option_a: Brighter, option_b: Dimmer, option_c: Higher in the sky, option_d: Lower in the sky, answer: C, required_knowledge: "[regional, regional, regional, regional]", time_sensitive: "[No, No, No, No]", reference: "[{end: 55, label: Geographic, score: None, start: 5}, {end: 43, label: Geographic, score: None, start: 30}, {end: 55, label: Geographic, score: None, start: 5}]" }

AI搜集汇总
数据集介绍
main_image_url
构建方式
Global-MMLU-Lite数据集的构建基于原始Global-MMLU数据集,涵盖了15种语言,包括英语。该数据集包含200个文化敏感(CS)和200个文化无关(CA)样本,每个语言版本均由专业翻译人员进行翻译或后期编辑。数据集的构建过程中,确保了每个样本在不同语言中的对应性,并保留了原始数据集的文化敏感性和区域相关性标注。
特点
Global-MMLU-Lite数据集的主要特点在于其多语言覆盖和样本的文化敏感性标注。每个样本不仅包含问题和选项,还附带了关于所需知识、时间敏感性、文化参考、区域和国家的详细标注。这些标注由多个注释者提供,确保了数据的多样性和准确性。此外,数据集分为测试集和开发集,分别包含6,000和4,275个实例,适用于多语言模型的评估和训练。
使用方法
使用Global-MMLU-Lite数据集时,可以通过Hugging Face的`datasets`库进行加载。首先,安装`datasets`库,然后使用`load_dataset`函数加载所需语言的数据集。数据集可以转换为Pandas DataFrame格式,便于进一步的数据处理和分析。对于包含多个注释者标注的字段,如`required_knowledge`和`time_sensitive`,可以通过Python的`ast`模块将字符串转换为列表,以便更方便地进行数据操作。
背景与挑战
背景概述
Global-MMLU-Lite数据集是由Cohere For AI社区的专业注释者和贡献者精心构建的多语言评估数据集,涵盖了15种语言,其中包括英语。该数据集是原始Global-MMLU数据集的精简版本,专注于文化敏感(CS)和文化无关(CA)样本,每种语言包含200个CS和200个CA样本。其核心研究问题在于评估多语言模型在不同文化背景下的表现,尤其是文化敏感性对模型性能的影响。该数据集的创建旨在推动多语言自然语言处理领域的研究,特别是在跨文化理解和模型泛化能力方面。
当前挑战
Global-MMLU-Lite数据集面临的挑战主要集中在多语言和文化敏感性评估上。首先,构建过程中需要确保每种语言的翻译质量和文化相关性,这要求注释者具备高度的语言和文化敏感性。其次,数据集需要处理不同文化背景下的知识需求和时间敏感性问题,这增加了注释和评估的复杂性。此外,如何在不同语言和文化之间保持一致的评估标准也是一个重要挑战。最后,数据集的规模和多样性要求模型具备强大的跨语言泛化能力,这对模型的设计和训练提出了更高的要求。
常用场景
经典使用场景
Global-MMLU-Lite数据集的经典使用场景主要集中在多语言知识评估和跨文化敏感性分析。研究者可以利用该数据集对不同语言背景下的知识掌握情况进行评估,尤其是通过对比文化敏感性问题与文化无关问题的回答准确率,深入探讨语言模型在跨文化环境中的表现。
衍生相关工作
基于Global-MMLU-Lite数据集,研究者已开展了一系列关于多语言模型性能评估和文化敏感性分析的工作。例如,有研究通过该数据集评估了不同语言模型在文化敏感问题上的表现差异,并提出了改进模型跨文化适应性的方法。此外,该数据集还为多语言教育领域的研究提供了丰富的数据支持。
数据集最近研究
最新研究方向
Global-MMLU-Lite数据集在多语言评估领域引起了广泛关注,尤其是在跨文化敏感性和区域知识依赖性方面的研究。该数据集通过提供多语言的测试样本,支持了对模型在不同文化背景下的表现进行深入分析。近期研究主要集中在利用该数据集评估和改进多语言模型的文化敏感性,以及探索如何通过跨文化数据增强模型的泛化能力。此外,该数据集还被用于研究时间敏感性问题,即模型在不同时间点对同一问题的回答是否一致。这些研究不仅有助于提升模型的文化适应性,还为全球范围内的多语言应用提供了理论支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

Obstacle-dataset OD

该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。

github 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。

国家地球系统科学数据中心 收录