five

global_mmlu_ja_edited

收藏
Hugging Face2024-12-09 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/akkikiki/global_mmlu_ja_edited
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个日语的多语言评估数据集,包含多个特征如样本ID、主题、问题、选项、答案等,涵盖了文化、地区、国家等信息。数据集分为训练集,包含285个样本。数据集适用于Apache 2.0许可证,作者是Yoshinari Fujinuma。
创建时间:
2024-12-08
原始信息汇总

数据集概述

数据集信息

  • 特征(features)

    • sample_id:字符串类型
    • subject:字符串类型
    • subject_category:字符串类型
    • question:字符串类型
    • option_a:字符串类型
    • option_b:字符串类型
    • option_c:字符串类型
    • option_d:字符串类型
    • answer:字符串类型
    • required_knowledge:字符串类型
    • time_sensitive:字符串类型
    • reference:字符串类型
    • culture:字符串类型
    • region:字符串类型
    • country:字符串类型
    • cultural_sensitivity_label:字符串类型
    • is_annotated:布尔类型
    • is_edited:布尔类型
  • 数据分割(splits)

    • train:包含285个样本,占用167465字节
  • 下载大小:99115字节

  • 数据集大小:167465字节

  • 配置(configs)

    • default:数据文件路径为data/train-*
  • 许可证:Apache 2.0

  • 语言:日语(ja)

  • 数据集规模:n<1K

加载数据集

python from datasets import load_dataset

从JSON加载数据集

ds = load_dataset("akkikiki/global_mmlu_ja_edited")

如果从原始Global MMLU迁移,移除额外列

ds = ds.remove_columns("is_edited")

加载HF数据集

global_mmlu_ja = load_dataset("CohereForAI/Global-MMLU", ja) global_mmlu_ja["dev"] = ds["train"]

附加信息

  • 作者:Yoshinari Fujinuma

  • 许可证信息:该数据集可用于任何目的,遵循Apache 2.0许可证。

  • 引用信息

    • 原始Global-MMLU数据集位于https://huggingface.co/datasets/CohereForAI/Global-MMLU

    • 引用时请使用以下信息:

      @misc {fujinuma2024mmluv2, author = {Fujinuma, Yoshinari}, title = {JA Revised v2 of Global-MMLU}, howpublished = {url{https://huggingface.co/datasets/akkikiki/global_mmlu_ja_v2}}, url = {https://huggingface.co/datasets/akkikiki/global_mmlu_ja_v2}, type = {dataset}, year = {2024}, month = {Dec}, timestamp = {2024-12-07}, }

搜集汇总
数据集介绍
main_image_url
构建方式
global_mmlu_ja_edited数据集是在原始Global MMLU数据集的基础上,经过精心编辑和调整而构建的。该数据集特别针对日语(ja)进行了优化,增加了多个与文化、地域和知识背景相关的特征字段,如‘culture’、‘region’和‘required_knowledge’等。这些新增的字段旨在更全面地反映多语言环境下的文化敏感性和知识多样性。此外,数据集还包含了标注和编辑状态的元数据,如‘is_annotated’和‘is_edited’,以确保数据的质量和一致性。
特点
该数据集的显著特点在于其对文化敏感性和多语言知识的深入考量。通过引入‘cultural_sensitivity_label’和‘required_knowledge’等字段,数据集能够更好地捕捉不同文化背景下的知识需求和潜在偏见。此外,数据集的编辑状态标记(‘is_edited’)和标注状态(‘is_annotated’)为研究者提供了数据处理过程的透明度,有助于提高数据的可信度和可用性。
使用方法
使用global_mmlu_ja_edited数据集时,研究者可以通过HuggingFace的datasets库进行加载。加载后,用户可以根据需要选择保留或移除特定的列,如‘is_edited’。此外,数据集的结构设计使得研究者能够轻松地将其与原始Global MMLU数据集进行整合,从而进行跨语言和文化背景的比较研究。通过这些操作,研究者可以更有效地探索多语言环境下的知识评估和文化偏见问题。
背景与挑战
背景概述
全球多语言理解基准(Global MMLU)数据集,由Shivalika Singh等人于2024年提出,旨在评估和解决多语言环境中文化与语言偏见的问题。该数据集涵盖了多种语言和文化背景,通过丰富的特征集(如问题、选项、答案、文化敏感性标签等),为跨文化与跨语言的评估提供了坚实的基础。Yoshinari Fujinuma在此基础上进一步编辑了日语版本(global_mmlu_ja_edited),以适应日本文化背景的特殊需求,推动了多语言评估研究的深入发展。
当前挑战
该数据集在构建过程中面临多重挑战。首先,如何在多语言环境中准确捕捉和消除文化与语言偏见是一个核心难题。其次,不同文化背景下的知识体系和认知差异使得数据标注和验证过程复杂化。此外,数据集的编辑和更新需要持续的文化敏感性评估,以确保其在全球范围内的适用性和公平性。这些挑战不仅涉及技术层面的数据处理,还要求研究者具备跨文化的深刻理解和洞察力。
常用场景
经典使用场景
global_mmlu_ja_edited数据集主要用于多语言评估中的文化与语言偏差分析。通过提供多选题形式的问题及其答案,该数据集能够帮助研究者深入探讨不同文化背景下的知识表达与理解差异。特别是在日语语境中,数据集的细致标注使得研究者能够精确分析文化敏感性标签与区域性知识的关系,从而为跨文化教育与语言学习提供有力支持。
衍生相关工作
基于global_mmlu_ja_edited数据集,研究者已开展了一系列相关工作,包括跨文化教育评估模型的构建与优化。这些工作不仅深化了对文化与语言偏差的理解,还提出了多种改进策略,如基于区域性知识的个性化教学方案。此外,数据集的标注方法也为其他多语言评估数据集的开发提供了参考,推动了该领域的标准化与规范化进程。
数据集最近研究
最新研究方向
在多语言评估领域,global_mmlu_ja_edited数据集的最新研究方向聚焦于解决文化与语言偏见问题。该数据集通过引入多维度的文化敏感性标签和区域信息,旨在提升多语言模型在跨文化环境中的表现。研究者们正致力于通过该数据集探索如何在不同文化背景下优化模型的公平性和准确性,这对于全球化的AI应用具有重要意义。此外,该数据集的编辑版本还为研究者提供了更精细的标注,有助于深入分析和解决多语言评估中的潜在偏见,推动了多语言模型在实际应用中的广泛适用性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作