global_mmlu_ja_edited
收藏数据集概述
数据集信息
-
特征(features):
sample_id:字符串类型subject:字符串类型subject_category:字符串类型question:字符串类型option_a:字符串类型option_b:字符串类型option_c:字符串类型option_d:字符串类型answer:字符串类型required_knowledge:字符串类型time_sensitive:字符串类型reference:字符串类型culture:字符串类型region:字符串类型country:字符串类型cultural_sensitivity_label:字符串类型is_annotated:布尔类型is_edited:布尔类型
-
数据分割(splits):
train:包含285个样本,占用167465字节
-
下载大小:99115字节
-
数据集大小:167465字节
-
配置(configs):
default:数据文件路径为data/train-*
-
许可证:Apache 2.0
-
语言:日语(ja)
-
数据集规模:n<1K
加载数据集
python from datasets import load_dataset
从JSON加载数据集
ds = load_dataset("akkikiki/global_mmlu_ja_edited")
如果从原始Global MMLU迁移,移除额外列
ds = ds.remove_columns("is_edited")
加载HF数据集
global_mmlu_ja = load_dataset("CohereForAI/Global-MMLU", ja) global_mmlu_ja["dev"] = ds["train"]
附加信息
-
作者:Yoshinari Fujinuma
-
许可证信息:该数据集可用于任何目的,遵循Apache 2.0许可证。
-
引用信息:
-
原始Global-MMLU数据集位于https://huggingface.co/datasets/CohereForAI/Global-MMLU
-
引用时请使用以下信息:
@misc {fujinuma2024mmluv2, author = {Fujinuma, Yoshinari}, title = {JA Revised v2 of Global-MMLU}, howpublished = {url{https://huggingface.co/datasets/akkikiki/global_mmlu_ja_v2}}, url = {https://huggingface.co/datasets/akkikiki/global_mmlu_ja_v2}, type = {dataset}, year = {2024}, month = {Dec}, timestamp = {2024-12-07}, }
-




