nlp-waseda/JMMLU|语言模型评估数据集|日语理解数据集

hugging_face2024-02-27 更新2024-03-04 收录

语言模型评估

日语理解

下载链接：

https://hf-mirror.com/datasets/nlp-waseda/JMMLU

下载链接

链接失效反馈

资源简介：

JMMLU（Japanese Massive Multitask Language Understanding Benchmark）是一个用于评估大型语言模型在日语环境下表现的多选题数据集。它包含从MMLU（Massive Multitask Language Understanding）翻译的日语问题以及基于日本文化背景的原创问题。数据集由7536个问题组成，涵盖56个不同的学科领域，如专业医学、哲学、日本历史、日本地理等。翻译问题经过机器翻译和人工校对，确保其流畅性和文化适应性；原创问题则由日本教师手动创建。数据集的格式与MMLU相同，每个问题包含四个选项和一个正确答案。JMMLU的版权归属于多个机构，商业使用仅限于语言模型的研究和评估。

提供机构：

nlp-waseda

原始信息汇总

数据集概述

数据集名称

JMMLU：Japanese Massive Multitask Language Understanding Benchmark

数据集内容

问题类型：四选一选择题
问题来源：
- 翻译自MMLU的部分问题
- 基于日本独特文化背景的问题
问题处理：
- 机器翻译后由翻译者检查和修改，确保流畅性和文化相关性
- 由日本教师手动创建的学校科目相关问题

数据集结构

格式：每题包含问题、四个选项及答案

数据集规模

问题数量：7,536题
任务数量：56个任务（科目）

版权与许可

许可：CC BY-NC-ND 4.0
版权说明：
- 日本历史和世界历史的版权属于STEP Corporation，商业用途限于语言模型的研究和评估。
- 日本成语、日本公民和日本地理的版权属于New Style Cram School VIST，商业用途限于语言模型的研究和评估。

致谢

感谢RIKEN在MMLU翻译中的支持。
感谢STEP Corporation提供日本历史和世界历史的材料。
感谢New Style Cram School VIST提供日本成语、日本公民和日本地理的资源。

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展，让高质量机器人数据触手可及，作为上海模塑申城语料普惠计划中的一份子，智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思，重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目，旨在构建国际领先的开源技术底座，标志着具身智能领域「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集，AgiBot World 的长程数据规模高出 10 倍，场景范围覆盖面扩大 100 倍，数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能，从抓取、放置、推、拉等基础操作，到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互，几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性，12位男性)，以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情，歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常，强烈) 下产生的，另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位，48kHz .wav)，音频-视频 (720p H.264，AAC 48kHz，.mp4) 和仅视频 (无声音)。注意，Actor_18没有歌曲文件。

OpenDataLab 收录

TT100K - Tsinghua-Tencent 100K

TT100K数据集是一个用于交通标志检测和识别的大规模数据集，包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。

cg.cs.tsinghua.edu.cn 收录