mteb/amazon_massive_scenario

Name: mteb/amazon_massive_scenario
Creator: mteb
Published: 2025-05-04 16:08:05
License: 暂无描述

Hugging Face2025-05-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mteb/amazon_massive_scenario

下载链接

链接失效反馈

官方服务：

资源简介：

MassiveScenarioClassification是一个包含100万例的多语言自然语言理解数据集，支持51种不同类型的语言，包括非洲语、阿姆哈拉语、阿拉伯语等。数据集由人工标注，并包含多种语言的翻译。任务类别是文本分类，数据集被分割为训练集、测试集和验证集。数据集的许可协议为Apache-2.0。

MassiveScenarioClassification is a multilingual natural language understanding dataset with 1 million examples, supporting 51 different types of languages including Afrikaans, Amharic, Arabic, etc. The dataset is human-annotated and includes translations for multiple languages. The task category is text classification, and the dataset is split into training, test, and validation sets. The dataset is licensed under Apache-2.0 and is part of the MTEB (Massive Text Embedding Benchmark).

提供机构：

mteb

原始信息汇总

数据集概述

数据集配置

默认配置
- 训练集: train/*.json.gz
- 测试集: test/*.json.gz
- 验证集: validation/*.json.gz
其他配置
- 语言: 多种语言，包括但不限于英语（en）、中文简体（zh-CN）、中文繁体（zh-TW）、西班牙语（es）等。
- 数据文件路径: 每个语言配置下，数据文件路径遵循统一的格式，如train/语言代码.json.gz、test/语言代码.json.gz、validation/语言代码.json.gz。
- 数据集划分: 每个语言配置均包含训练集、测试集和验证集。

数据集特点

多语言支持: 数据集涵盖多种语言，支持全球范围内的语言处理和分析。
结构化数据: 所有数据文件均为.json.gz格式，便于解析和处理。
标准化配置: 每个语言配置下的数据集划分一致，便于跨语言比较和分析。

5,000+

优质数据集

54 个

任务类型

进入经典数据集