mteb/amazon_massive_scenario
收藏Hugging Face2025-05-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mteb/amazon_massive_scenario
下载链接
链接失效反馈官方服务:
资源简介:
MassiveScenarioClassification是一个包含100万例的多语言自然语言理解数据集,支持51种不同类型的语言,包括非洲语、阿姆哈拉语、阿拉伯语等。数据集由人工标注,并包含多种语言的翻译。任务类别是文本分类,数据集被分割为训练集、测试集和验证集。数据集的许可协议为Apache-2.0。
MassiveScenarioClassification is a multilingual natural language understanding dataset with 1 million examples, supporting 51 different types of languages including Afrikaans, Amharic, Arabic, etc. The dataset is human-annotated and includes translations for multiple languages. The task category is text classification, and the dataset is split into training, test, and validation sets. The dataset is licensed under Apache-2.0 and is part of the MTEB (Massive Text Embedding Benchmark).
提供机构:
mteb
原始信息汇总
数据集概述
数据集配置
-
默认配置
- 训练集:
train/*.json.gz - 测试集:
test/*.json.gz - 验证集:
validation/*.json.gz
- 训练集:
-
其他配置
- 语言: 多种语言,包括但不限于英语(en)、中文简体(zh-CN)、中文繁体(zh-TW)、西班牙语(es)等。
- 数据文件路径: 每个语言配置下,数据文件路径遵循统一的格式,如
train/语言代码.json.gz、test/语言代码.json.gz、validation/语言代码.json.gz。 - 数据集划分: 每个语言配置均包含训练集、测试集和验证集。
数据集特点
- 多语言支持: 数据集涵盖多种语言,支持全球范围内的语言处理和分析。
- 结构化数据: 所有数据文件均为
.json.gz格式,便于解析和处理。 - 标准化配置: 每个语言配置下的数据集划分一致,便于跨语言比较和分析。



