five

mteb/amazon_massive_scenario

收藏
Hugging Face2025-05-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mteb/amazon_massive_scenario
下载链接
链接失效反馈
官方服务:
资源简介:
MassiveScenarioClassification是一个包含100万例的多语言自然语言理解数据集,支持51种不同类型的语言,包括非洲语、阿姆哈拉语、阿拉伯语等。数据集由人工标注,并包含多种语言的翻译。任务类别是文本分类,数据集被分割为训练集、测试集和验证集。数据集的许可协议为Apache-2.0。

MassiveScenarioClassification is a multilingual natural language understanding dataset with 1 million examples, supporting 51 different types of languages including Afrikaans, Amharic, Arabic, etc. The dataset is human-annotated and includes translations for multiple languages. The task category is text classification, and the dataset is split into training, test, and validation sets. The dataset is licensed under Apache-2.0 and is part of the MTEB (Massive Text Embedding Benchmark).
提供机构:
mteb
原始信息汇总

数据集概述

数据集配置

  • 默认配置

    • 训练集: train/*.json.gz
    • 测试集: test/*.json.gz
    • 验证集: validation/*.json.gz
  • 其他配置

    • 语言: 多种语言,包括但不限于英语(en)、中文简体(zh-CN)、中文繁体(zh-TW)、西班牙语(es)等。
    • 数据文件路径: 每个语言配置下,数据文件路径遵循统一的格式,如train/语言代码.json.gztest/语言代码.json.gzvalidation/语言代码.json.gz
    • 数据集划分: 每个语言配置均包含训练集、测试集和验证集。

数据集特点

  • 多语言支持: 数据集涵盖多种语言,支持全球范围内的语言处理和分析。
  • 结构化数据: 所有数据文件均为.json.gz格式,便于解析和处理。
  • 标准化配置: 每个语言配置下的数据集划分一致,便于跨语言比较和分析。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作