five

qanastek/MASSIVE

收藏
Hugging Face2022-12-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/qanastek/MASSIVE
下载链接
链接失效反馈
官方服务:
资源简介:
MASSIVE 是一个包含超过100万条语句的并行数据集,涵盖51种语言,用于自然语言理解任务,如意图预测和槽位标注。这些语句涉及60种意图和55种槽位类型。MASSIVE 是通过本地化 SLURP 数据集创建的,SLURP 数据集由通用智能语音助手的单次交互组成。
提供机构:
qanastek
原始信息汇总

数据集概述

数据集名称

MASSIVE

数据集描述

MASSIVE是一个包含超过100万个例子的多语言自然语言理解数据集,涵盖51种语言。该数据集主要用于自然语言理解任务,包括意图分类和命名实体识别。

语言支持

数据集支持51种语言,包括但不限于:

  • Afrikaans - South Africa (af-ZA)
  • Amharic - Ethiopia (am-ET)
  • Arabic - Saudi Arabia (ar-SA)
  • ...
  • Vietnamese - Vietnam (vi-VN)
  • Chinese - China (zh-CN)
  • Chinese - Taiwan (zh-TW)

数据集结构

  • 数据实例: 每个实例包含多个字段,如ID、语言环境、分割、场景、意图、话语、注释话语等。
  • 数据字段: 包括ID、语言环境、分割、场景、意图、话语、注释话语、工人ID、插槽方法、判断等。
  • 数据分割: 数据集被分割为训练、开发和测试集,每种语言的分割比例相同。

数据集创建

  • 源数据: 数据集由Amazon Alexa创建和上传。
  • 个人和敏感信息: 数据集不包含个人或敏感信息。

许可证信息

数据集遵循Creative Commons Attribution 4.0 International Public License。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作