qanastek/MASSIVE
收藏Hugging Face2022-12-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/qanastek/MASSIVE
下载链接
链接失效反馈官方服务:
资源简介:
MASSIVE 是一个包含超过100万条语句的并行数据集,涵盖51种语言,用于自然语言理解任务,如意图预测和槽位标注。这些语句涉及60种意图和55种槽位类型。MASSIVE 是通过本地化 SLURP 数据集创建的,SLURP 数据集由通用智能语音助手的单次交互组成。
提供机构:
qanastek
原始信息汇总
数据集概述
数据集名称
MASSIVE
数据集描述
MASSIVE是一个包含超过100万个例子的多语言自然语言理解数据集,涵盖51种语言。该数据集主要用于自然语言理解任务,包括意图分类和命名实体识别。
语言支持
数据集支持51种语言,包括但不限于:
- Afrikaans - South Africa (af-ZA)
- Amharic - Ethiopia (am-ET)
- Arabic - Saudi Arabia (ar-SA)
- ...
- Vietnamese - Vietnam (vi-VN)
- Chinese - China (zh-CN)
- Chinese - Taiwan (zh-TW)
数据集结构
- 数据实例: 每个实例包含多个字段,如ID、语言环境、分割、场景、意图、话语、注释话语等。
- 数据字段: 包括ID、语言环境、分割、场景、意图、话语、注释话语、工人ID、插槽方法、判断等。
- 数据分割: 数据集被分割为训练、开发和测试集,每种语言的分割比例相同。
数据集创建
- 源数据: 数据集由Amazon Alexa创建和上传。
- 个人和敏感信息: 数据集不包含个人或敏感信息。
许可证信息
数据集遵循Creative Commons Attribution 4.0 International Public License。



