benayas/massive
收藏Hugging Face2024-05-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/benayas/massive
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征,如id、locale、partition、scenario、intent、text、annot_utt、worker_id、slot_method、judgments和category。数据集分为训练集、验证集和测试集,分别包含11514、2033和2974个样本。数据集的总大小为3130879字节,下载大小为1029823字节。数据集的场景和意图类别非常丰富,涵盖了社交、交通、日历、播放、新闻、日期时间、推荐、电子邮件、物联网、通用、音频、列表、问答、烹饪、外卖、音乐、闹钟、天气等多个领域。
该数据集包含多个特征,如id、locale、partition、scenario、intent、text、annot_utt、worker_id、slot_method、judgments和category。数据集分为训练集、验证集和测试集,分别包含11514、2033和2974个样本。数据集的总大小为3130879字节,下载大小为1029823字节。数据集的场景和意图类别非常丰富,涵盖了社交、交通、日历、播放、新闻、日期时间、推荐、电子邮件、物联网、通用、音频、列表、问答、烹饪、外卖、音乐、闹钟、天气等多个领域。
提供机构:
benayas
原始信息汇总
数据集概述
特征信息
- id: 数据类型为字符串。
- locale: 数据类型为字符串。
- partition: 数据类型为字符串。
- scenario: 数据类型为分类标签,包含以下类别:
- 0: social
- 1: transport
- 2: calendar
- 3: play
- 4: news
- 5: datetime
- 6: recommendation
- 7: email
- 8: iot
- 9: general
- 10: audio
- 11: lists
- 12: qa
- 13: cooking
- 14: takeaway
- 15: music
- 16: alarm
- 17: weather
- intent: 数据类型为分类标签,包含以下类别:
- 0: datetime_query
- 1: iot_hue_lightchange
- 2: transport_ticket
- 3: takeaway_query
- 4: qa_stock
- 5: general_greet
- 6: recommendation_events
- 7: music_dislikeness
- 8: iot_wemo_off
- 9: cooking_recipe
- 10: qa_currency
- 11: transport_traffic
- 12: general_quirky
- 13: weather_query
- 14: audio_volume_up
- 15: email_addcontact
- 16: takeaway_order
- 17: email_querycontact
- 18: iot_hue_lightup
- 19: recommendation_locations
- 20: play_audiobook
- 21: lists_createoradd
- 22: news_query
- 23: alarm_query
- 24: iot_wemo_on
- 25: general_joke
- 26: qa_definition
- 27: social_query
- 28: music_settings
- 29: audio_volume_other
- 30: calendar_remove
- 31: iot_hue_lightdim
- 32: calendar_query
- 33: email_sendemail
- 34: iot_cleaning
- 35: audio_volume_down
- 36: play_radio
- 37: cooking_query
- 38: datetime_convert
- 39: qa_maths
- 40: iot_hue_lightoff
- 41: iot_hue_lighton
- 42: transport_query
- 43: music_likeness
- 44: email_query
- 45: play_music
- 46: audio_volume_mute
- 47: social_post
- 48: alarm_set
- 49: qa_factoid
- 50: calendar_set
- 51: play_game
- 52: alarm_remove
- 53: lists_remove
- 54: transport_taxi
- 55: recommendation_movies
- 56: iot_coffee
- 57: music_query
- 58: play_podcasts
- 59: lists_query
- text: 数据类型为字符串。
- annot_utt: 数据类型为字符串。
- worker_id: 数据类型为字符串。
- slot_method: 数据类型为序列,包含以下字段:
- slot: 数据类型为字符串。
- method: 数据类型为字符串。
- judgments: 数据类型为序列,包含以下字段:
- worker_id: 数据类型为字符串。
- intent_score: 数据类型为8位整数。
- slots_score: 数据类型为8位整数。
- grammar_score: 数据类型为8位整数。
- spelling_score: 数据类型为8位整数。
- language_identification: 数据类型为字符串。
- category: 数据类型为字符串。
数据分割
- train: 包含11514个样本,占用2190824字节。
- validation: 包含2033个样本,占用381745字节。
- test: 包含2974个样本,占用558310字节。
数据集大小
- 下载大小: 1029823字节。
- 数据集大小: 3130879字节。
配置信息
- config_name: default
- data_files:
- train: 路径为
data/train-*。 - validation: 路径为
data/validation-*。 - test: 路径为
data/test-*。
- train: 路径为
- data_files:



