benayas/massive_llm_v4
收藏Hugging Face2023-11-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/benayas/massive_llm_v4
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个特征字段,如id、locale、partition、scenario、intent、utt、annot_utt、worker_id、slot_method、judgments、category和text。其中scenario和intent字段是分类标签,分别有18和60个类别。数据集分为train、validation和test三个部分,分别包含11514、2033和2974个样本。
提供机构:
benayas
原始信息汇总
数据集概述
数据集特征
- id: 字符串类型
- locale: 字符串类型
- partition: 字符串类型
- scenario: 分类标签类型,包含以下类别:
- social
- transport
- calendar
- play
- news
- datetime
- recommendation
- iot
- general
- audio
- lists
- qa
- cooking
- takeaway
- music
- alarm
- weather
- intent: 分类标签类型,包含以下意图:
- datetime_query
- iot_hue_lightchange
- transport_ticket
- takeaway_query
- qa_stock
- general_greet
- recommendation_events
- music_dislikeness
- iot_wemo_off
- cooking_recipe
- qa_currency
- transport_traffic
- general_quirky
- weather_query
- audio_volume_up
- email_addcontact
- takeaway_order
- email_querycontact
- iot_hue_lightup
- recommendation_locations
- play_audiobook
- lists_createoradd
- news_query
- alarm_query
- iot_wemo_on
- general_joke
- qa_definition
- social_query
- music_settings
- audio_volume_other
- calendar_remove
- iot_hue_lightdim
- calendar_query
- email_sendemail
- iot_cleaning
- audio_volume_down
- play_radio
- cooking_query
- datetime_convert
- qa_maths
- iot_hue_lightoff
- iot_hue_lighton
- transport_query
- music_likeness
- email_query
- play_music
- audio_volume_mute
- social_post
- alarm_set
- qa_factoid
- calendar_set
- play_game
- alarm_remove
- lists_remove
- transport_taxi
- recommendation_movies
- iot_coffee
- music_query
- play_podcasts
- lists_query
- utt: 字符串类型
- annot_utt: 字符串类型
- worker_id: 字符串类型
- slot_method: 序列类型,包含以下子特征:
- slot: 字符串类型
- method: 字符串类型
- judgments: 序列类型,包含以下子特征:
- worker_id: 字符串类型
- intent_score: 8位整数类型
- slots_score: 8位整数类型
- grammar_score: 8位整数类型
- spelling_score: 8位整数类型
- language_identification: 字符串类型
- category: 字符串类型
- text: 字符串类型
数据集分割
- train: 包含11514个样本,占用17839343字节
- validation: 包含2033个样本,占用3144099字节
- test: 包含2974个样本,占用4598528字节
数据集大小
- 下载大小: 2975271字节
- 数据集大小: 25581970字节
配置
- default: 包含以下数据文件路径:
- train: data/train-*
- validation: data/validation-*
- test: data/test-*



