avsolatorio/mteb-amazon_massive_intent-avs_triplets
收藏Hugging Face2024-02-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/avsolatorio/mteb-amazon_massive_intent-avs_triplets
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于论文GISTEmbed,旨在通过指导性样本内选择训练负样本来微调文本嵌入。数据集包含多个字段,如id、label、label_text、text、idx、query_idx、positive_idx和negative_idx,涵盖了多种意图标签,如日期查询、物联网设备控制、交通票务、外卖查询、股票问答等。数据集分为训练集,包含11514个示例,总大小为1202479字节。
该数据集用于论文GISTEmbed,旨在通过指导性样本内选择训练负样本来微调文本嵌入。数据集包含多个字段,如id、label、label_text、text、idx、query_idx、positive_idx和negative_idx,涵盖了多种意图标签,如日期查询、物联网设备控制、交通票务、外卖查询、股票问答等。数据集分为训练集,包含11514个示例,总大小为1202479字节。
提供机构:
avsolatorio
原始信息汇总
MTEB Amazon Massive Intent Triplets Dataset
数据集信息
特征
- id: 字符串类型
- label: 类别标签,包含以下类别名称:
- 0: datetime_query
- 1: iot_hue_lightchange
- 2: transport_ticket
- 3: takeaway_query
- 4: qa_stock
- 5: general_greet
- 6: recommendation_events
- 7: music_dislikeness
- 8: iot_wemo_off
- 9: cooking_recipe
- 10: qa_currency
- 11: transport_traffic
- 12: general_quirky
- 13: weather_query
- 14: audio_volume_up
- 15: email_addcontact
- 16: takeaway_order
- 17: email_querycontact
- 18: iot_hue_lightup
- 19: recommendation_locations
- 20: play_audiobook
- 21: lists_createoradd
- 22: news_query
- 23: alarm_query
- 24: iot_wemo_on
- 25: general_joke
- 26: qa_definition
- 27: social_query
- 28: music_settings
- 29: audio_volume_other
- 30: calendar_remove
- 31: iot_hue_lightdim
- 32: calendar_query
- 33: email_sendemail
- 34: iot_cleaning
- 35: audio_volume_down
- 36: play_radio
- 37: cooking_query
- 38: datetime_convert
- 39: qa_maths
- 40: iot_hue_lightoff
- 41: iot_hue_lighton
- 42: transport_query
- 43: music_likeness
- 44: email_query
- 45: play_music
- 46: audio_volume_mute
- 47: social_post
- 48: alarm_set
- 49: qa_factoid
- 50: calendar_set
- 51: play_game
- 52: alarm_remove
- 53: lists_remove
- 54: transport_taxi
- 55: recommendation_movies
- 56: iot_coffee
- 57: music_query
- 58: play_podcasts
- 59: lists_query
- label_text: 字符串类型
- text: 字符串类型
- idx: 64位整数类型
- query_idx: 64位整数类型
- positive_idx: 64位整数类型
- negative_idx: 64位整数类型
数据分割
- train: 包含11514个样本,占用1202479字节
数据集大小
- 下载大小: 658224字节
- 数据集大小: 1202479字节
配置
- default: 包含训练数据文件,路径为
data/train-*



