five

avsolatorio/mteb-amazon_massive_intent-avs_triplets

收藏
Hugging Face2024-02-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/avsolatorio/mteb-amazon_massive_intent-avs_triplets
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于论文GISTEmbed,旨在通过指导性样本内选择训练负样本来微调文本嵌入。数据集包含多个字段,如id、label、label_text、text、idx、query_idx、positive_idx和negative_idx,涵盖了多种意图标签,如日期查询、物联网设备控制、交通票务、外卖查询、股票问答等。数据集分为训练集,包含11514个示例,总大小为1202479字节。

该数据集用于论文GISTEmbed,旨在通过指导性样本内选择训练负样本来微调文本嵌入。数据集包含多个字段,如id、label、label_text、text、idx、query_idx、positive_idx和negative_idx,涵盖了多种意图标签,如日期查询、物联网设备控制、交通票务、外卖查询、股票问答等。数据集分为训练集,包含11514个示例,总大小为1202479字节。
提供机构:
avsolatorio
原始信息汇总

MTEB Amazon Massive Intent Triplets Dataset

数据集信息

特征

  • id: 字符串类型
  • label: 类别标签,包含以下类别名称:
    • 0: datetime_query
    • 1: iot_hue_lightchange
    • 2: transport_ticket
    • 3: takeaway_query
    • 4: qa_stock
    • 5: general_greet
    • 6: recommendation_events
    • 7: music_dislikeness
    • 8: iot_wemo_off
    • 9: cooking_recipe
    • 10: qa_currency
    • 11: transport_traffic
    • 12: general_quirky
    • 13: weather_query
    • 14: audio_volume_up
    • 15: email_addcontact
    • 16: takeaway_order
    • 17: email_querycontact
    • 18: iot_hue_lightup
    • 19: recommendation_locations
    • 20: play_audiobook
    • 21: lists_createoradd
    • 22: news_query
    • 23: alarm_query
    • 24: iot_wemo_on
    • 25: general_joke
    • 26: qa_definition
    • 27: social_query
    • 28: music_settings
    • 29: audio_volume_other
    • 30: calendar_remove
    • 31: iot_hue_lightdim
    • 32: calendar_query
    • 33: email_sendemail
    • 34: iot_cleaning
    • 35: audio_volume_down
    • 36: play_radio
    • 37: cooking_query
    • 38: datetime_convert
    • 39: qa_maths
    • 40: iot_hue_lightoff
    • 41: iot_hue_lighton
    • 42: transport_query
    • 43: music_likeness
    • 44: email_query
    • 45: play_music
    • 46: audio_volume_mute
    • 47: social_post
    • 48: alarm_set
    • 49: qa_factoid
    • 50: calendar_set
    • 51: play_game
    • 52: alarm_remove
    • 53: lists_remove
    • 54: transport_taxi
    • 55: recommendation_movies
    • 56: iot_coffee
    • 57: music_query
    • 58: play_podcasts
    • 59: lists_query
  • label_text: 字符串类型
  • text: 字符串类型
  • idx: 64位整数类型
  • query_idx: 64位整数类型
  • positive_idx: 64位整数类型
  • negative_idx: 64位整数类型

数据分割

  • train: 包含11514个样本,占用1202479字节

数据集大小

  • 下载大小: 658224字节
  • 数据集大小: 1202479字节

配置

  • default: 包含训练数据文件,路径为data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作