five

EmbeddingStudio/synthetic-search-filters

收藏
Hugging Face2024-02-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/EmbeddingStudio/synthetic-search-filters
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由GPT-4 Turbo生成,包含各种业务/服务类别的搜索过滤器及其表示形式。数据集的特征包括类别、类别描述、过滤器名称、表示名称、表示类型、表示枚举、表示示例和表示模式。训练集和测试集的划分原则是为了测试模型在未见过的领域、过滤器和查询上的表现。

该数据集由GPT-4 Turbo生成,包含各种业务/服务类别的搜索过滤器及其表示形式。数据集的特征包括类别、类别描述、过滤器名称、表示名称、表示类型、表示枚举、表示示例和表示模式。训练集和测试集的划分原则是为了测试模型在未见过的领域、过滤器和查询上的表现。
提供机构:
EmbeddingStudio
原始信息汇总

合成搜索过滤器数据集

数据集概述

  • 名称: 合成搜索过滤器
  • 许可证: Apache 2.0
  • 语言: 英语
  • 标签: 合成, 搜索查询, 电子商务, 在线商店, 旅行社, 教育机构AI, 招聘自动化, 银行数字服务, 投资AI分析, 保险技术创新, 金融咨询AI, 信贷服务自动化, 支付处理技术, 抵押技术解决方案, 房地产数字解决方案, 税务技术服务, 风险管理AI, 合规自动化, 数字银行创新, 移动银行技术, 在线零售技术, 线下零售自动化, 汽车经销商技术, 餐厅自动化技术, 食品配送AI, 娱乐平台AI, 媒体平台技术, 政府服务自动化, 旅游技术创新, 消费者分析AI, 物流技术自动化, 供应链AI, 客户支持技术, 市场研究AI, 移动应用开发技术, 游戏开发AI, 云计算服务, 数据分析AI, 商业智能AI, 网络安全软件技术, UI/UX设计AI, 物联网开发技术, 项目管理工具AI, 版本控制系统技术, CI/CD自动化, 问题跟踪AI, 错误报告自动化, 协作开发环境, 团队通信技术, 任务时间管理AI, 客户反馈AI, 云端开发技术, 图像库存平台AI, 视频托管技术, 社交网络AI, 专业社交网络AI, 约会应用技术

数据集配置

  • 配置名称: 默认
  • 数据文件:
    • 训练集: data/train_filters-*
    • 测试集: data/test_filters-*

数据集大小

  • 下载大小: 128534 字节
  • 数据集大小: 924982 字节

数据集分割

  • 训练集:
    • 名称: train_filters
    • 字节数: 411999
    • 样本数: 1725
  • 测试集:
    • 名称: test_filters
    • 字节数: 512983
    • 样本数: 2164

数据集特征

  • 类别:
    • 名称: category
    • 数据类型: 字符串
  • 类别描述:
    • 名称: category_description
    • 数据类型: 字符串
  • 过滤器名称:
    • 名称: filter_name
    • 数据类型: 字符串
  • 表示名称:
    • 名称: representation_name
    • 数据类型: 字符串
  • 表示类型:
    • 名称: representation_type
    • 数据类型: 字符串
  • 表示枚举:
    • 名称: representation_enum
    • 数据类型: 字符串序列
  • 表示示例:
    • 名称: representation_examples
    • 数据类型: 字符串序列
  • 表示模式:
    • 名称: representation_pattern
    • 数据类型: 字符串

任务类别

  • 令牌分类
  • 文本生成

数据集描述

该数据集由GPT-4 Turbo生成,包含特定业务/服务类别的搜索过滤器及其表示形式。每个行是一个唯一的过滤器-表示对。

列描述

  • category: 业务/服务类别名称。
  • category_description: 业务/服务的较长描述。
  • filter_name: 过滤器的含义名称。
  • representation_name: 过滤器表示的名称。
  • representation_type: 表示值的Python类型(字符串、整数、浮点数、布尔值)。
  • representation_enum: 如果表示是枚举,这是可能值的列表。
  • representation_examples: 预期表示值的示例。
  • representation_pattern: 如果表示是模式(例如dd/mm/YYYY),这是遵循的模式。

训练/测试分割原则

为了微调LLM以遵循零样本查询解析指令,测试包括:

  • 处理未见领域的能力
  • 处理未见过滤器的能力
  • 处理未见查询的能力

具体做法:

  1. 将5个完全与训练集分离的类别放入测试集:电信公司、法律服务、企业软件开发、人工智能和机器学习、文档和知识共享。
  2. 从每个出现在训练集中的公司类别中,移除一个过滤器及其相关查询。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作