five

EmbeddingStudio/synthetic-search-queries

收藏
Hugging Face2024-02-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/EmbeddingStudio/synthetic-search-queries
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Synthetic Search Queries,是通过GPT-4 Turbo生成的合成搜索查询数据集,涵盖了多个业务和服务类别。数据集包含三个主要特征:Query(生成的搜索查询)、category(相关业务/服务类别)和Parsed(可读的解析值列表)。数据集分为训练集和测试集,训练集包含10700个示例,测试集包含3608个示例。数据集的生成策略包括随机选择过滤器组合,并使用GPT-4 Turbo生成搜索查询及其解析版本。数据集的划分原则是为了测试模型在未见过的领域、过滤器和查询上的表现。

该数据集名为Synthetic Search Queries,是通过GPT-4 Turbo生成的合成搜索查询数据集,涵盖了多个业务和服务类别。数据集包含三个主要特征:Query(生成的搜索查询)、category(相关业务/服务类别)和Parsed(可读的解析值列表)。数据集分为训练集和测试集,训练集包含10700个示例,测试集包含3608个示例。数据集的生成策略包括随机选择过滤器组合,并使用GPT-4 Turbo生成搜索查询及其解析版本。数据集的划分原则是为了测试模型在未见过的领域、过滤器和查询上的表现。
提供机构:
EmbeddingStudio
原始信息汇总

合成搜索查询数据集

数据集概述

  • 许可证: Apache 2.0
  • 语言: 英语
  • 标签: 合成, 搜索查询, 电子商务, 在线商店, 旅行社, 教育机构AI, 招聘自动化, 银行数字服务, 投资AI分析, 保险科技创新, 金融咨询AI, 信用服务自动化, 支付处理技术, 抵押技术解决方案, 房地产数字解决方案, 税务技术服务, 风险管理AI, 合规自动化, 数字银行创新, 移动银行技术, 在线零售技术, 线下零售自动化, 汽车经销商技术, 餐厅自动化技术, 食品配送AI, 娱乐平台AI, 媒体平台技术, 政府服务自动化, 旅游科技创新, 消费者分析AI, 物流技术自动化, 供应链AI, 客户支持技术, 市场研究AI, 移动应用开发技术, 游戏开发AI, 云计算服务, 数据分析AI, 商业智能AI, 网络安全软件技术, UI/UX设计AI, 物联网开发技术, 项目管理工具AI, 版本控制系统技术, CI/CD自动化, 问题跟踪AI, 错误报告自动化, 协作开发环境, 团队沟通技术, 任务时间管理AI, 客户反馈AI, 云基础开发技术, 图像股票平台AI, 视频托管技术, 社交网络AI, 专业社交网络AI, 约会应用技术

数据集信息

  • 特征:
    • Query: 字符串类型,生成的搜索查询。
    • category: 字符串类型,相关业务/服务类别名称。
    • Parsed: 字符串序列类型,JSON可读解析值列表。
  • 分割:
    • train_queries: 2,061,432字节,10,700个样本。
    • test_queries: 737,413字节,3,608个样本。
  • 下载大小: 741,810字节
  • 数据集大小: 2,798,845字节

配置

  • 默认配置:
    • train_queries: 数据路径为data/train_queries-*
    • test_queries: 数据路径为data/test_queries-*

任务类别

  • 令牌分类
  • 文本生成

列描述

  • Query: 生成的搜索查询。
  • category: 相关业务/服务类别名称。
  • Parsed: JSON可读解析值列表,包含名称、类型和值。

生成策略

  • 使用GPT-4 Turbo生成合成搜索查询。
  • 为63个客户类别生成可能的过滤器列表。
  • 随机选择最多150种可能的过滤器组合(每个组合包含1-3个过滤器)。
  • 为给定类别和组合生成搜索查询及其解析版本。

训练/测试分割原则

  • 测试模型对未见领域的适应能力。
  • 测试模型对未见过滤器的适应能力。
  • 测试模型对未见查询的适应能力。
  • 将5个完全独立的类别放入测试集。
  • 从每个出现在训练集中的公司类别中移除一个过滤器及其相关查询。
  • 选择5%的其他查询放入测试集。

使用方法

python from datasets import load_dataset

search_queries = load_dataset(EmbeddingStudio/synthetic-search-queries)

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作