EmbeddingStudio/synthetic-search-queries
收藏Hugging Face2024-02-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/EmbeddingStudio/synthetic-search-queries
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Synthetic Search Queries,是通过GPT-4 Turbo生成的合成搜索查询数据集,涵盖了多个业务和服务类别。数据集包含三个主要特征:Query(生成的搜索查询)、category(相关业务/服务类别)和Parsed(可读的解析值列表)。数据集分为训练集和测试集,训练集包含10700个示例,测试集包含3608个示例。数据集的生成策略包括随机选择过滤器组合,并使用GPT-4 Turbo生成搜索查询及其解析版本。数据集的划分原则是为了测试模型在未见过的领域、过滤器和查询上的表现。
该数据集名为Synthetic Search Queries,是通过GPT-4 Turbo生成的合成搜索查询数据集,涵盖了多个业务和服务类别。数据集包含三个主要特征:Query(生成的搜索查询)、category(相关业务/服务类别)和Parsed(可读的解析值列表)。数据集分为训练集和测试集,训练集包含10700个示例,测试集包含3608个示例。数据集的生成策略包括随机选择过滤器组合,并使用GPT-4 Turbo生成搜索查询及其解析版本。数据集的划分原则是为了测试模型在未见过的领域、过滤器和查询上的表现。
提供机构:
EmbeddingStudio
原始信息汇总
合成搜索查询数据集
数据集概述
- 许可证: Apache 2.0
- 语言: 英语
- 标签: 合成, 搜索查询, 电子商务, 在线商店, 旅行社, 教育机构AI, 招聘自动化, 银行数字服务, 投资AI分析, 保险科技创新, 金融咨询AI, 信用服务自动化, 支付处理技术, 抵押技术解决方案, 房地产数字解决方案, 税务技术服务, 风险管理AI, 合规自动化, 数字银行创新, 移动银行技术, 在线零售技术, 线下零售自动化, 汽车经销商技术, 餐厅自动化技术, 食品配送AI, 娱乐平台AI, 媒体平台技术, 政府服务自动化, 旅游科技创新, 消费者分析AI, 物流技术自动化, 供应链AI, 客户支持技术, 市场研究AI, 移动应用开发技术, 游戏开发AI, 云计算服务, 数据分析AI, 商业智能AI, 网络安全软件技术, UI/UX设计AI, 物联网开发技术, 项目管理工具AI, 版本控制系统技术, CI/CD自动化, 问题跟踪AI, 错误报告自动化, 协作开发环境, 团队沟通技术, 任务时间管理AI, 客户反馈AI, 云基础开发技术, 图像股票平台AI, 视频托管技术, 社交网络AI, 专业社交网络AI, 约会应用技术
数据集信息
- 特征:
- Query: 字符串类型,生成的搜索查询。
- category: 字符串类型,相关业务/服务类别名称。
- Parsed: 字符串序列类型,JSON可读解析值列表。
- 分割:
- train_queries: 2,061,432字节,10,700个样本。
- test_queries: 737,413字节,3,608个样本。
- 下载大小: 741,810字节
- 数据集大小: 2,798,845字节
配置
- 默认配置:
- train_queries: 数据路径为
data/train_queries-*。 - test_queries: 数据路径为
data/test_queries-*。
- train_queries: 数据路径为
任务类别
- 令牌分类
- 文本生成
列描述
- Query: 生成的搜索查询。
- category: 相关业务/服务类别名称。
- Parsed: JSON可读解析值列表,包含名称、类型和值。
生成策略
- 使用GPT-4 Turbo生成合成搜索查询。
- 为63个客户类别生成可能的过滤器列表。
- 随机选择最多150种可能的过滤器组合(每个组合包含1-3个过滤器)。
- 为给定类别和组合生成搜索查询及其解析版本。
训练/测试分割原则
- 测试模型对未见领域的适应能力。
- 测试模型对未见过滤器的适应能力。
- 测试模型对未见查询的适应能力。
- 将5个完全独立的类别放入测试集。
- 从每个出现在训练集中的公司类别中移除一个过滤器及其相关查询。
- 选择5%的其他查询放入测试集。
使用方法
python from datasets import load_dataset
search_queries = load_dataset(EmbeddingStudio/synthetic-search-queries)



