EmbeddingStudio/synthetic-search-filters
收藏Hugging Face2024-02-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/EmbeddingStudio/synthetic-search-filters
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由GPT-4 Turbo生成,包含各种业务/服务类别的搜索过滤器及其表示形式。数据集的特征包括类别、类别描述、过滤器名称、表示名称、表示类型、表示枚举、表示示例和表示模式。训练集和测试集的划分原则是为了测试模型在未见过的领域、过滤器和查询上的表现。
该数据集由GPT-4 Turbo生成,包含各种业务/服务类别的搜索过滤器及其表示形式。数据集的特征包括类别、类别描述、过滤器名称、表示名称、表示类型、表示枚举、表示示例和表示模式。训练集和测试集的划分原则是为了测试模型在未见过的领域、过滤器和查询上的表现。
提供机构:
EmbeddingStudio
原始信息汇总
合成搜索过滤器数据集
数据集概述
- 名称: 合成搜索过滤器
- 许可证: Apache 2.0
- 语言: 英语
- 标签: 合成, 搜索查询, 电子商务, 在线商店, 旅行社, 教育机构AI, 招聘自动化, 银行数字服务, 投资AI分析, 保险技术创新, 金融咨询AI, 信贷服务自动化, 支付处理技术, 抵押技术解决方案, 房地产数字解决方案, 税务技术服务, 风险管理AI, 合规自动化, 数字银行创新, 移动银行技术, 在线零售技术, 线下零售自动化, 汽车经销商技术, 餐厅自动化技术, 食品配送AI, 娱乐平台AI, 媒体平台技术, 政府服务自动化, 旅游技术创新, 消费者分析AI, 物流技术自动化, 供应链AI, 客户支持技术, 市场研究AI, 移动应用开发技术, 游戏开发AI, 云计算服务, 数据分析AI, 商业智能AI, 网络安全软件技术, UI/UX设计AI, 物联网开发技术, 项目管理工具AI, 版本控制系统技术, CI/CD自动化, 问题跟踪AI, 错误报告自动化, 协作开发环境, 团队通信技术, 任务时间管理AI, 客户反馈AI, 云端开发技术, 图像库存平台AI, 视频托管技术, 社交网络AI, 专业社交网络AI, 约会应用技术
数据集配置
- 配置名称: 默认
- 数据文件:
- 训练集:
data/train_filters-* - 测试集:
data/test_filters-*
- 训练集:
数据集大小
- 下载大小: 128534 字节
- 数据集大小: 924982 字节
数据集分割
- 训练集:
- 名称: train_filters
- 字节数: 411999
- 样本数: 1725
- 测试集:
- 名称: test_filters
- 字节数: 512983
- 样本数: 2164
数据集特征
- 类别:
- 名称: category
- 数据类型: 字符串
- 类别描述:
- 名称: category_description
- 数据类型: 字符串
- 过滤器名称:
- 名称: filter_name
- 数据类型: 字符串
- 表示名称:
- 名称: representation_name
- 数据类型: 字符串
- 表示类型:
- 名称: representation_type
- 数据类型: 字符串
- 表示枚举:
- 名称: representation_enum
- 数据类型: 字符串序列
- 表示示例:
- 名称: representation_examples
- 数据类型: 字符串序列
- 表示模式:
- 名称: representation_pattern
- 数据类型: 字符串
任务类别
- 令牌分类
- 文本生成
数据集描述
该数据集由GPT-4 Turbo生成,包含特定业务/服务类别的搜索过滤器及其表示形式。每个行是一个唯一的过滤器-表示对。
列描述
- category: 业务/服务类别名称。
- category_description: 业务/服务的较长描述。
- filter_name: 过滤器的含义名称。
- representation_name: 过滤器表示的名称。
- representation_type: 表示值的Python类型(字符串、整数、浮点数、布尔值)。
- representation_enum: 如果表示是枚举,这是可能值的列表。
- representation_examples: 预期表示值的示例。
- representation_pattern: 如果表示是模式(例如
dd/mm/YYYY),这是遵循的模式。
训练/测试分割原则
为了微调LLM以遵循零样本查询解析指令,测试包括:
- 处理未见领域的能力
- 处理未见过滤器的能力
- 处理未见查询的能力
具体做法:
- 将5个完全与训练集分离的类别放入测试集:电信公司、法律服务、企业软件开发、人工智能和机器学习、文档和知识共享。
- 从每个出现在训练集中的公司类别中,移除一个过滤器及其相关查询。



