EmbeddingStudio/synthetic-search-queries-ru
收藏Hugging Face2024-02-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/EmbeddingStudio/synthetic-search-queries-ru
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Synthetic Search Queries : Russian,是一个基于GPT-4 Turbo生成的俄语搜索查询数据集。数据集包含了多个业务/服务类别的搜索查询,每个查询都有相关的类别和解析后的值。数据集分为训练集和测试集,训练集包含8494个样本,测试集包含2731个样本。数据集的生成策略包括随机选择过滤器组合,并使用GPT-4 Turbo生成查询及其解析版本。数据集的目的是用于微调LLM以遵循零样本查询解析指令。
该数据集名为Synthetic Search Queries : Russian,是一个基于GPT-4 Turbo生成的俄语搜索查询数据集。数据集包含了多个业务/服务类别的搜索查询,每个查询都有相关的类别和解析后的值。数据集分为训练集和测试集,训练集包含8494个样本,测试集包含2731个样本。数据集的生成策略包括随机选择过滤器组合,并使用GPT-4 Turbo生成查询及其解析版本。数据集的目的是用于微调LLM以遵循零样本查询解析指令。
提供机构:
EmbeddingStudio
原始信息汇总
数据集概述
数据集名称
Synthetic Search Queries : Russian
数据集描述
该数据集包含由GPT-4 Turbo生成的合成搜索查询,基于给定的业务/服务类别过滤器模式,适用于俄语领域。
数据集特征
- Query: 生成的搜索查询,数据类型为字符串。
- category: 相关业务/服务类别的名称,数据类型为字符串。
- Parsed: 可读的JSON解析值列表,数据类型为字符串序列。
数据集分割
- train: 包含2745353字节,8494个样本。
- test: 包含941011字节,2731个样本。
数据集大小
- 下载大小: 1082868字节
- 数据集大小: 3686364字节
数据集配置
- config_name: default
- data_files:
- train: data/train-*
- test: data/test-*
任务类别
- 令牌分类
- 文本生成
语言
- 俄语
数据集标签
- 合成
- 搜索查询
- 电子商务
- 在线商店
- 旅行社
- 教育机构AI
- 招聘自动化
- 银行数字服务
- 投资AI分析
- 保险科技创新
- 财务顾问AI
- 信贷服务自动化
- 支付处理技术
- 抵押技术解决方案
- 房地产数字解决方案
- 税务技术服务
- 风险管理AI
- 合规自动化
- 数字银行创新
- 移动银行技术
- 在线零售技术
- 线下零售自动化
- 汽车经销商技术
- 餐厅自动化技术
- 食品配送AI
- 娱乐平台AI
- 媒体平台技术
- 政府服务自动化
- 旅游科技创新
- 消费者分析AI
- 物流技术自动化
- 供应链AI
- 客户支持技术
- 市场研究AI
- 移动应用开发技术
- 游戏开发AI
- 云计算服务
- 数据分析AI
- 商业智能AI
- 网络安全软件技术
- UI/UX设计AI
- 物联网开发技术
- 项目管理工具AI
- 版本控制系统技术
- CI/CD自动化
- 问题跟踪AI
- 错误报告自动化
- 协作开发环境
- 团队沟通技术
- 任务时间管理AI
- 客户反馈AI
- 云基础开发技术
- 图像库存平台AI
- 视频托管技术
- 社交网络AI
- 专业社交网络AI
- 约会应用技术
生成策略
- 生成了72个公司类别的过滤器列表。
- 随机选择最多150种可能的过滤器组合(每个组合包含1-3个过滤器)。
- 使用GPT-4 Turbo生成搜索查询及其解析版本。
训练/测试分割原则
- 测试集包含5个完全与训练集分离的类别。
- 从每个训练集中的公司类别中移除一个过滤器及其相关查询。
- 选择5%的其他查询放入测试集。



