five

EmbeddingStudio/synthetic-search-queries-ru

收藏
Hugging Face2024-02-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/EmbeddingStudio/synthetic-search-queries-ru
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Synthetic Search Queries : Russian,是一个基于GPT-4 Turbo生成的俄语搜索查询数据集。数据集包含了多个业务/服务类别的搜索查询,每个查询都有相关的类别和解析后的值。数据集分为训练集和测试集,训练集包含8494个样本,测试集包含2731个样本。数据集的生成策略包括随机选择过滤器组合,并使用GPT-4 Turbo生成查询及其解析版本。数据集的目的是用于微调LLM以遵循零样本查询解析指令。

该数据集名为Synthetic Search Queries : Russian,是一个基于GPT-4 Turbo生成的俄语搜索查询数据集。数据集包含了多个业务/服务类别的搜索查询,每个查询都有相关的类别和解析后的值。数据集分为训练集和测试集,训练集包含8494个样本,测试集包含2731个样本。数据集的生成策略包括随机选择过滤器组合,并使用GPT-4 Turbo生成查询及其解析版本。数据集的目的是用于微调LLM以遵循零样本查询解析指令。
提供机构:
EmbeddingStudio
原始信息汇总

数据集概述

数据集名称

Synthetic Search Queries : Russian

数据集描述

该数据集包含由GPT-4 Turbo生成的合成搜索查询,基于给定的业务/服务类别过滤器模式,适用于俄语领域。

数据集特征

  • Query: 生成的搜索查询,数据类型为字符串。
  • category: 相关业务/服务类别的名称,数据类型为字符串。
  • Parsed: 可读的JSON解析值列表,数据类型为字符串序列。

数据集分割

  • train: 包含2745353字节,8494个样本。
  • test: 包含941011字节,2731个样本。

数据集大小

  • 下载大小: 1082868字节
  • 数据集大小: 3686364字节

数据集配置

  • config_name: default
  • data_files:
    • train: data/train-*
    • test: data/test-*

任务类别

  • 令牌分类
  • 文本生成

语言

  • 俄语

数据集标签

  • 合成
  • 搜索查询
  • 电子商务
  • 在线商店
  • 旅行社
  • 教育机构AI
  • 招聘自动化
  • 银行数字服务
  • 投资AI分析
  • 保险科技创新
  • 财务顾问AI
  • 信贷服务自动化
  • 支付处理技术
  • 抵押技术解决方案
  • 房地产数字解决方案
  • 税务技术服务
  • 风险管理AI
  • 合规自动化
  • 数字银行创新
  • 移动银行技术
  • 在线零售技术
  • 线下零售自动化
  • 汽车经销商技术
  • 餐厅自动化技术
  • 食品配送AI
  • 娱乐平台AI
  • 媒体平台技术
  • 政府服务自动化
  • 旅游科技创新
  • 消费者分析AI
  • 物流技术自动化
  • 供应链AI
  • 客户支持技术
  • 市场研究AI
  • 移动应用开发技术
  • 游戏开发AI
  • 云计算服务
  • 数据分析AI
  • 商业智能AI
  • 网络安全软件技术
  • UI/UX设计AI
  • 物联网开发技术
  • 项目管理工具AI
  • 版本控制系统技术
  • CI/CD自动化
  • 问题跟踪AI
  • 错误报告自动化
  • 协作开发环境
  • 团队沟通技术
  • 任务时间管理AI
  • 客户反馈AI
  • 云基础开发技术
  • 图像库存平台AI
  • 视频托管技术
  • 社交网络AI
  • 专业社交网络AI
  • 约会应用技术

生成策略

  • 生成了72个公司类别的过滤器列表。
  • 随机选择最多150种可能的过滤器组合(每个组合包含1-3个过滤器)。
  • 使用GPT-4 Turbo生成搜索查询及其解析版本。

训练/测试分割原则

  • 测试集包含5个完全与训练集分离的类别。
  • 从每个训练集中的公司类别中移除一个过滤器及其相关查询。
  • 选择5%的其他查询放入测试集。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作