five

EmbeddingStudio/query-parsing-instructions-saiga

收藏
Hugging Face2024-02-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/EmbeddingStudio/query-parsing-instructions-saiga
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Synthetic Search Query Parsing Instruction for Saiga family,是专门为与Saiga-Mistral-7B指令格式对齐而创建的。数据集包含合成的搜索查询解析指令,用于训练和测试零样本查询解析模型。数据集通过GPT-4 Turbo生成,包含72个公司类别的过滤器和查询,最终生成了27.42k条Saiga格式的指令。数据集分为训练集和测试集,测试集包含未见过的领域、过滤器和查询,以测试模型的泛化能力。
提供机构:
EmbeddingStudio
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache 2.0
  • 语言: 俄语
  • 数据集名称: Synthetic Search Query Parsing Instruction for Saiga family
  • 大小类别: 10K < n < 100K
  • 标签: saiga, mistral, instruct, zero-shot, query parsing, synthetic, search-queries, e-commerce, online-shops, travel-agencies, educational-institutions-ai, job-recruitment-automation, banking-digital-services, investment-ai-analysis, insurance-tech-innovation, financial-advisory-ai, credit-services-automation, payment-processing-tech, mortgage-tech-solutions, real-estate-digital-solutions, taxation-tech-services, risk-management-ai, compliance-automation, digital-banking-innovation, mobile-banking-tech, online-retail-tech, offline-retail-automation, automotive-dealership-tech, restaurant-automation-tech, food-delivery-ai, entertainment-platforms-ai, media-platforms-tech, government-services-automation, travel-tech-innovation, consumer-analytics-ai, logistics-tech-automation, supply-chain-ai, customer-support-tech, market-research-ai, mobile-app-dev-tech, game-dev-ai, cloud-computing-services, data-analytics-ai, business-intelligence-ai, cybersecurity-software-tech, ui-ux-design-ai, iot-development-tech, project-management-tools-ai, version-control-systems-tech, ci-cd-automation, issue-tracking-ai, bug-reporting-automation, collaborative-dev-environments, team-communication-tech, task-time-management-ai, customer-feedback-ai, cloud-based-dev-tech, image-stock-platforms-ai, video-hosting-tech, social-networks-ai, professional-social-networks-ai, dating-apps-tech

数据集结构

  • 特征:
    • text: 字符串类型
  • 分割:
    • train: 41,107,403 字节, 20,479 样本
    • test: 13,985,735 字节, 6,915 样本
  • 下载大小: 16,155,342 字节
  • 数据集大小: 55,093,138 字节

配置

  • 默认配置:
    • train: data/train-*
    • test: data/test-*

任务类别

  • 令牌分类
  • 文本生成

生成细节

  • 过滤器生成: 使用 GPT-4 Turbo 生成 72 个公司类别的多个可能过滤器及其表示形式。
  • 查询生成: 使用 GPT-4 Turbo 生成搜索查询及其解析版本。
  • 指令生成: 生成零样本查询解析器的训练指令,确保模式不可知和拼写错误不敏感。

指令格式

  • 系统: 查询分析大师
  • 指令: 将查询组织成 JSON,遵循模式,验证拼写。
  • 类别: {your_company_category}
  • 模式: {filters_schema}
  • 查询: {query}
  • 响应: JSON 可读行格式

训练/测试分割原则

  • 测试分割包含 5 个完全与训练分离的类别。
  • 从每个训练类别中移除一个过滤器及其相关查询。
  • 选择 5% 的其他查询放入测试集。

使用方法

python from datasets import load_dataset

queries_dataset = load_dataset(EmbeddingStudio/query-parsing-instructions-saiga)

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作