EmbeddingStudio/query-parsing-instructions-saiga

Name: EmbeddingStudio/query-parsing-instructions-saiga
Creator: EmbeddingStudio
Published: 2024-02-02 11:56:51
License: 暂无描述

Hugging Face2024-02-02 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/EmbeddingStudio/query-parsing-instructions-saiga

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Synthetic Search Query Parsing Instruction for Saiga family，是专门为与Saiga-Mistral-7B指令格式对齐而创建的。数据集包含合成的搜索查询解析指令，用于训练和测试零样本查询解析模型。数据集通过GPT-4 Turbo生成，包含72个公司类别的过滤器和查询，最终生成了27.42k条Saiga格式的指令。数据集分为训练集和测试集，测试集包含未见过的领域、过滤器和查询，以测试模型的泛化能力。

提供机构：

EmbeddingStudio

原始信息汇总

数据集概述

基本信息

许可证: Apache 2.0
语言: 俄语
数据集名称: Synthetic Search Query Parsing Instruction for Saiga family
大小类别: 10K < n < 100K
标签: saiga, mistral, instruct, zero-shot, query parsing, synthetic, search-queries, e-commerce, online-shops, travel-agencies, educational-institutions-ai, job-recruitment-automation, banking-digital-services, investment-ai-analysis, insurance-tech-innovation, financial-advisory-ai, credit-services-automation, payment-processing-tech, mortgage-tech-solutions, real-estate-digital-solutions, taxation-tech-services, risk-management-ai, compliance-automation, digital-banking-innovation, mobile-banking-tech, online-retail-tech, offline-retail-automation, automotive-dealership-tech, restaurant-automation-tech, food-delivery-ai, entertainment-platforms-ai, media-platforms-tech, government-services-automation, travel-tech-innovation, consumer-analytics-ai, logistics-tech-automation, supply-chain-ai, customer-support-tech, market-research-ai, mobile-app-dev-tech, game-dev-ai, cloud-computing-services, data-analytics-ai, business-intelligence-ai, cybersecurity-software-tech, ui-ux-design-ai, iot-development-tech, project-management-tools-ai, version-control-systems-tech, ci-cd-automation, issue-tracking-ai, bug-reporting-automation, collaborative-dev-environments, team-communication-tech, task-time-management-ai, customer-feedback-ai, cloud-based-dev-tech, image-stock-platforms-ai, video-hosting-tech, social-networks-ai, professional-social-networks-ai, dating-apps-tech

数据集结构

特征:
- text: 字符串类型
分割:
- train: 41,107,403 字节, 20,479 样本
- test: 13,985,735 字节, 6,915 样本
下载大小: 16,155,342 字节
数据集大小: 55,093,138 字节

配置

默认配置:
- train: data/train-*
- test: data/test-*

任务类别

令牌分类
文本生成

生成细节

过滤器生成: 使用 GPT-4 Turbo 生成 72 个公司类别的多个可能过滤器及其表示形式。
查询生成: 使用 GPT-4 Turbo 生成搜索查询及其解析版本。
指令生成: 生成零样本查询解析器的训练指令，确保模式不可知和拼写错误不敏感。

指令格式

系统: 查询分析大师
指令: 将查询组织成 JSON，遵循模式，验证拼写。
类别: {your_company_category}
模式: {filters_schema}
查询: {query}
响应: JSON 可读行格式

训练/测试分割原则

测试分割包含 5 个完全与训练分离的类别。
从每个训练类别中移除一个过滤器及其相关查询。
选择 5% 的其他查询放入测试集。

使用方法

python from datasets import load_dataset

queries_dataset = load_dataset(EmbeddingStudio/query-parsing-instructions-saiga)

5,000+

优质数据集

54 个

任务类型

进入经典数据集