EmbeddingStudio/query-parsing-instructions-saiga
收藏Hugging Face2024-02-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/EmbeddingStudio/query-parsing-instructions-saiga
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Synthetic Search Query Parsing Instruction for Saiga family,是专门为与Saiga-Mistral-7B指令格式对齐而创建的。数据集包含合成的搜索查询解析指令,用于训练和测试零样本查询解析模型。数据集通过GPT-4 Turbo生成,包含72个公司类别的过滤器和查询,最终生成了27.42k条Saiga格式的指令。数据集分为训练集和测试集,测试集包含未见过的领域、过滤器和查询,以测试模型的泛化能力。
提供机构:
EmbeddingStudio
原始信息汇总
数据集概述
基本信息
- 许可证: Apache 2.0
- 语言: 俄语
- 数据集名称: Synthetic Search Query Parsing Instruction for Saiga family
- 大小类别: 10K < n < 100K
- 标签: saiga, mistral, instruct, zero-shot, query parsing, synthetic, search-queries, e-commerce, online-shops, travel-agencies, educational-institutions-ai, job-recruitment-automation, banking-digital-services, investment-ai-analysis, insurance-tech-innovation, financial-advisory-ai, credit-services-automation, payment-processing-tech, mortgage-tech-solutions, real-estate-digital-solutions, taxation-tech-services, risk-management-ai, compliance-automation, digital-banking-innovation, mobile-banking-tech, online-retail-tech, offline-retail-automation, automotive-dealership-tech, restaurant-automation-tech, food-delivery-ai, entertainment-platforms-ai, media-platforms-tech, government-services-automation, travel-tech-innovation, consumer-analytics-ai, logistics-tech-automation, supply-chain-ai, customer-support-tech, market-research-ai, mobile-app-dev-tech, game-dev-ai, cloud-computing-services, data-analytics-ai, business-intelligence-ai, cybersecurity-software-tech, ui-ux-design-ai, iot-development-tech, project-management-tools-ai, version-control-systems-tech, ci-cd-automation, issue-tracking-ai, bug-reporting-automation, collaborative-dev-environments, team-communication-tech, task-time-management-ai, customer-feedback-ai, cloud-based-dev-tech, image-stock-platforms-ai, video-hosting-tech, social-networks-ai, professional-social-networks-ai, dating-apps-tech
数据集结构
- 特征:
text: 字符串类型
- 分割:
train: 41,107,403 字节, 20,479 样本test: 13,985,735 字节, 6,915 样本
- 下载大小: 16,155,342 字节
- 数据集大小: 55,093,138 字节
配置
- 默认配置:
train: data/train-*test: data/test-*
任务类别
- 令牌分类
- 文本生成
生成细节
- 过滤器生成: 使用 GPT-4 Turbo 生成 72 个公司类别的多个可能过滤器及其表示形式。
- 查询生成: 使用 GPT-4 Turbo 生成搜索查询及其解析版本。
- 指令生成: 生成零样本查询解析器的训练指令,确保模式不可知和拼写错误不敏感。
指令格式
- 系统: 查询分析大师
- 指令: 将查询组织成 JSON,遵循模式,验证拼写。
- 类别: {your_company_category}
- 模式: {filters_schema}
- 查询: {query}
- 响应: JSON 可读行格式
训练/测试分割原则
- 测试分割包含 5 个完全与训练分离的类别。
- 从每个训练类别中移除一个过滤器及其相关查询。
- 选择 5% 的其他查询放入测试集。
使用方法
python from datasets import load_dataset
queries_dataset = load_dataset(EmbeddingStudio/query-parsing-instructions-saiga)



