five

EmbeddingStudio/synthetic-search-filters-ru

收藏
Hugging Face2024-02-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/EmbeddingStudio/synthetic-search-filters-ru
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Synthetic Search Filters,主要用于俄语领域的搜索过滤器和其表示形式,涵盖了多个业务和服务类别。数据集包含训练和测试分割,旨在测试模型在未见过的领域、过滤器和查询上的表现。数据集的特征包括类别、类别描述、过滤器名称、表示名称、表示类型、表示枚举、表示示例和表示模式。该数据集由Embedding Studio团队使用,用于生成查询及其解析版本,以微调模型遵循零样本搜索查询解析指令。

该数据集名为Synthetic Search Filters,主要用于俄语领域的搜索过滤器和其表示形式,涵盖了多个业务和服务类别。数据集包含训练和测试分割,旨在测试模型在未见过的领域、过滤器和查询上的表现。数据集的特征包括类别、类别描述、过滤器名称、表示名称、表示类型、表示枚举、表示示例和表示模式。该数据集由Embedding Studio团队使用,用于生成查询及其解析版本,以微调模型遵循零样本搜索查询解析指令。
提供机构:
EmbeddingStudio
原始信息汇总

数据集概述

数据集信息

特征

  • category: 业务/服务类别名称,数据类型为字符串。
  • category_description: 业务/服务的长描述,数据类型为字符串。
  • filter_name: 过滤器的含义名称,数据类型为字符串。
  • representation_name: 过滤器表示的名称,数据类型为字符串。
  • representation_type: 表示值的Python类型(如str, int, float, bool),数据类型为字符串。
  • representation_enum: 如果表示是枚举类型,这是可能值的列表,数据类型为字符串序列。
  • representation_examples: 预期表示值的示例,数据类型为字符串或数值序列。
  • representation_pattern: 如果表示是模式类型(如dd/mm/YYYY),这是遵循的模式,数据类型为字符串。

数据分割

  • train_filters: 训练集,包含859114字节和2749个样本。
  • test_filters: 测试集,包含1039548字节和3317个样本。

数据集大小

  • 下载大小: 314660字节
  • 数据集大小: 1898662字节

配置

  • default: 包含训练集和测试集的数据文件路径。

任务类别

  • token-classification
  • text-generation

语言

  • 俄语 (ru)
  • 英语 (en)

数据集名称

  • Synthetic Search Filters : Russian

数据集大小类别

  • 1K<n<10K

标签

  • synthetic
  • search-queries
  • e-commerce
  • online-shops
  • travel-agencies
  • educational-institutions-ai
  • job-recruitment-automation
  • banking-digital-services
  • investment-ai-analysis
  • insurance-tech-innovation
  • financial-advisory-ai
  • credit-services-automation
  • payment-processing-tech
  • mortgage-tech-solutions
  • real-estate-digital-solutions
  • taxation-tech-services
  • risk-management-ai
  • compliance-automation
  • digital-banking-innovation
  • mobile-banking-tech
  • online-retail-tech
  • offline-retail-automation
  • automotive-dealership-tech
  • restaurant-automation-tech
  • food-delivery-ai
  • entertainment-platforms-ai
  • media-platforms-tech
  • government-services-automation
  • travel-tech-innovation
  • consumer-analytics-ai
  • logistics-tech-automation
  • supply-chain-ai
  • customer-support-tech
  • market-research-ai
  • mobile-app-dev-tech
  • game-dev-ai
  • cloud-computing-services
  • data-analytics-ai
  • business-intelligence-ai
  • cybersecurity-software-tech
  • ui-ux-design-ai
  • iot-development-tech
  • project-management-tools-ai
  • version-control-systems-tech
  • ci-cd-automation
  • issue-tracking-ai
  • bug-reporting-automation
  • collaborative-dev-environments
  • team-communication-tech
  • task-time-management-ai
  • customer-feedback-ai
  • cloud-based-dev-tech
  • image-stock-platforms-ai
  • video-hosting-tech
  • social-networks-ai
  • professional-social-networks-ai
  • dating-apps-tech
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作