five

EmbeddingStudio/synthetic-search-filters-ru-raw

收藏
Hugging Face2024-02-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/EmbeddingStudio/synthetic-search-filters-ru-raw
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个俄语领域的原始搜索过滤器数据集,由GPT-4 Turbo生成,适用于多种业务/服务类别。数据集包含两个主要列:Category(业务/服务的JSON可解析名称和描述)和Filters(JSON可解析的过滤器模式)。数据集分为训练集和测试集,用于测试大语言模型在未见过的领域、过滤器和查询上的表现。

这是一个俄语领域的原始搜索过滤器数据集,由GPT-4 Turbo生成,适用于多种业务/服务类别。数据集包含两个主要列:Category(业务/服务的JSON可解析名称和描述)和Filters(JSON可解析的过滤器模式)。数据集分为训练集和测试集,用于测试大语言模型在未见过的领域、过滤器和查询上的表现。
提供机构:
EmbeddingStudio
原始信息汇总

数据集概述

数据集名称

Synthetic Search Filters Raw: Russian

数据集描述

该数据集是EmbeddingStudio/synthetic-search-filters-ru数据集的原始版本,专门针对俄语领域。该数据集由GPT-4 Turbo生成,包含了特定业务/服务类别的搜索过滤器及其表示。

数据集特征

  • Category (类型: string) - 业务/服务的JSON可解析名称和描述。
  • Filters (类型: string) - JSON可解析的过滤器模式。

过滤器模式

过滤器模式是JSON可读的行,格式如下:

  • Name - 过滤器的名称(最好是具有意义的)。
  • Representations - 可能的过滤器格式列表(字典):
    • Name - 表示的名称(最好是具有意义的)。
    • Type - Python基本类型(int, float, str, bool)。
    • Examples - 示例列表。
    • Enum - 如果表示是枚举,提供可能值的列表,LLM应将解析的值映射到此列表中。
    • Pattern - 如果表示是模式类(如datetime, regexp等),提供任何格式的模式文本。

数据集分割

  • train_filters_raw
    • 字节数: 848000
    • 样本数: 69
  • test_filters_raw
    • 字节数: 1022352
    • 样本数: 74

数据集大小

  • 下载大小: 301762 字节
  • 数据集大小: 1870352 字节

任务类别

  • token-classification
  • text-generation

语言

  • 俄语 (ru)
  • 英语 (en)

数据集标签

  • synthetic
  • search-queries
  • e-commerce
  • online-shops
  • travel-agencies
  • educational-institutions-ai
  • job-recruitment-automation
  • banking-digital-services
  • investment-ai-analysis
  • insurance-tech-innovation
  • financial-advisory-ai
  • credit-services-automation
  • payment-processing-tech
  • mortgage-tech-solutions
  • real-estate-digital-solutions
  • taxation-tech-services
  • risk-management-ai
  • compliance-automation
  • digital-banking-innovation
  • mobile-banking-tech
  • online-retail-tech
  • offline-retail-automation
  • automotive-dealership-tech
  • restaurant-automation-tech
  • food-delivery-ai
  • entertainment-platforms-ai
  • media-platforms-tech
  • government-services-automation
  • travel-tech-innovation
  • consumer-analytics-ai
  • logistics-tech-automation
  • supply-chain-ai
  • customer-support-tech
  • market-research-ai
  • mobile-app-dev-tech
  • game-dev-ai
  • cloud-computing-services
  • data-analytics-ai
  • business-intelligence-ai
  • cybersecurity-software-tech
  • ui-ux-design-ai
  • iot-development-tech
  • project-management-tools-ai
  • version-control-systems-tech
  • ci-cd-automation
  • issue-tracking-ai
  • bug-reporting-automation
  • collaborative-dev-environments
  • team-communication-tech
  • task-time-management-ai
  • customer-feedback-ai
  • cloud-based-dev-tech
  • image-stock-platforms-ai
  • video-hosting-tech
  • social-networks-ai
  • professional-social-networks-ai
  • dating-apps-tech

数据集配置

  • default
    • 数据文件:
      • train_filters_raw - data/train_filters_raw-*
      • test_filters_raw - data/test_filters_raw-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作