EmbeddingStudio/synthetic-search-filters-ru-raw
收藏Hugging Face2024-02-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/EmbeddingStudio/synthetic-search-filters-ru-raw
下载链接
链接失效反馈官方服务:
资源简介:
这是一个俄语领域的原始搜索过滤器数据集,由GPT-4 Turbo生成,适用于多种业务/服务类别。数据集包含两个主要列:Category(业务/服务的JSON可解析名称和描述)和Filters(JSON可解析的过滤器模式)。数据集分为训练集和测试集,用于测试大语言模型在未见过的领域、过滤器和查询上的表现。
这是一个俄语领域的原始搜索过滤器数据集,由GPT-4 Turbo生成,适用于多种业务/服务类别。数据集包含两个主要列:Category(业务/服务的JSON可解析名称和描述)和Filters(JSON可解析的过滤器模式)。数据集分为训练集和测试集,用于测试大语言模型在未见过的领域、过滤器和查询上的表现。
提供机构:
EmbeddingStudio
原始信息汇总
数据集概述
数据集名称
Synthetic Search Filters Raw: Russian
数据集描述
该数据集是EmbeddingStudio/synthetic-search-filters-ru数据集的原始版本,专门针对俄语领域。该数据集由GPT-4 Turbo生成,包含了特定业务/服务类别的搜索过滤器及其表示。
数据集特征
- Category (类型: string) - 业务/服务的JSON可解析名称和描述。
- Filters (类型: string) - JSON可解析的过滤器模式。
过滤器模式
过滤器模式是JSON可读的行,格式如下:
- Name - 过滤器的名称(最好是具有意义的)。
- Representations - 可能的过滤器格式列表(字典):
- Name - 表示的名称(最好是具有意义的)。
- Type - Python基本类型(int, float, str, bool)。
- Examples - 示例列表。
- Enum - 如果表示是枚举,提供可能值的列表,LLM应将解析的值映射到此列表中。
- Pattern - 如果表示是模式类(如datetime, regexp等),提供任何格式的模式文本。
数据集分割
- train_filters_raw
- 字节数: 848000
- 样本数: 69
- test_filters_raw
- 字节数: 1022352
- 样本数: 74
数据集大小
- 下载大小: 301762 字节
- 数据集大小: 1870352 字节
任务类别
- token-classification
- text-generation
语言
- 俄语 (ru)
- 英语 (en)
数据集标签
- synthetic
- search-queries
- e-commerce
- online-shops
- travel-agencies
- educational-institutions-ai
- job-recruitment-automation
- banking-digital-services
- investment-ai-analysis
- insurance-tech-innovation
- financial-advisory-ai
- credit-services-automation
- payment-processing-tech
- mortgage-tech-solutions
- real-estate-digital-solutions
- taxation-tech-services
- risk-management-ai
- compliance-automation
- digital-banking-innovation
- mobile-banking-tech
- online-retail-tech
- offline-retail-automation
- automotive-dealership-tech
- restaurant-automation-tech
- food-delivery-ai
- entertainment-platforms-ai
- media-platforms-tech
- government-services-automation
- travel-tech-innovation
- consumer-analytics-ai
- logistics-tech-automation
- supply-chain-ai
- customer-support-tech
- market-research-ai
- mobile-app-dev-tech
- game-dev-ai
- cloud-computing-services
- data-analytics-ai
- business-intelligence-ai
- cybersecurity-software-tech
- ui-ux-design-ai
- iot-development-tech
- project-management-tools-ai
- version-control-systems-tech
- ci-cd-automation
- issue-tracking-ai
- bug-reporting-automation
- collaborative-dev-environments
- team-communication-tech
- task-time-management-ai
- customer-feedback-ai
- cloud-based-dev-tech
- image-stock-platforms-ai
- video-hosting-tech
- social-networks-ai
- professional-social-networks-ai
- dating-apps-tech
数据集配置
- default
- 数据文件:
- train_filters_raw -
data/train_filters_raw-* - test_filters_raw -
data/test_filters_raw-*
- train_filters_raw -
- 数据文件:



