five

SOQL-dataset

收藏
Hugging Face2025-12-05 更新2025-12-06 收录
下载链接:
https://huggingface.co/datasets/krajnish95/SOQL-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
SOQL Mega数据集是一个包含15,000条记录的训练数据集,专门用于训练大型语言模型(LLM)将自然语言指令转换为SOQL查询。每条记录包含一个自然语言指令、一个空输入和一个SOQL查询输出。数据集涵盖了Salesforce的多个主要云服务中的对象,包括销售云、服务云、现场服务、CPQ、营销/Pardot、商务云、体验云、Einstein/AI/分析、内容/知识、安全与元数据、大对象和自定义对象。此外,还包括200多个合成平台对象以泛化LLM行为。数据集还涵盖了多种SOQL查询类型、聚合函数、高级SOQL特性、关系查询、大对象查询和查询变体。数据集的目标是帮助LLM学习将自然语言转换为有效的SOQL,理解对象和字段,处理复杂操作,使用标准和自定义对象,并泛化到未见过的对象。
创建时间:
2025-12-05
原始信息汇总

SOQL Mega Dataset 概述

1. 数据集基本信息

  • 数据集名称: SOQL Mega Dataset
  • 文件名称: soql_dataset_full_15000.json
  • 记录总数: 15,000条
  • 数据格式: 每条记录为JSON格式,包含instruction(自然语言指令)、input(通常为空)和output(SOQL查询)字段。
  • 核心用途: 专门用于大型语言模型(LLM)训练,以实现从自然语言到SOQL(Salesforce对象查询语言)的转换。

2. 涵盖的Salesforce云产品与对象

数据集覆盖了所有主要的Salesforce云产品及其标准与自定义对象。

  • 销售云: Account, Contact, Lead, Opportunity, OpportunityLineItem, Product2, Pricebook2, PricebookEntry, Campaign, CampaignMember, Quote, QuoteLineItem, Order, OrderItem, Contract, Asset, User。
  • 服务云: Case, CaseComment, Solution, EmailMessage, LiveChatTranscript, LiveChatVisitor, Entitlement, EntitlementProcess。
  • 现场服务云: WorkOrder, WorkOrderLineItem, ServiceAppointment, ServiceResource, ServiceTerritory, ServiceTerritoryMember, WorkType, RoutingRule。
  • CPQ(配置、定价、报价): SBQQ__Quote__c, SBQQ__QuoteLine__c, ContractedPrice, Subscription。
  • 营销云/Pardot: ListEmail, EmailTemplate, Pardot_Prospect__c, MarketingForm__c。
  • 商务云: Cart__c, CartItem__c, InventoryItem__c, ProductCategory__c。
  • 体验云: Network, NetworkMember, Site, AuthSession, UserPreference。
  • 爱因斯坦/AI/分析云: PredictionResult__c, MlRecommendation__c, EinsteinActivity__c, Dataset__x。
  • 内容/知识库: KnowledgeArticleVersion, Knowledge__kav, ContentVersion, ContentDocument。
  • 安全与元数据: PermissionSet, PermissionSetAssignment, AccountShare, ContactShare, OpportunityShare, CustomMetadata__mdt, CustomPermission__c, ApexClass, ApexTrigger, Layout。
  • 大数据对象: EventArchive__b, CustomerActivity__b, LoginHistoryArchive__b, CaseHistoryArchive__b。
  • 自定义对象示例: Invoice__c, InvoiceLine__c, CreditMemoLine__c, ConsumptionRate__c, Document__c, ApptBundleAggrDurDnscale__c。
  • 200多个合成平台对象: 为提升LLM泛化能力而创建,例如SalesObject1…SalesObject20, ServiceObject1…ServiceObject20, CPQObject1…CPQObject20等。

3. 涵盖的SOQL查询类型与功能

  • 基础SELECT查询: 包含简单相等、数值比较、字符串过滤、电子邮件过滤、空值检查(= NULL, != NULL)。
  • WHERE子句变体: 包含LIKE %keyword%IN (1,2,3)INCLUDES (Value)(用于多选选择列表)、日期过滤以及日期字面量(如LAST_N_DAYS:30, YESTERDAY, THIS_YEAR)。
  • 聚合函数: 包含COUNT(), COUNT_DISTINCT(), SUM(), AVG(), MAX(), MIN()
  • GROUP BY / HAVING子句: 包含分组和过滤分组结果的示例。
  • ROLLUP & GROUPING: 包含使用ROLLUPGROUPING函数进行汇总分组的示例。
  • TYPEOF表达式: 包含用于WhoId/WhatId等多态关系的查询示例。
  • USING SCOPE ALL ROWS: 用于访问软删除的记录。
  • FOR VIEW / FOR REFERENCE / FOR UPDATE: 包含用于查看统计信息、只读快照和记录锁定的查询提示。
  • 关系查询:
    • 父子子查询: 包含从父对象查询子记录的示例。
    • 半连接/反连接: 包含使用INNOT IN的示例。
    • 深层多级链式查询: 包含3到5级对象关系的示例(如Account → Contact → Case → CaseComment)。
  • 大数据对象查询: 包含使用受限SOQL语法查询大数据对象的示例。
  • 其他查询变体: 包含ORDER BY, LIMIT, OFFSET, FIELDS(ALL), 货币转换convertCurrency()和时区转换convertTimezone()

4. 数据集构建目标

  1. 帮助LLM学习将纯英文指令转换为有效的SOQL查询。
  2. 帮助LLM理解Salesforce对象、字段和查询模式。
  3. 帮助LLM处理复杂的SOQL操作和多对象推理。
  4. 帮助LLM处理标准对象和自定义对象的模式。
  5. 通过使用合成对象,使LLM能够泛化到未见过的对象。

5. 最终说明

  • 数据集有意混合了真实和合成对象,以最大化模型的泛化能力。
  • 所有SOQL示例在语法上都是合理的,并展示了Salesforce的查询概念。
  • 可以安全地使用此数据集对任何LLM或RAG系统进行微调。

6. 许可证

  • 许可证类型: MIT
搜集汇总
数据集介绍
main_image_url
构建方式
在构建SOQL数据集的过程中,设计者精心整合了Salesforce生态系统中多类云服务的标准与自定义对象,涵盖了销售云、服务云、现场服务云、CPQ、营销云、商务云、体验云、爱因斯坦分析、内容知识、安全元数据以及大数据对象等广泛领域。数据集通过合成大量平台对象,如SalesObject1至SalesObject20等,以增强模型对未见对象的泛化能力。每条记录均以自然语言指令与对应SOQL查询的配对形式呈现,确保了语法正确性与语义合理性,旨在为大型语言模型提供从自然语言到结构化查询语言的精准转换训练。
使用方法
使用该数据集时,研究人员或开发者可直接将其应用于大型语言模型的微调过程,以提升模型在自然语言到SOQL查询转换任务上的性能。数据集中的每条记录以JSON格式组织,包含指令、输入(通常为空)与输出(SOQL查询)三个字段,便于直接加载至训练管道。通过训练,模型能够学习Salesforce对象结构、字段关系及复杂查询逻辑,并可借助合成对象增强对未知对象的推理能力。该数据集同样适用于检索增强生成系统,为基于Salesforce的问答或自动化工具提供高质量的查询生成基础。
背景与挑战
背景概述
在人工智能与自然语言处理领域,将自然语言指令自动转换为结构化查询语言(SQL)是提升人机交互效率的关键研究方向。SOQL-dataset作为专注于Salesforce对象查询语言(SOQL)的大规模数据集,由相关研究团队于近年构建,旨在解决自然语言到SOQL查询的自动生成问题。该数据集覆盖Salesforce生态中销售云、服务云、营销云等多个核心模块,包含超过200个标准与自定义对象,以及聚合函数、关系查询等高级SOQL特性,为训练大型语言模型提供了丰富的语义映射范例,显著推动了企业级应用智能化与自动化进程。
当前挑战
SOQL-dataset所针对的核心挑战在于自然语言到领域特定查询语言的精确转换,这要求模型不仅理解通用英语指令,还需掌握Salesforce复杂的数据模型与SOQL语法规则,如多对象关联、聚合操作及时间字面量处理。在构建过程中,数据集面临的主要挑战包括:确保查询的语法正确性与语义完整性,平衡标准对象与合成对象的覆盖范围以增强模型泛化能力,以及处理SOQL特有的高级功能(如TYPEOF语句和软删除记录访问)的多样表达,这些因素共同构成了数据集构建与模型训练中的关键难点。
常用场景
经典使用场景
在Salesforce生态系统与自然语言处理交叉领域,SOQL数据集为大型语言模型的训练提供了关键支持。该数据集的核心应用场景在于将自然语言指令精准转换为SOQL查询语句,通过涵盖Salesforce全系云平台的标准与自定义对象,以及包括基础筛选、聚合函数、多级关系查询在内的复杂SOQL语法,使模型能够深入理解业务语义与数据模式。这一过程不仅要求模型掌握语法结构,还需具备跨对象逻辑推理能力,从而为构建智能化的企业数据查询接口奠定坚实基础。
解决学术问题
该数据集直接应对了自然语言到结构化查询语言转换这一经典学术挑战,特别是在领域特定语言(DSL)如SOQL的语境下。它系统性地解决了模型在理解复杂业务实体关系、处理多表连接与嵌套查询、以及适应动态元数据模式时的泛化难题。通过引入大量合成对象与查询变体,数据集有效缓解了模型过拟合于有限模式的风险,推动了领域自适应与少样本学习研究的发展,为垂直领域的语义解析任务提供了高质量的基准资源。
实际应用
在实际业务环境中,SOQL数据集赋能了企业级应用智能化转型。基于该数据集训练的模型可集成于Salesforce平台的聊天机器人、智能助手或低代码开发工具中,使业务分析师或终端用户能够通过自然语言直接获取CRM数据洞察,无需掌握SOQL语法。这不仅大幅降低了数据查询的技术门槛,提升了运营效率,也增强了数据分析的即时性与可及性,在销售预测、客户服务自动化、库存管理等场景中展现出显著的应用价值。
数据集最近研究
最新研究方向
在Salesforce生态系统与自然语言处理交叉领域,SOQL数据集正推动大语言模型向企业级应用深化。前沿研究聚焦于利用此类结构化查询语言数据集,训练模型实现从自然语言到SOQL代码的精准转换,以提升企业CRM系统的智能交互能力。热点方向包括结合检索增强生成技术,构建能够理解Salesforce多云架构、处理复杂对象关系与聚合查询的专用模型。这一进展不仅降低了企业用户的技术门槛,也为自动化数据检索与分析开辟了新路径,对推动低代码平台与AI的融合具有显著意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作