CricBench
收藏arXiv2025-12-26 更新2025-12-30 收录
下载链接:
https://github.com/Vaibhav2823/ipl
下载链接
链接失效反馈官方服务:
资源简介:
CricBench是由比拉理工学院团队构建的首个专家级板球分析多语言Text-to-SQL基准数据集,包含200条高复杂度查询。该数据集基于标准化关系数据库架构,整合了Cricsheet的逐球记录数据,涵盖比赛、球员、击球事件等多维度表结构。通过板球分析师与SQL专家的协作,采用人工编写与第三方验证的严格流程确保逻辑正确性,特别设计了英语和印地语双语查询以反映真实语言使用场景。该数据集旨在评估LLMs在专业体育领域的模式推理能力,解决现有基准在领域特异性、多语言支持和复杂时序计算方面的不足。
CricBench is the first expert-level cricket analytics multilingual Text-to-SQL benchmark dataset developed by the team from Birla Institute of Technology, containing 200 high-complexity queries. Built on a standardized relational database schema, this dataset integrates ball-by-ball match record data from Cricsheet, covering multi-dimensional table structures including matches, players, batting events and more. Through collaboration between cricket analysts and SQL experts, a rigorous workflow of manual authorship and third-party validation was adopted to ensure logical correctness. Bilingual queries in English and Hindi were specially designed to reflect real-world language usage scenarios. This dataset aims to evaluate the pattern reasoning capabilities of LLMs in the professional sports domain, addressing the shortcomings of existing benchmarks in terms of domain specificity, multilingual support and complex temporal calculation.
提供机构:
比拉理工学院 (BITS), 皮拉尼
创建时间:
2025-12-26
搜集汇总
数据集介绍

构建方式
在体育数据分析领域,构建高质量的基准数据集对于评估大语言模型在专业场景下的能力至关重要。CricBench的构建采用了专家驱动的严谨流程,其核心数据库源自Cricsheet提供的逐球比赛记录,通过数据工程处理转化为规范化的SQLite关系型数据库,包含比赛、投球、球员等五张核心表。为确保查询的逻辑正确性与领域真实性,研究团队摒弃了自动化生成方式,转而与板球分析专家及SQL工程师深度合作,手动编写并验证了200个高复杂度自然语言问题,这些问题直接源于真实世界的分析模式,并覆盖了多表连接、嵌套查询、时间推理及衍生指标计算等多种复杂场景。此外,为体现板球球迷群体的语言多样性,数据集还通过人工翻译构建了包含代码混合现象的印地语测试集,为多语言评估奠定了基础。
特点
作为板球分析领域的首个专家标注基准,CricBench展现出鲜明的领域专属性与评估严谨性。其核心特点在于深度模拟了真实体育分析中的复杂推理需求,查询不仅涉及高比例的多表连接与聚合操作,更嵌入了球队名称历史变迁归一化、比赛阶段特定过滤以及击球率、经济率等衍生指标计算等专业逻辑,从而精准揭示了通用模型在垂直领域面临的“能力鸿沟”。该数据集另一显著特征是开创性的多语言支持,其印地语测试集并非简单翻译,而是保留了“Strike Rate”等技术术语的代码混合形式,真实反映了印度次大陆用户的交互习惯,为评估模型在非英语环境下的语义理解与SQL生成能力提供了独特视角。
使用方法
为系统评估模型在专业领域的表现,CricBench配套提供了双模式评估框架。在原始评估模式下,模型仅接收数据库基本模式与自然语言问题,以此测试其零样本泛化与参数知识应用能力。在上下文感知评估模式下,则引入了复杂度路由算法,该算法会分析查询语义,动态注入全局前言与领域特定规则。全局前言明确定义了合法投球判定、统计数据计算等关键领域规则,而动态规则则针对查询中检测到的历史球队名、季后赛阶段等触发词,注入相应的SQL映射逻辑,从而引导模型遵循严格的领域约束生成准确查询。研究者可通过该框架,量化对比模型在有无领域知识辅助下的性能差异,深入分析其在语法正确性、模式遵循及数据匹配精度等多维度的表现。
背景与挑战
背景概述
随着大型语言模型在文本到结构化查询语言任务中的显著进展,其在体育分析等高度专业化领域中的适应能力仍待深入探索。CricBench数据集由印度皮拉尼比尔拉科学技术研究所的研究团队于2025年创建,旨在填补这一研究空白。该数据集聚焦于板球分析这一全球拥有超过25亿粉丝的领域,核心研究问题是评估模型在应对领域特定细微差别、复杂模式变化及多语言需求时的性能。通过专家手动标注构建的黄金标准查询,CricBench为板球数据分析提供了一个严谨的测试平台,推动了专用领域自然语言界面与多语言评估研究的发展,对提升模型在垂直领域的实际应用价值具有重要影响力。
当前挑战
CricBench数据集致力于解决板球分析领域文本到SQL转换的挑战,其核心在于模型需理解复杂的领域逻辑,如计算衍生指标、处理实体解析与时态推理等。构建过程中的挑战尤为突出,包括确保查询的逻辑正确性与事实准确性,这依赖于板球专家与SQL工程师的协同手动创作与验证,避免了自动化生成可能引入的偏差。此外,数据集支持英语与印地语的双语构建,需真实反映代码混合的语言现象,即技术术语保留英语拼写而嵌入本土语言结构,这对维持语言真实性同时保证评估一致性提出了较高要求。
常用场景
经典使用场景
在体育数据分析领域,CricBench数据集为评估大型语言模型在板球专项分析中的自然语言转SQL能力提供了基准测试平台。该数据集通过精心设计的复杂查询,模拟真实场景中分析师对板球历史数据的高阶统计需求,例如计算球员在特定比赛阶段的得分率或对比不同赛季的球队表现。其多语言特性进一步扩展了应用范围,允许研究者在英语和印地语环境下测试模型的跨语言理解与生成能力。
实际应用
在实际应用层面,CricBench可直接服务于板球数据分析平台,赋能非技术用户通过自然语言查询获取深度的比赛洞察。例如,球迷或评论员可使用印地语混合代码的提问方式,快速检索球员在“死亡回合”的经济率或球队的历史交锋记录。该数据集也为多语言体育智能助手的发展提供了关键技术验证,有助于缩小英语与非英语用户在使用数据分析工具时的体验差距。
衍生相关工作
CricBench的推出催生了一系列围绕领域适应性和多语言SQL生成的研究工作。例如,基于其构建的上下文感知路由机制启发了更多针对专业领域的动态提示注入方法。同时,该数据集在评估中发现的“印地语优势”现象,促进了跨语言代码混合查询处理的优化研究。这些衍生工作共同推动了文本到SQL技术在垂直领域的实用化与普及化进程。
以上内容由遇见数据集搜集并总结生成



