CMT-Bench
收藏arXiv2025-10-21 更新2025-10-24 收录
下载链接:
https://www.espncricinfo.com/
下载链接
链接失效反馈官方服务:
资源简介:
CMT-Bench数据集由亚利桑那州立大学计算与增强智能学院和Adobe研究院(印度)创建,包含超过6500个板球评论样本及其对应的真实表格,以及一个标签不变的扰动套件。数据集用于测试长上下文文本到表格生成的鲁棒性,要求模型在两个不断发展的表格(击球手和投球手)上进行动态表格生成,受复杂策略(比赛规则)的约束。数据集重点关注长上下文状态跟踪、实体解析和跨跨度聚合,通过三个广泛的维度进行控制鲁棒性探测,以揭示模型的脆弱性。
The CMT-Bench dataset was developed by the School of Computing and Augmented Intelligence at Arizona State University and Adobe Research India. It comprises over 6,500 cricket commentary samples paired with their corresponding ground-truth tables, alongside a label-agnostic perturbation suite. This dataset is designed to test the robustness of long-context text-to-table generation, requiring models to perform dynamic table generation on two evolving tables (batsmen and bowlers) under constraints from complex strategies (cricket match rules). The dataset focuses on long-context state tracking, entity resolution, and cross-span aggregation, and conducts controlled robustness probing across three broad dimensions to uncover model vulnerabilities.
提供机构:
亚利桑那州立大学计算与增强智能学院、Adobe研究院(印度)
创建时间:
2025-10-21
搜集汇总
数据集介绍

构建方式
在板球运动数据分析领域,动态表格生成任务面临着长文本理解与多实体状态追踪的双重挑战。CMT-Bench数据集基于ESPNcricinfo平台的实时比赛解说构建,通过严格的数据预处理流程确保时序完整性:首先采用单调性过滤器剔除天气更新、广告等非比赛内容,保留同时包含投手与击球手实体及有效比赛结果(如得分、出局)的解说片段;随后通过正则表达式解析器提取球级事件,依据板球规则体系对击球手统计项(跑分、击球数、四/六分球)和投手统计项(投球数、失分、三柱门)进行程序化计算,最终形成具有数值一致性的标准表格。
特点
该数据集在体育数据分析领域展现出独特的诊断价值。其核心特征体现在三方面:首先,通过设计语义保持的扰动维度(摘要线索消融、时序前缀扩展、实体形式变换),系统化探测模型对表面线索的依赖程度;其次,数据规模涵盖6500个板球解说样本,平均上下文长度达9435个词元,有效支撑长上下文推理研究;最后,规则驱动的表格生成机制确保标注确定性,配合99.7%的公开记分卡验证精度,为模型鲁棒性评估提供可靠基准。这些特性使数据集成为检验动态表格生成中数值推理与状态追踪能力的理想测试平台。
使用方法
在自然语言生成任务的应用场景中,该数据集支持多层次的评估框架。研究者可通过零样本思维链提示策略,要求模型根据解说文本同步生成击球手与投手统计表格;评估时采用匈牙利算法实现实体对齐,并计算单元格精度(数值匹配)、行精度(实体级正确性)与列精度(属性级正确性)三项指标。针对鲁棒性研究,可系统实施三类实验:移除解说中的摘要线索以检验推理能力,逐步扩展输入长度以分析时序稳定性,应用匿名化/跨域实体替换/角色纠缠等扰动以评估表面对称敏感性。这种结构化使用方法能有效揭示模型在动态表格生成中的真实能力边界。
背景与挑战
背景概述
CMT-Bench由亚利桑那州立大学与Adobe研究院于2025年联合发布,聚焦于板球实时评论的文本到表格生成任务。该数据集旨在探究大语言模型在动态叙事场景下的鲁棒性,通过构建击球手与投球手双表结构,要求模型追踪长上下文中的实体状态演变与规则约束下的数值聚合。其创新性在于将体育分析领域的复杂时序推理引入自然语言处理评估体系,为研究模型真实推理能力提供了标准化测试平台。
当前挑战
该数据集核心挑战在于解决动态文本到表格生成中的状态追踪难题,包括长上下文实体解析、跨跨度数值聚合及规则依赖推理。构建过程中需克服板球领域特有的多实体交互复杂性,如从非结构化评论中提取程序化真值时,需处理宽球、无触身球等非对称统计规则,并确保超过9000词元的长序列中事件与表格属性的严格对齐。
常用场景
经典使用场景
在体育数据分析领域,CMT-Bench数据集主要应用于评估大型语言模型在动态文本到表格生成任务中的鲁棒性。该数据集通过板球实时评论构建,要求模型根据不断演变的比赛叙事生成击球手和投球手的统计表格,涉及长上下文状态跟踪、实体解析和跨跨度聚合等复杂推理过程。其经典使用场景包括测试模型在移除摘要线索后的推理能力、评估模型在增长上下文长度下的稳定性,以及验证模型对实体表面形式变化的敏感性。
衍生相关工作
基于CMT-Bench数据集,研究社区衍生出多个重要研究方向。在模型鲁棒性评估方面,推动了基于能量距离和块置换检验的分布漂移量化方法;在表格生成方法上,激发了约束解码和一致性投票等增强技术的研究;同时催生了面向多领域动态表格生成的扩展基准,如结合板球规则的知识约束增强方法和面向金融领域的时序表格生成框架,这些工作共同推进了文本到表格生成技术的稳健发展。
数据集最近研究
最新研究方向
在文本到表格生成领域,CMT-Bench数据集聚焦于评估大型语言模型在动态多表生成任务中的鲁棒性。前沿研究围绕三个核心维度展开:通过消除提取性摘要线索来区分模型是依赖表面捷径还是进行深层状态推理;分析输入长度增加时模型性能的时序稳定性;以及测试实体形式扰动(如匿名化、分布外替换和角色纠缠式改写)对模型敏感性的影响。这些方向揭示了当前模型在长上下文推理和实体解析中的脆弱性,推动了以鲁棒性优先的评估范式,为构建高效可靠的文本到表格系统提供关键洞见。
相关研究论文
- 1CMT-Bench: Cricket Multi-Table Generation Benchmark for Probing Robustness in Large Language Models亚利桑那州立大学计算与增强智能学院、Adobe研究院(印度) · 2025年
以上内容由遇见数据集搜集并总结生成



