TG-CSR

arXiv2022-07-15 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2203.12184v2

下载链接

链接失效反馈

官方服务：

资源简介：

TG-CSR是一个基于区分性问答的常识推理基准，旨在评估空间、时间、世界状态等多样化的常识方面。它基于Gordon和Hobbs首次提出的常识类别理论，设计为少样本（未来可能是零样本），仅提供少量训练和验证示例。

创建时间：

2022-03-23

搜集汇总

数据集介绍

构建方式

在人工智能领域，常识推理的评估长期缺乏理论支撑。TG-CSR数据集基于Gordon-Hobbs形式化常识理论中提取的九大语义范畴（如时间、空间、情感等）构建。每个问答实例均围绕一个特定主题与语境展开，例如“规划出国度假”，开发者针对每个范畴设计至少两个问题，并为每个范畴生成约十个候选答案，确保答案选项源自范畴内的概念术语。通过将同一范畴内所有问题的答案合并为全局集合，并经过人工标注与去重，最终形成多选式问答对，其中每个问题可对应多个正确选项。数据集采用渐进式发布策略，当前阶段包含331个问答对，划分为训练集（81例）、开发集（77例）和测试集（173例），仅公开前两者的标签。

特点

TG-CSR的核心特色在于其理论驱动的语义严谨性。不同于以往依赖统计特征的基准，该数据集首次将常识推理评估扎根于形式化理论，每道问题均明确归属某一语义范畴，从而实现对模型常识理解能力的精准诊断。数据集采用少样本设计，仅提供少量训练样本以抑制过拟合，并计划通过四个难度递增的阶段逐步减少训练数据，最终达到零样本评估。此外，问答形式为多选而非单选，允许多个正确答案，更贴近真实场景的复杂性。初步评估显示，即使拥有数十亿参数的先进语言模型（如T0++）在TG-CSR上的F1分数仅为60.3%，远低于人类表现（79.9%），凸显了该基准对统计模型的挑战性。

使用方法

TG-CSR通过公开的CodaLab竞赛平台发布，用户需注册并下载包含数据文件与起始代码的“Starting Kit”。数据集以JSON格式组织，包含问题、候选答案、语境、主题及元数据，便于程序化处理。使用阶段，模型需对每个问答对输出二元判断（Yes/No），表示答案是否契合问题。评估指标采用F1分数，以平衡正负样本不均衡。当前阶段仅开放第一个语境（“规划出国度假”）的数据，后续三个语境（“恶劣天气”、“露营度假”、“牙齿清洁”）将逐步发布。用户可在平台上提交测试集预测结果，系统自动实时评分。该设计旨在鼓励模型依赖常识语义而非统计捷径进行推理。

背景与挑战

背景概述

在人工智能领域，机器常识推理能力的评估长期缺乏理论根基坚实的基准。TG-CSR（Theoretically-Grounded Commonsense Reasoning）数据集由伦斯勒理工学院、南加州大学和加州大学欧文分校的研究人员于2022年联合创建，旨在填补这一空白。该数据集基于Gordon与Hobbs提出的形式化常识理论，将常识推理问题严格锚定于时间、空间、情感等九大语义范畴，构建了一套多选问答实例。不同于以往依赖统计模式或语义模糊的基准，TG-CSR强调理论驱动与语义优先，并采用渐进式多阶段发布策略以遏制模型过拟合。其公开竞赛平台已吸引广泛关注，为评估大规模语言模型在常识推理上的真实语义理解能力提供了严苛且可复现的测试环境。

当前挑战

TG-CSR面临的核心挑战源于其理论严谨性与实际构建的张力。首先，常识推理本身的开放性使得将抽象理论范畴（如“时间”与“活动”）精准映射为具体问答实例极为困难，开发者在分类时需反复权衡范畴边界。其次，常识知识常与个人经验及文化背景交织，例如“野餐带红酒”在不同语境下可能被判定为合理或不当，导致标注者间存在分歧，部分争议实例不得不被剔除。再者，构建过程需确保问答实例兼具语义多样性与标注一致性，同时维持小样本设置以规避模型对统计线索的依赖。此外，当前大规模语言模型在TG-CSR上表现远逊于人类（F1仅60.3%对79.9%），揭示出模型在语义理解与常识推理上的根本性短板，凸显了该基准对推动机器常识研究向理论深度与语义精度迈进的重要价值。

常用场景

经典使用场景

TG-CSR数据集最经典的使用场景在于对机器常识推理系统进行细粒度的语义评估。研究者借助该基准，可以针对时间、空间、情感等九大常识语义范畴，设计多选问答任务，以检验模型在特定语义维度上的推理能力。由于数据集采用少样本设置，并逐步增加难度直至零样本阶段，特别适合用于评估大规模语言模型是否真正理解了常识的语义内涵，而非依赖统计捷径。

衍生相关工作

TG-CSR的提出催生了一系列相关研究工作。基于其语义分类框架，研究者开发了面向特定常识范畴的细粒度评估工具，例如针对情感推理与时间推理的专项基准。此外，该数据集启发了将形式化本体（如OWL-Time、MFOEM）与神经符号方法相结合的尝试，用于构建可解释的常识推理系统。还有工作借鉴其渐进式难度设计，提出了多阶段、零样本的常识评估协议，推动了常识推理评估从统计拟合向语义理解的范式转变。

数据集最近研究