GraSD
收藏arXiv2026-04-08 更新2026-04-10 收录
下载链接:
https://github.com/joyennn/CIS
下载链接
链接失效反馈官方服务:
资源简介:
GraSD(Graded Scalar Diversity)是由成均馆大学构建的语义推理数据集,专注于量化标量词的语用强度差异。该数据集整合了来自四项研究的121个<弱项,强项>标量词对,并通过GPT-4o基于理论约束生成上下文实例,最终扩展为12.1万条句子数据。其构建过程采用理论驱动的数据增强策略,确保在多样化语境中保持标量含义的稳定性。该数据集主要用于评估大语言模型对人类分级语用推理的模拟能力,为解决模型在语义隐含推理中缺乏词汇敏感性的问题提供基准。
GraSD (Graded Scalar Diversity) is a semantic reasoning dataset developed by Sungkyunkwan University, which focuses on quantifying the pragmatic strength differences of scalar terms. This dataset integrates 121 <weak, strong> scalar term pairs sourced from four prior studies, generates contextual instances via GPT-4o under theoretical constraints, and ultimately expands to a corpus of 121,000 sentence samples. Its construction adopts a theory-driven data augmentation strategy to ensure the stability of scalar meanings across diverse contextual scenarios. This dataset is mainly used to evaluate the capability of Large Language Models (LLMs) to simulate human graded pragmatic reasoning, serving as a benchmark for resolving the problem that models lack lexical sensitivity in semantic implicative reasoning.
提供机构:
成均馆大学
创建时间:
2026-04-08
原始信息汇总
数据集概述
数据集名称
GraSD (Graded Scalar Diversity)
数据集来源
该数据集由研究项目“Continuous Interpretive Steering for Scalar Diversity”引入并创建。
数据集目的
用于编码分级的标量多样性,以支持对大型语言模型中分级语用推理的评估与分析。
核心内容
数据集旨在量化语用推理的梯度特性,具体表现为标量含义的强度在不同标量项之间存在差异(即标量多样性)。
相关方法
数据集与连续解释性引导方法配合使用,该方法通过将激活层面的引导强度作为连续实验变量,来探测分级的语用解释。
实验验证
在四个大型语言模型上的实验表明:
- 均匀的激活引导会全局增加语用解释,但消除了项目级别的差异。
- 分级的激活引导能产生与标量多样性等级相一致的分化解释偏移。
研究意义
数据集及配套方法表明,分级的敏感性被编码在表征空间中,并能通过受控干预被系统地恢复。它们共同为评估大型语言模型中的分级语用敏感性提供了一个原则性框架。
搜集汇总
数据集介绍

构建方式
在语用学领域,标量多样性现象揭示了不同词汇项引发语用推理的强度差异。为系统研究这一现象,GraSD数据集通过整合四项先前研究的标量对构建而成,涵盖121组<弱项,强项>配对。每对标量项均生成锚点句、逻辑变体和语用变体三种句式,锚点句包含弱项,逻辑变体替换为强项,语用变体则编码对应的标量含义。为增强数据多样性,研究采用理论驱动的约束增强策略,借助GPT-4o模型在语言学理论指导下生成丰富语境实例,最终形成包含12.1万句的大规模语料库,为标量多样性的量化分析提供结构化基础。
特点
GraSD数据集的核心特征在于其系统编码了标量含义的梯度性差异。数据集不仅覆盖广泛的标量对类型,更通过精心设计的句式结构捕捉语用推理的连续谱系。每个标量对对应的三种变体形成对照实验框架,使得研究者能够精确测量模型在逻辑解读与语用解读之间的表征距离。特别值得注意的是,数据集依据人类语用判断的实证研究将标量项划分为A-E五个等级,这种分级结构为探究大语言模型的梯度敏感性提供了标准化评估基准。数据集的规模与结构设计使其成为连接人类语用认知与计算模型表征的桥梁。
使用方法
该数据集主要应用于大语言模型的语用能力评估,特别是通过连续解释性引导方法探究模型内部表征的梯度敏感性。研究者首先提取模型对锚点句、逻辑句和语用句的内部激活表示,计算语用方向作为引导向量。通过系统调整引导强度系数,观察锚点表征在语用方向上的连续变化,并测量其与逻辑句和语用句的相似度变化。这种实验设计使得研究者能够区分均匀引导与梯度引导的效果,验证模型是否能够保持标量项之间的敏感性差异。数据集还可用于跨模型比较研究,评估不同架构语言模型在语用推理方面的表征组织特性。
背景与挑战
背景概述
在语用学与计算语言学的交叉领域,标量隐涵的多样性研究揭示了人类语用推理的梯度特性。由Ye-eun Cho等人于2026年构建的GraSD数据集,旨在系统编码标量多样性中的梯度语用强度。该数据集整合了来自van Tiel等人(2016)、Ronai与Xiang(2021、2024)以及Pankratz与van Tiel(2021)四项实证研究的标量词对,通过理论驱动的约束增强策略生成了12.1万个句子实例。GraSD为评估大语言模型中的梯度语用敏感性提供了结构化资源,推动了语用计算模型从二元判断向精细化梯度分析的范式转变。
当前挑战
GraSD数据集致力于解决标量多样性评估中的核心挑战,即如何准确捕捉不同标量词项触发语用推理的强度差异。传统评估方法常将语用行为简化为二元分类,忽视了人类语用判断中固有的梯度变化。在数据集构建过程中,研究者面临确保数据一致性与理论忠实性的双重挑战。具体而言,需要从异构的实证研究中整合标量词对并消除冗余,同时通过受控的上下文生成策略,在保持语用条件一致性的前提下实现实例的多样性与自然性,以避免生成偏差对评估效度的潜在影响。
常用场景
经典使用场景
在语用学与计算语言学的交叉领域,GraSD数据集为评估大语言模型中的分级语用推理能力提供了基准。该数据集通过整合来自多项实证研究的标量项对,构建了包含锚点句、逻辑变体和语用变体的丰富实例,使得研究者能够系统探究模型在不同标量项上表现出的语用解释强度差异。经典使用场景涉及利用连续解释性引导方法,在模型的激活空间中施加不同强度的干预,从而精细刻画模型对标量多样性的内部表征敏感性。
实际应用
在实际应用层面,GraSD数据集为开发更符合人类语用习惯的自然语言处理系统提供了重要资源。例如,在对话系统与智能助手的开发中,模型需要准确理解用户话语中隐含的分级含义,避免过度解读或解读不足。该数据集支持对模型进行分级语用敏感性的评估与优化,有助于提升系统在真实交互场景中的沟通自然度与可靠性,为构建具备细腻语用推理能力的人工智能应用奠定数据基础。
衍生相关工作
围绕GraSD数据集,一系列探索分级语用表征的经典工作得以衍生。研究者在连续解释性引导框架下,系统比较了均匀激活引导与分级激活引导对模型解释偏好的影响,揭示了模型内部表征空间对语用强度的编码方式。这些工作深化了对大语言模型语用能力几何结构的认识,并启发了后续研究将类似方法扩展到其他分级语用现象,如预设、会话含义等,推动了计算语用学向更精细、更机制化的方向发展。
以上内容由遇见数据集搜集并总结生成



