scenario-based dataset
收藏arXiv2025-09-05 更新2025-09-09 收录
下载链接:
https://huggingface.co/datasets/MattMa/scenario-based-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由山西大学计算机与信息工程学院和新加坡科技设计大学信息系统技术与设计系共同创建,包含500条虚构事实的文本描述,并标注了场景元素。数据集旨在评估大型语言模型对场景元素与其论点之间的关联能力,以及模型能否通过表面记忆之外的方式进行深层语义理解。
提供机构:
山西大学计算机与信息工程学院,新加坡科技设计大学信息系统技术与设计系
创建时间:
2025-09-05
原始信息汇总
数据集概述
基本信息
- 许可证: Apache 2.0
- 来源: EMNLP 2025论文《Memorization != Understanding: Do Large Language Models Have the Ability of Scenario Cognition?》的官方数据集
状态
- 即将发布(Coming Soon...)
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,针对大语言模型场景认知能力的评估需求,该数据集通过多阶段流程构建。首先采用双模型生成策略创建虚构原子事实,确保内容虚构性、角色丰富性和语义简洁性;随后通过语义嵌入相似度过滤与多模型投票验证机制保障数据多样性与质量。知识描述扩展阶段生成十种语义一致的表述变体,并基于首动词分割策略构建监督微调样本。最后通过人机协作框架标注场景元素,并生成场景化问题对,形成包含记忆集与理解集的双视角评估体系。
特点
该数据集的核心特征体现在其精心设计的评估维度和结构创新。数据集包含500个高质量虚构原子事实,每个事实衍生出10种语义一致但表述多样的扩展描述,构成5000个训练样本的记忆集;同时基于标注的场景元素生成1581个场景化问答对,形成理解集。其独特之处在于通过双视角框架评估模型性能:既考察模型输出的场景推理能力,又通过线性探测分析内部表征中的元素-论元关联编码。数据集严格遵循虚构性准则,避免现实知识干扰,并采用多模型验证机制确保数据质量与多样性。
使用方法
该数据集专为评估大语言模型的场景认知能力而设计,需结合双视角框架使用。在模型输出视角下,研究者可对LLMs进行全参数监督微调,使用记忆集训练后分别在记忆集和理解集上评估记忆能力与场景推理能力。内部表征视角需构建线性探测分类器,提取Transformer各层的隐藏状态表征,训练探测器判断场景元素与论元的匹配关系。实验设置需控制温度参数以观察输出多样性,并采用多轮运行确保结果稳健性。数据集支持不同规模模型的能力对比分析,为研究语义理解机制提供标准化评估基准。
背景与挑战
背景概述
由山西大学与新加坡科技设计大学联合研发的scenario-based dataset于2025年发布,专注于评估大语言模型在场景认知能力上的表现。该数据集通过虚构事实的文本描述与场景元素标注,旨在探究模型对语义角色与论元关联的深层理解,填补了传统自然语言处理任务在语义推理评估方面的空白,为认知语言学与人工智能的交叉研究提供了重要实证基础。
当前挑战
该数据集核心挑战在于区分大语言模型的记忆与认知能力:一是解决场景元素与论元关联的语义推理问题,需克服模型对表面文本模式的依赖;二是构建过程中需确保虚构事实的语义一致性与角色丰富性,同时通过多模型协同生成与人工校验平衡数据多样性与质量,避免真实知识污染与标注偏差。
常用场景
经典使用场景
在自然语言处理领域,该数据集被广泛应用于评估大语言模型的情境认知能力,通过虚构事实的文本描述及其标注的场景元素,研究者能够系统测试模型在语义场景理解中的表现。典型应用包括设计基于场景元素的问答任务,检验模型是否能够准确关联角色与参数,从而深入分析其泛化机制与记忆模式的差异。
实际应用
该数据集的实际应用涵盖智能问答系统、知识库构建及教育技术领域,能够辅助开发更精准的角色关系推理模块。例如,在虚拟助手设计中,通过测试模型对场景元素的关联能力,可优化其对话连贯性与事实一致性,减少幻觉生成,提升用户体验与任务完成效率。
衍生相关工作
该数据集催生了多项关于大语言模型内部表示探测的经典研究,如基于线性探针和注意力机制的场景元素-参数关联分析工作。后续研究进一步扩展了多模态情境认知评估框架,并启发了针对模型幻觉与语义一致性问题的改进算法,推动了认知语言学与人工智能的跨学科融合。
以上内容由遇见数据集搜集并总结生成



