ClearRef and SharedRef
收藏arXiv2025-09-19 更新2025-09-23 收录
下载链接:
https://www.deepl.com/en/pro-api
下载链接
链接失效反馈官方服务:
资源简介:
ClearRef and SharedRef是一个用于评估大型语言模型在对话中解决指代歧义的多语言数据集。数据集包含52个ClearRef实例和227个SharedRef实例,基于ConceptNet知识图构建,涉及8个关系,如“能够飞行”。该数据集旨在评估LLMs在多轮对话中利用常识知识解决指代歧义的能力,并研究语言简化对模型性能的影响。数据集已翻译成阿拉伯语、法语、俄语和简体中文,以支持多语言评估。
提供机构:
慕尼黑工业大学计算、信息和技术学院
创建时间:
2025-09-19
搜集汇总
数据集介绍

构建方式
ClearRef与SharedRef数据集的构建植根于概念网络知识图谱,通过筛选八个常识关系(如“能够飞行”)及其关联实体作为基础。采用GPT-4.1-nano生成每个实体的简洁描述句,形成对话上下文;ClearRef样本由一个符合关系的实体与一个负例实体配对,SharedRef则组合同一关系下的多个实体并加入负例,确保样本在常识推理下的明确性或歧义性。数据集进一步通过DeepL API翻译为阿拉伯语、法语、俄语和简体中文,以支持多语言评估,最终形成52个ClearRef和227个SharedRef实例。
特点
该数据集的核心特点在于其针对指代歧义解析的精细设计,通过ClearRef(单一合理指代)和SharedRef(多重合理指代)两种情境模拟真实对话中的歧义挑战。每个样本均基于常识知识定义正负实体集合,使评估能直接检验模型对上下文与常识的结合能力。多语言覆盖与实体顺序的受控排列进一步增强了数据的泛化性与鲁棒性,为分析模型在歧义处理中的策略(如直接回答、 hedging或澄清请求)提供了结构化基础。
使用方法
使用本数据集时,需将对话上下文(实体描述句)与歧义问题(如“它为何能飞?”)组合为模型输入,并在Normal(标准提示)或Simple(简化语言要求)两种设置下测试响应。评估流程依赖LLM-as-Judge自动分类响应类型(如Answer Attempt、Clarification)并提取提及实体,通过比对正实体集合判断响应正确性。该设计支持对模型歧义解析策略的细粒度分析,尤其适用于研究语言简化对常识推理的影响,或通过DPO等微调方法优化模型表现。
背景与挑战
背景概述
ClearRef与SharedRef数据集由慕尼黑工业大学Lukas Ellinger与Georg Groh于2025年提出,旨在系统评估大语言模型在多轮对话中利用常识知识解决指代歧义的能力。该数据集基于ConceptNet知识图谱构建,涵盖飞行能力、材质属性等八类常识关系,通过构造明确上下文与歧义性问题(如“它为何能飞”),模拟人类对话中依赖共同背景进行指代消解的过程。其创新性在于将歧义研究从单轮静态场景扩展至动态对话环境,为探索模型在不确定性下的回应策略(如直接回答、模糊表达或澄清请求)提供了重要基准。
当前挑战
该数据集核心挑战在于解决对话场景中的指代歧义问题,要求模型结合常识知识区分多个潜在指代对象。构建过程中需克服三方面困难:一是从ConceptNet中筛选符合特定关系的实体并确保负样本的合理性,二是通过自动化生成上下文句子时保持语言自然性与逻辑一致性,三是设计多语言版本时避免翻译引入的文化偏差。此外,数据规模有限(ClearRef含52例,SharedRef含227例)与关系类别覆盖不足可能影响评估的普适性,而实体顺序固定导致的模型位置偏好亦需通过排列组合消融实验加以验证。
常用场景
经典使用场景
在自然语言处理领域,ClearRef和SharedRef数据集被设计用于评估大语言模型在多轮对话中解决指代歧义的能力。该数据集通过构建包含常识知识的对话上下文,模拟真实交流中因代词指代不明引发的理解挑战。例如在直升机、猫头鹰和鼓的对话场景中,模型需要结合常识判断'它能飞'中'它'的指代对象,这种设置有效检验了模型利用共同背景知识进行推理的机制。
实际应用
在智能客服、教育辅助和医疗咨询等实际场景中,该数据集的应用价值尤为突出。当用户使用模糊指代提问时,系统能否准确理解意图直接影响服务质量。例如医疗问答中'它为什么会发热'的查询,可能指代人体器官或医疗设备,模型需要具备区分能力。数据集的多语言特性进一步支持跨文化场景的适应性测试,为构建包容性人工智能系统提供了关键评估工具。
衍生相关工作
该数据集催生了多项重要研究进展,其中基于直接偏好优化的微调方法显著提升了模型性能。相关工作将评估框架扩展至词汇歧义领域,如Ellinger等人提出的多语言同形异义词数据集MCL-WiC。这些研究共同构建了语言模型歧义处理能力的评估体系,启发了对模型校准、对话策略优化等方向的深入探索,为后续研究提供了可复现的基准范式。
以上内容由遇见数据集搜集并总结生成



