five

CLAMBER

收藏
arXiv2024-05-20 更新2024-06-21 收录
下载链接:
https://github.com/zt991211/CLAMBER
下载链接
链接失效反馈
官方服务:
资源简介:
CLAMBER是由四川大学计算机学院创建的数据集,旨在评估大型语言模型处理含糊不清的用户查询的能力。该数据集包含约12,000个高质量数据,覆盖多种模糊查询类别。创建过程中,研究团队利用了多种数据资源,如ALCUNA和AmbiTask,通过GPT-4生成澄清问题。CLAMBER的应用领域主要集中在提升语言模型在信息检索中的实用性和用户满意度,通过解决查询中的模糊性问题,增强模型的主动性和可信度。

CLAMBER is a dataset developed by the College of Computer Science, Sichuan University, aimed at evaluating the capability of large language models (LLMs/Large Language Models) to handle ambiguous user queries. This dataset contains approximately 12,000 high-quality samples covering multiple categories of ambiguous queries. During the dataset construction process, the research team leveraged various data resources such as ALCUNA and AmbiTask, and used GPT-4 to generate clarification questions. The primary application scenarios of CLAMBER focus on enhancing the practical utility and user satisfaction of language models in information retrieval, by resolving ambiguities in queries and improving the model's proactivity and credibility.
提供机构:
四川大学计算机学院
创建时间:
2024-05-20
搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型处理模糊查询的背景下,CLAMBER数据集的构建采用了系统化的分类学框架,整合了认知错位、语言模糊性和随机输出三个核心维度,并细分为八个具体类别。通过精心筛选和整合多个现有数据集,如ALCUNA、AmbiTask、AmbER等,并利用GPT-4生成高质量数据,最终形成了约12K条数据实例。构建过程强调人工验证与修订,由语言专家团队确保模糊性标签的准确性和澄清问题的有效性,从而保障了数据集的可靠性与科学性。
特点
CLAMBER数据集的特点在于其全面而精细的模糊性分类体系,涵盖了从实体认知冲突到语义指代不明的多种模糊类型。数据规模适中且质量较高,每个实例均包含用户查询、模糊性标签及对应的澄清问题,为评估模型提供了结构化基础。该数据集特别关注大型语言模型特有的模糊性,如认知错位中的矛盾与陌生实体,弥补了传统模糊性数据集的不足。其多样化的查询来源和严谨的验证流程,使得CLAMBER能够全面反映模型在实际应用中的挑战与局限。
使用方法
CLAMBER数据集主要用于评估大型语言模型在识别和澄清模糊查询方面的能力。研究人员可通过设计零样本、少样本及思维链提示等不同实验方案,测试模型在各类模糊性上的表现。数据集支持细粒度分析,帮助揭示模型在特定类别如语义模糊或矛盾处理中的薄弱环节。此外,CLAMBER可用于生成澄清问题的质量评估,通过自动指标如BertScore和人工标注,深入探究模型在利用内部知识解决模糊性时的效能与不足,从而推动更主动、可信的语言模型研发。
背景与挑战
背景概述
随着大语言模型在信息检索领域的广泛应用,用户查询中普遍存在的模糊性问题逐渐凸显,成为影响模型实用性与用户信任的关键因素。在此背景下,四川大学、新加坡国立大学及蚂蚁集团的研究团队于2023年联合推出了CLAMBER基准数据集,旨在系统评估大语言模型在识别与澄清模糊查询方面的能力。该数据集构建了涵盖认知错位、语言模糊性和随机输出三大维度的精细分类体系,并基于多源数据整合了约1.2万条高质量样本,为探究大语言模型处理模糊信息的机制提供了重要实证基础。CLAMBER的建立不仅填补了该领域系统性评估工具的空白,更推动了面向主动性与可信赖性的大语言模型研究进程。
当前挑战
CLAMBER数据集致力于解决大语言模型在模糊查询处理中的核心挑战,具体涵盖两大层面:在领域问题层面,现有模型难以准确识别查询中存在的多义性、指代模糊或信息缺失等现象,尤其在语义歧义与内部知识冲突等复杂场景中表现显著不足;同时,模型生成澄清问题的质量有限,常出现错误聚焦、表述过度简化或冗余等问题,反映出其缺乏对知识边界的有效感知与冲突消解能力。在构建过程层面,数据收集需协调多源异构数据集,并确保模糊性标注的准确性与一致性;此外,针对大语言模型特有的认知错位类别,需设计避免训练数据偏差的合成知识,并通过多轮专家验证保障数据质量,这些工作均对标注规范与评估流程提出了较高要求。
常用场景
经典使用场景
在大型语言模型(LLM)的研究与评估领域,CLAMBER数据集被广泛用于系统性地测试模型在处理模糊用户查询时的能力。该数据集通过精心构建的约12,000条高质量数据,覆盖了从认知错位到语言模糊性及随机输出等多个维度的模糊类型,为研究者提供了一个标准化的评估平台。经典使用场景包括在零样本、少样本及思维链提示等不同设置下,对LLM进行模糊查询识别与澄清问题生成的性能测试,从而深入揭示模型在复杂信息需求场景中的局限性。
实际应用
在实际应用层面,CLAMBER数据集为开发更智能的对话系统与信息检索工具提供了重要支撑。在搜索引擎、虚拟助手及客户服务等场景中,用户查询常包含模糊或歧义表述,若模型无法有效识别并澄清这些需求,可能导致回答不准确或用户信任度下降。基于CLAMBER的评估结果,开发者能够针对模型在时间、空间及任务要素缺失等模糊类型上的薄弱环节进行优化,从而设计出更具主动澄清能力的交互系统,提升其在教育、娱乐、商业等多元化领域中的服务效果与可靠性。
衍生相关工作
围绕CLAMBER数据集,学术界衍生出一系列聚焦于LLM模糊处理能力的经典研究工作。例如,基于其分类体系,研究者进一步探索了链式思维与少样本提示在模糊识别中的优化策略,并深入分析了模型知识冲突与语义理解不足的根源。同时,该数据集也促进了如AmbigQA、ALCUNA等现有模糊数据资源的整合与扩展,推动了针对代词指代消解、实体歧义消歧等细分任务的算法改进。这些工作共同构建了一个持续演进的研究生态,为LLM在复杂语言环境中的鲁棒性提升奠定了理论基础与实践指南。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作