five

Pragmatics Understanding Benchmark (PUB)

收藏
arXiv2024-01-13 更新2024-06-21 收录
下载链接:
https://huggingface.co/datasets/cfilt/PUB
下载链接
链接失效反馈
官方服务:
资源简介:
Pragmatics Understanding Benchmark (PUB) 是一个专为评估大型语言模型(LLMs)在语用理解能力上的基准数据集。由印度理工学院孟买分校的CFILT实验室创建,PUB包含14个任务,覆盖四种语用现象:含意、预设、指称和指示。数据集总计28,000个数据点,其中6,100个为新注释数据,其余来自现有数据集的改编。PUB通过多选题答案(MCQA)形式,旨在全面评估LLMs处理需要语用推理的实际语言任务的能力。该数据集的应用领域广泛,包括对话系统、搜索引擎优化等,旨在解决模型在理解人类对话中的隐含意义和预设方面的挑战。

Pragmatics Understanding Benchmark (PUB) is a benchmark dataset specifically designed to evaluate the pragmatic understanding capabilities of Large Language Models (LLMs). Created by the CFILT Lab at the Indian Institute of Technology Bombay, PUB comprises 14 tasks covering four core pragmatic phenomena: implicature, presupposition, reference, and deixis. The dataset contains a total of 28,000 data points, among which 6,100 are newly annotated samples, while the remaining entries are adapted from existing datasets. Adopting the Multiple-Choice Question Answering (MCQA) format, PUB aims to comprehensively assess the ability of LLMs to handle real-world language tasks that require pragmatic reasoning. This dataset has wide-ranging applications across domains including dialogue systems, search engine optimization, and more, and is intended to address the challenges faced by models in comprehending the implicit meanings and presuppositions within human conversations.
提供机构:
印度理工学院孟买分校的CFILT实验室
创建时间:
2024-01-13
搜集汇总
数据集介绍
main_image_url
构建方式
在语用学评估领域,Pragmatics Understanding Benchmark (PUB) 的构建采用了系统化的数据整合与创新标注策略。该基准整合了Circa、GRICE、FigQA等六个现有语用学数据集,并针对特定语用现象补充了三个全新标注的数据集。通过将原始数据统一转化为多项选择题问答格式,确保了评估任务的一致性与可操作性。研究团队在语言专家的指导下,对22,000个现有样本进行了重构与平衡处理,同时新增了6,100个经过人工精细标注的样本,最终形成了涵盖14项任务、总计28,000个数据点的综合性语用理解评估体系。
特点
PUB基准的核心特征体现在其多维度的语用现象覆盖与精细化的任务设计。该数据集系统性地涵盖了隐含意义、预设、指代和指示语四大语用学核心范畴,每个范畴下又细分为多个具有针对性的子任务。例如在隐含意义范畴中,不仅包含直接/间接回答分类等基础任务,还设计了带有暗示信息的回答分类、比喻语言理解等进阶任务。数据集特别引入了正面对比提示与反面对比提示的对照设计,能够有效检测语言模型对语义线索的依赖程度。这种分层级的任务架构使得评估能够深入揭示模型在不同语用维度上的能力差异。
使用方法
该数据集的使用遵循标准化的评估框架,主要采用两种提示方法进行模型测试。研究者可运用多项选择提示法,将语用任务转化为标准的多选题形式进行零样本或少样本评估;同时也可采用填空提示法,通过完形填空的方式考察模型的语用推理能力。为确保评估结果的稳定性,建议计算模型的多数一致性比例指标,以衡量模型预测的置信度与一致性。数据集已提供平衡采样的开发集示例,便于构建少样本提示的上下文示例。评估时应关注模型在不同提示类型下的表现差异,特别是对比提示对模型性能的影响,从而全面评估语言模型的语用理解鲁棒性。
背景与挑战
背景概述
在自然语言处理领域,大型语言模型虽在语义理解上展现出卓越能力,但在语用学理解方面仍面临显著挑战。语用学关注语境如何塑造语言理解,涉及言外之意、预设、指代和指示等复杂现象。为系统评估模型在此领域的表现,印度理工学院孟买分校、IBM研究院及日本国立信息通信技术研究所的研究团队于2024年共同创建了语用学理解基准数据集。该数据集聚焦于隐含意义、预设、指代和指示四大语用现象,涵盖14项具体任务,共包含28,000个数据点,其中6,100个为全新标注。其核心研究问题在于量化评估语言模型在真实对话场景中理解人类意图、处理非字面含义及进行语用推理的能力,旨在填补现有基准在语用评估方面的空白,推动模型实现更自然、更类人的人机交互。
当前挑战
该数据集旨在解决的领域核心挑战是评估和提升大型语言模型在复杂语用推理任务上的表现。具体而言,模型需克服理解言外之意、准确捕捉对话中的隐含预设、在动态语境中解析指代与指示关系等难题,这些能力对于实现流畅、意图对齐的人机对话至关重要。在数据集构建过程中,研究团队面临多重挑战:首先,需从现有分散资源中筛选并整合高质量的语用学数据,同时为填补研究空白(如无触发词的对话预设)创建大规模的新标注数据集,此过程依赖语言专家的深度参与以确保标注的准确性与一致性。其次,为适应模型评估,需将多样化的原始数据(如对话、自然语言推理样本)统一重构为多项选择题形式,并设计自然、无偏的提示模板,同时需平衡各类选项以规避评估偏差,并采用比例一致性协议等方法以检验模型预测的稳定性。
常用场景
经典使用场景
在自然语言处理领域,语用理解基准(PUB)数据集为评估大型语言模型的语用推理能力提供了标准化测试平台。该数据集通过涵盖隐涵、预设、指代和指示四大语用现象,构建了十四个多选问答任务,系统检验模型在真实对话场景中理解言外之意的能力。研究者通常将其作为基准工具,对比不同规模与训练策略的语言模型在语用理解任务上的表现差异,从而揭示模型在上下文推理、意图识别等核心语用维度的能力边界。
实际应用
该数据集对提升人机交互系统的实用性能具有显著价值。在智能客服、虚拟助手等对话系统中,模型需要准确理解用户的隐含意图与上下文依赖表达。PUB提供的测试框架可帮助开发者诊断模型在理解委婉拒绝、隐喻表达等实际对话难点上的不足。教育科技领域可借鉴其任务设计,构建语言学习工具以提升学习者的语用意识。此外,内容审核系统也可利用其预设识别任务,检测文本中隐藏的假设与偏见。
衍生相关工作
基于PUB数据集的评估范式,后续研究在多维度拓展了语用评估的边界。部分工作聚焦于构建跨语言语用基准,探究文化差异对语用推理的影响。另有研究将语用任务与推理链技术结合,开发可解释的语用推理框架。在模型优化方面,涌现出基于对抗样本的语用鲁棒性训练方法,以及融合常识知识的语用增强微调策略。这些衍生工作共同推动了对话用感知语言模型的系统化构建与评估。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作