five

CLUTRR/v1

收藏
Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CLUTRR/v1
下载链接
链接失效反馈
官方服务:
资源简介:
CLUTRR数据集是一个用于测试自然语言理解系统在系统性泛化和归纳推理能力方面的诊断基准。该数据集包含大量半合成的家庭故事,任务是推断故事中未明确提及的两个家庭成员之间的关系。数据集的结构包括多个配置,每个配置包含故事、查询、目标关系等信息。数据集的划分包括训练、验证和测试集,每个划分的实例数量也有所不同。

The CLUTRR dataset is a diagnostic benchmark developed to test the systematic generalization and inductive reasoning abilities of natural language understanding systems. It includes a large corpus of semi-synthetic family stories, with the core task being to infer the relational ties between two family members that are not explicitly mentioned in the given story. The dataset is structured with multiple configurations, each containing relevant information such as the story, query prompt, and target relational category. Additionally, the dataset is partitioned into training, validation, and test subsets, with varying numbers of instances across each split.
提供机构:
CLUTRR
原始信息汇总

数据集概述

数据集名称

CLUTRR (Compositional Language Understanding and Text-based Relational Reasoning)

数据集描述

  • 目的: 测试自然语言理解(NLU)系统的系统性泛化和归纳推理能力。
  • 内容: 包含大量涉及假设家庭的半合成故事,任务是推断故事中未明确提及的两个家庭成员之间的关系。

数据集任务

  • 目标: 确定两个家庭成员之间的正确关系。
  • 关系类型: 包括“aunt”, “son-in-law”, “grandfather”等21种关系,每种关系有对应的编号。

数据集结构

  • 配置: 数据集包含14种配置,每种配置包括id, story, query, target, target_text等字段。
  • 实例示例: 包括故事文本、查询关系、目标关系及其文本描述、逻辑规则等详细信息。

数据分割

  • 分割名称: 包括gen_train23_test2to10, gen_train234_test2to10等。
  • 分割详情: 每个分割包含训练、验证和测试集,详细记录了每个分割中的实例数量。

多语言性

  • 语言: 单语(英语)

数据集大小

  • 规模: 10K<n<100K

许可证

  • 许可证类型: 未知
搜集汇总
数据集介绍
main_image_url
构建方式
CLUTRR数据集的构建采用半合成故事的形式,涉及假设性家庭关系,旨在评估自然语言理解系统在系统泛化和归纳推理方面的能力。数据集通过组合不同的逻辑规则,并添加不同类型的冗余信息,形成了多样化的任务场景,以测试模型在不同条件下的泛化性和鲁棒性。
特点
CLUTRR数据集的特点在于其精心设计的半合成故事,这些故事不仅包含了明确的亲属关系,还通过添加无关、支持性和断开连接的冗余信息来模拟现实世界中信息的复杂性。此外,数据集提供了详细的亲属关系图和逻辑规则,有助于研究者深入理解模型的推理过程。
使用方法
使用CLUTRR数据集时,研究者可以依据数据集中的故事和查询,训练模型识别并推断未直接提及的家庭成员关系。数据集提供了多种训练和测试任务,包括不同难度级别和不同类型噪声的变体,以评估模型在不同条件下的性能表现。用户可以通过数据集提供的详细结构和关系图,对模型进行有针对性的训练和评估。
背景与挑战
背景概述
CLUTRR(Compositional Language Understanding and Text-based Relational Reasoning)是一种诊断性基准测试套件,首次在2019年的论文(https://arxiv.org/abs/1908.06177)中提出,旨在测试自然语言理解(NLU)系统的系统性概括和归纳推理能力。该数据集由Koustuv Sinha、Shagun Sodhani、Jin Dong、Joelle Pineau和William L. Hamilton等研究人员创建,主要研究问题是如何通过故事中的逻辑规则组合来评估模型的系统性概括能力,以及通过添加不同类型的多余信息来测试模型的鲁棒性。CLUTRR数据集在自然语言处理领域具有显著影响力,为评估模型在理解文本中的关系推理方面的性能提供了重要工具。
当前挑战
CLUTRR数据集在构建过程中面临的挑战主要包括:1)如何设计具有 unseen 组合逻辑规则的故事来测试模型的系统性概括能力;2)如何通过在故事中添加不同类型的多余信息(如无关事实、支持性事实和断开连接的事实)来测试模型的鲁棒性;3)数据集的构建需要考虑不同长度的条款和不同类型的故事边缘,以适应不同的任务目标。此外,数据集在解决文本中的关系推理问题时,还需面对如何准确识别和分类故事中未明确提及的家庭成员关系的挑战。
常用场景
经典使用场景
CLUTRR数据集作为评估自然语言理解系统中归纳推理能力的基准测试套件,其经典使用场景在于检测模型对于未见逻辑规则组合的故事进行系统性泛化的能力,以及在故事中加入不同类型冗余信息以测试模型的鲁棒性。
衍生相关工作
基于CLUTRR数据集的研究已经衍生出了一系列相关工作,包括但不限于对模型进行改进以更好地处理逻辑推理任务,以及扩展数据集以涵盖更多类型的关系和更复杂的推理场景,这些工作进一步推动了自然语言理解领域的发展。
数据集最近研究
最新研究方向
CLUTRR数据集作为衡量自然语言理解系统在家族关系推理方面的泛化能力和模型鲁棒性的诊断基准,近期研究集中于模型的系统性泛化及其在不同类型噪声事实影响下的推理能力。该数据集通过构建涉及假设性家庭成员的半合成故事,旨在推理出故事中未明确提及的两个家庭成员间的关系。研究不仅关注模型在无噪声事实情况下的表现,还深入探讨在添加无关事实、支持性事实和断开连接事实等噪声条件下的模型表现,这对于理解模型在复杂文本推理任务中的稳定性和适应性具有重要的理论和实际意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作