family_graph_hop

Hugging Face2026-05-09 更新2026-05-10 收录

下载链接：

https://huggingface.co/datasets/kdkyum/family_graph_hop

下载链接

链接失效反馈

官方服务：

资源简介：

Family Relation Dataset (with Two-Hop Reasoning) 是一个合成的家庭关系数据集，用于研究语言模型中的组合（多跳）推理和逆转诅咒。数据集包含1000个家庭，每个家庭有16名成员，跨越4代人，使用16个性别中立的名字和1000个姓氏。数据集分为单跳事实（如“Alex Robbins的丈夫是Eden Robbins”）、身份事实（如“Alex Robbins是Alex Robbins”）和两跳事实（如“Finn Robbins的父亲的父亲是Eden Robbins”）。数据集还包含训练/评估分割，用于测试模型在关系推理中的表现，特别是逆转诅咒（即模型是否能从“A是B的父母”推断出“B是A的孩子”）。数据集文件包括训练数据、评估数据、原始家庭图结构和分词器信息。

The Family Relation Dataset (with Two-Hop Reasoning) is a synthetic family relationship dataset designed to study compositional (multi-hop) reasoning and the reversal curse in language models. The dataset contains 1000 families, each with 16 members spanning 4 generations, using 16 gender-neutral names and 1000 surnames. The dataset is divided into single-hop facts (e.g., Alex Robbinss husband is Eden Robbins), identity facts (e.g., Alex Robbins is Alex Robbins), and two-hop facts (e.g., Finn Robbinss fathers father is Eden Robbins). It also includes train/evaluation splits to test models performance in relational reasoning, particularly the reversal curse (i.e., whether the model can infer B is As child from A is Bs parent). The dataset files include training data, evaluation data, original family graph structures, and tokenizer information.

创建时间：

2026-05-08

原始信息汇总

数据集概述：Family Relation Dataset (with Two-Hop Reasoning)

该数据集是一个合成家庭关系数据集，专门用于研究语言模型中的组合推理（多跳推理） 和反转诅咒现象。

1. 基本信息

许可证: MIT
任务类别: 文本生成
语言: 英语
标签: 合成数据、家庭关系、组合推理、反转诅咒、多跳
数据规模: 1M < 样本数 < 10M

2. 家庭结构

包含 1000个家庭（800个双向家庭 + 200个单向家庭）。
每个家庭有 16名成员，跨越 4代人。
姓名来源：16个性别中立的名字（名）+ 1000个姓氏（家庭内共享）。
关系类型：husband, wife, father, mother, son, daughter, brother, sister。

3. 句子格式

类型	示例
单跳事实	`Alex Robbins husband is Eden Robbins.`
身份事实	`Alex Robbins is Alex Robbins.`
两跳事实	`Finn Robbins father father is Eden Robbins.`

两跳格式：Person rel1 rel2 is Target.，其中 rel1 指向中间人，rel2 从中间人指向目标。

4. 训练/评估划分

单跳（反转诅咒测试）：
- 双向家庭（800个）：训练集中所有关系双向出现。
- 单向家庭（200个）：训练集仅包含自上而下的关系（如 father 和 mother 从未出现在单向训练中）。用于测试模型是否能在训练“A是B的父母”后推断“B是A的孩子”。
两跳划分：
- 总计 252,000条链（48种组合类型）。
- 分为：
  - 身份组合（4种，20,000条）：始终仅用于评估。
  - 单向家庭自下而上链（15,200条）：始终仅用于评估。
  - 非身份组合（44种，216,800条）：每条具体链实例随机分配50%至训练或评估。

类别	总链数	训练集	评估集
身份组合	20,000	0	20,000
单向家庭自下而上	15,200	0	15,200
非身份（训练部分）	100,567	100,567	0
非身份（评估部分）	116,233	0	116,233
总计	252,000	100,567	151,433

5. 文件列表

文件	描述	大小
`train.json`	100万个训练示例（1000次遍历 × 1000个家庭）	5.3 GB
`train_graph.json`	原始家庭图结构	3.2 MB
`eval_reverse_bi.json`	双向家庭单跳反转评估（10,000条，训练方向）	1.3 MB
`eval_reverse_uni.json`	单向家庭单跳反转评估（10,000条，未见方向）	1.3 MB
`eval_two_hop.json`	两跳组合推理评估（151,433条，仅保留样本）	22 MB
`tokenizer_split.json`	基于词级分割的分词器（1,027词汇）	10 KB

6. 评估格式

json {"prompt": " Finn Robbins father father is", "answer": ["Eden Robbins"]}

7. 分词器

词级分词，每个人名由两个token（名 + 姓）表示。
Token范围：
- 0: <bos>
- 1: . (句号)
- 2-9: 关系词（husband, wife, father, mother, son, daughter, brother, sister）
- 10: is
- 11-26: 16个性别中立的名字
- 27-1026+: 姓氏

8. 数据生成命令

bash

生成家庭图

python generate_families.py 1000 -l 4 --bi_ratio 0.8 -o data/family_hop/train_graph.json --seed 42

生成文本数据

python generate_text_family.py --data_dir data/family_hop -l 4 --num_runs 1000 --add_is --add_identity --add_two_hop --seed 42

生成分词器

python family_tokenizer.py data/family_hop

搜集汇总

数据集介绍

构建方式

该数据集基于合成方法构建，模拟了包含800个双向关系和200个单向关系的1000个家庭结构，每个家庭由16个成员横跨四代人组成。成员名字从16个性别中性的名字池中选取，姓氏则从1000个无重叠的姓氏池中分配。数据生成过程通过随机漫步策略，在每个家庭中抽取1000条路径，生成了约1百万条训练样本。关系类型包括丈夫、妻子、父亲、母亲、儿子、女儿、兄弟、姐妹等八种，并在此基础上构造了一跳、二跳以及身份关系的事实句子，其中二跳推理通过两个连续的关系跳转形成组合式推理链。

特点

数据集的核心特点在于其专门设计用于研究语言模型中的组合推理与反转诅咒现象。其中单向家庭仅在训练中提供自上而下的关系（如父母指向子女），用于测试模型是否能在未见过的反向关系（如子女指向父母）上正确推理。二跳推理部分包含了48种组合类型，特别设置了恒等组合（如“丈夫妻子”）和单向自下而上链作为仅评估样本，其余非恒等组合则按50/50比例随机分配到训练集和评估集，从而严格检验模型的多跳推理能力。

使用方法

数据集以JSON格式提供，训练文件包含约1百万条样本，评估文件则分别针对一跳反转和二跳推理场景。每个样本以prompt字段提供待补全的句子前缀，answer字段则为标准答案。用户可直接使用预训练语言模型进行文本生成任务，根据prompt预测后续内容。此外，数据集内置了词级分词器，将每个人名映射为两个token（名+姓），关系词和特殊标记也均被编码为固定范围的token，便于直接用于语言模型的训练与评估。

背景与挑战

背景概述

在自然语言处理领域，语言模型在复杂推理任务中常暴露出结构性缺陷，尤其是多跳推理与逆转诅咒现象，即模型难以从正向关系推断反向关系。为系统探究此类问题，family_graph_hop数据集于近年由研究团队构建，基于合成家族关系图谱，包含1000个家庭结构（800个双向关系家庭与200个单向关系家庭），跨越四代共计16000名成员。该数据集的核心研究问题聚焦于评估语言模型在组合性多跳推理中的表现，以及验证逆转诅咒的存在与程度。通过精心设计的单跳与双跳事实句，以及严格的训练-评估划分策略，该数据集为剖析模型推理能力的内在限制提供了标准化的测试基准，对理解与改进语言模型的逻辑一致性具有重要影响力。

当前挑战

该数据集所解决的领域挑战主要体现为语言模型在组合性多跳推理中的结构性盲点，即模型难以将已知关系进行链式组合以推导间接关系，同时逆转诅咒揭示了模型在对称关系推理上的根本性不足。此外，构建过程中面临多重挑战：首先，合成家族关系需保证逻辑自洽性与结构多样性，以避免数据偏差；其次，需设计双向与单向家庭类别以隔离逆转诅咒的测试场景；再者，生成多跳推理链时需确保中间人的唯一性与路径正确性，同时控制身份组合与底向上路径的分布以形成有效的测试集。这些挑战共同考验了数据集构建的精细度与领域适配性。

常用场景

经典使用场景

在自然语言处理的广阔领域中，family_graph_hop数据集以其精巧的合成家族关系图谱，为研究语言模型的多跳推理能力提供了理想的实验场。该数据集通过构建涵盖四代同堂、包含16名成员的千户家族，并系统性地生成单跳与双跳事实陈述，使得研究者能够精确评估模型在跨越关系链进行逻辑推演时的表现。尤为独特的是，其训练与评估划分中嵌入了对'反转诅咒'现象的探测——通过对比双向与单向关系训练下的模型表现，为剖析语言模型在对称关系推理上的根本性缺陷开辟了新的视角。这使得家族关系推理不再局限于简单的常识问答，而是成为检验神经模型符号化推理能力的基准测试。

解决学术问题

该数据集直面语言模型领域两大核心学术挑战：组合式推理与反转诅咒。在组合推理层面，通过精心设计的两跳关系链（如'父亲的父亲'），它系统性地考察模型能否将离散的原子关系按序组合并得出正确结论，从而揭示当前大语言模型在结构化知识整合上的脆弱性。更关键的是，它针对反转诅咒现象——即模型在从句式'A是B的父亲'推理出'B是A的儿子'时表现出的不对称衰减——设计了严格的控制实验，量化了训练方向性对推理能力的深远影响。这一工作不仅验证了反转诅咒的存在性，更通过细粒度的数据划分（如单向家族中底部向上链路的完全留出）为后续理论分析提供了可复用的测试框架，推动了可解释性与鲁棒性研究的前沿。

衍生相关工作

自family_graph_hop数据集发布以来，一批具有影响力的衍生工作如雨后春笋般涌现。研究者利用其精细控制的双跳推理划分，开展了针对大型语言模型（如GPT-4、Llama系列）的对比研究，证实了反转诅咒在不同架构与规模下的普遍存在，并探索了通过数据增强或思维链提示缓解该缺陷的策略。另有工作在此基础上扩展出三跳甚至更高阶的关系链，构建了多跳推理的级联评估体系，深入剖析了错误传递与长程依赖的边界。部分学者将该数据集与符号推理引擎结合，提出了神经符号混合框架，用以弥补纯连接主义模型在逻辑一致性上的不足。此外，围绕其单跳反转测试集，一些工作设计了因果干预实验，定位了模型内部负责关系方向表征的关键注意力头，为可解释AI贡献了宝贵的实证证据。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集