SynthWorlds

Hugging Face2025-10-27 更新2025-10-28 收录

下载链接：

https://huggingface.co/datasets/kenqgu/SynthWorlds

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个配置，主要用于问答(QA)和维基导航任务。问答部分包括问题、答案、文档和事实等，而维基导航任务涉及页面链接和路径信息。数据集分为训练和测试集，每个配置都有不同的测试数据集，以及相关的文档和事实数据。

创建时间：

2025-10-27

原始信息汇总

SynthWorlds 数据集概述

数据集基本信息

数据集地址：https://huggingface.co/datasets/kenqgu/SynthWorlds
配置数量：10个独立配置
数据格式：结构化文本数据

配置详情

问答任务配置

问答检索模型配置

配置名称：qa-rm
特征字段：
- instance_id：字符串类型
- query：字符串类型
- gold_answers：字符串列表
- gold_docs：字符串列表
- question_graph_type：字符串类型
- expected_output_is_time：布尔类型
- gold_qids：字符串列表
- mhop_qa：字符串类型
数据统计：
- 测试集样本数：1200
- 下载大小：3773802字节
- 数据集大小：9011888字节

问答检索文档配置

配置名称：qa-rm-docs
特征字段：
- qid：字符串类型
- doc：字符串类型
数据统计：
- 测试集样本数：6290
- 下载大小：3380443字节
- 数据集大小：7040134字节

问答检索事实配置

配置名称：qa-rm-facts
特征字段：
- qid：字符串类型
- facts：字符串列表
数据统计：
- 测试集样本数：6290
- 下载大小：4184545字节
- 数据集大小：13648431字节

问答语义模型配置

配置名称：qa-sm
特征字段：与qa-rm配置相同
数据统计：
- 测试集样本数：1200
- 下载大小：3299617字节
- 数据集大小：8550454字节

问答语义文档配置

配置名称：qa-sm-docs
特征字段：与qa-rm-docs配置相同
数据统计：
- 测试集样本数：6290
- 下载大小：3232565字节
- 数据集大小：6331976字节

问答语义事实配置

配置名称：qa-sm-facts
特征字段：与qa-rm-facts配置相同
数据统计：
- 测试集样本数：6290
- 下载大小：4184545字节
- 数据集大小：13648431字节

维基导航任务配置

维基导航检索模型配置

配置名称：wikinav-rm
特征字段：
- instance_id：字符串类型
- start_page：结构体类型
  - orig_page_link_id：字符串类型
  - page_content_with_links：字符串类型
  - page_id_to_qid_map：字符串列表的列表
  - page_link_id：字符串类型
  - page_title：字符串类型
  - qid：字符串类型
- end_page：结构体类型（与start_page结构相同）
- shortest_path_length：整型
- paths：字符串列表的列表
- paths_page_links：字符串列表的列表
- random_walk_distance：浮点型
- bucket：字符串类型
数据统计：
- 测试集样本数：1000
- 下载大小：1704439字节
- 数据集大小：4580599字节

维基导航检索页面配置

配置名称：wikinav-rm-pages
特征字段：
- qid：字符串类型
- page_title：字符串类型
- page_link_id：字符串类型
- orig_page_link_id：字符串类型
- page_content_with_links：字符串类型
- page_id_to_qid_map：字符串类型
数据统计：
- 测试集样本数：6290
- 下载大小：6089909字节
- 数据集大小：13475687字节

维基导航语义模型配置

配置名称：wikinav-sm
特征字段：与wikinav-rm配置相同
数据统计：
- 测试集样本数：1000
- 下载大小：1603185字节
- 数据集大小：3917332字节

维基导航语义页面配置

配置名称：wikinav-sm-pages
特征字段：与wikinav-rm-pages配置相同
数据统计：
- 测试集样本数：6290
- 下载大小：5660592字节
- 数据集大小：11611752字节

数据分割

所有配置仅包含测试集分割
样本总数范围：1000-6290个样本
数据集大小范围：3917332-13648431字节

搜集汇总

数据集介绍

构建方式

在知识图谱与自然语言处理交叉领域，SynthWorlds数据集通过结构化配置构建了多维评估体系。该数据集采用模块化设计原则，分别构建了问答系统（qa-rm/qa-sm）和维基导航（wikinav-rm/wikinav-sm）两大核心模块，每个模块均配备对应的文档库与事实库作为支撑。构建过程中精心设计了1200个测试样本的问答对和1000个导航路径实例，通过实体链接与图结构映射技术，将文本内容与知识图谱中的QID标识建立精确对应关系，形成了包含6290个文档节点的完整知识网络。

特点

该数据集最显著的特征体现在其双重评估维度的设计理念。问答模块通过gold_answers和gold_docs的并行标注，支持多跳推理与事实验证的双重评估；导航模块则通过start_page与end_page的拓扑结构，结合shortest_path_length和random_walk_distance等量化指标，完整刻画知识图谱中的语义路径关系。数据集采用统一的知识标识体系，所有实体均通过QID实现跨模块关联，同时具备question_graph_type分类与expected_output_is_time等细粒度标注，为复杂推理任务提供了丰富的元数据支持。

使用方法

研究人员可通过配置名称定向调用特定模块，如qa-rm用于检索增强型问答评估，wikinav-sm则专注于语义匹配导航任务。每个配置均提供标准化的特征字段，实例ID确保数据溯源性，而gold_qids与page_id_to_qid_map则维持了知识实体的一致性映射。使用时应根据实验需求选择对应配置，问答任务可结合facts库进行多跳推理验证，导航任务则利用paths和paths_page_links分析知识图谱的连通性。数据集采用分片存储格式，通过HuggingFace标准接口即可实现高效加载与批处理。

背景与挑战

背景概述

SynthWorlds数据集作为知识图谱与问答系统交叉领域的重要资源，其设计理念源于对多跳推理能力的深度探索。该数据集通过构建复杂的问答任务和维基百科导航路径，旨在模拟人类在知识网络中进行多步推理的认知过程。数据集采用结构化知识表示方法，将实体关系与文本内容有机结合，为研究社区提供了评估模型推理能力的标准化基准。其独特的图结构设计不仅反映了真实世界知识的关联特性，更为理解智能体在语义空间中的导航机制提供了实验基础。

当前挑战

在领域问题层面，SynthWorlds直面多跳问答中语义理解与逻辑推理的耦合难题，要求模型同时具备精准的实体链接能力和复杂的路径推理技能。构建过程中面临的核心挑战包括知识图谱的语义一致性维护，需确保数千个实体关系的逻辑自洽；多模态数据融合的技术瓶颈，要求将结构化知识与非结构化文本无缝对接；以及评估指标的设计困境，需要建立能够准确衡量多步推理质量的量化体系。这些挑战共同构成了该数据集在推动认知智能发展道路上的关键障碍。

常用场景

经典使用场景

在自然语言处理领域，SynthWorlds数据集通过其多跳问答和导航任务配置，为复杂推理研究提供了结构化测试平台。该数据集模拟了知识图谱中的多步推理过程，要求模型从相互关联的文档中提取信息，以回答需要多步逻辑推导的问题。这种设计使得它成为评估模型在复杂语境下理解能力和推理链条构建的理想工具，尤其适用于测试模型对长文本和结构化知识的处理效能。

解决学术问题

该数据集有效应对了多跳推理中信息碎片化与语义关联断裂的学术挑战。通过提供带链接的文档内容和路径导航任务，它解决了传统问答系统难以处理隐含逻辑关系的问题。其意义在于建立了可量化的多步推理评估标准，推动了神经网络在语义理解、知识关联和逻辑推导等核心能力上的突破，为构建更智能的问答系统奠定了实证基础。

衍生相关工作

该数据集催生了系列重要研究，包括基于图神经网络的多跳推理模型和动态记忆增强架构。这些工作通过引入注意力机制与路径评分算法，显著提升了模型在复杂问答任务中的表现。后续研究进一步结合强化学习策略，开发出能自主探索知识路径的智能体，为构建具备持续学习能力的对话系统开辟了新方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集