tutorqa
收藏Hugging Face2025-04-27 更新2025-04-28 收录
下载链接:
https://huggingface.co/datasets/li-lab/tutorqa
下载链接
链接失效反馈官方服务:
资源简介:
TutorQA Benchmark数据集是用于评估推理、图理解和语言生成不同方面的6个任务的集合。每个任务都是一个独立的数据分割,包括关系判断、先决条件预测、路径搜索、子图补全、聚类和想法仓鼠(开放性问题,没有答案)。每个任务都包含问题和答案字段,除了想法仓鼠任务只有问题字段。
The TutorQA Benchmark is a collection of 6 tasks aimed at evaluating different dimensions of reasoning, graph understanding, and language generation. Each task forms an independent data split, covering relational judgment, prerequisite prediction, pathfinding, subgraph completion, clustering, and Thought Hamster (an open-ended question task with no answer provided). All tasks include both question and answer fields, with the sole exception of the Thought Hamster task, which only contains the question field.
提供机构:
LiLab
创建时间:
2025-04-27
原始信息汇总
TutorQA 数据集概述
基本信息
- 许可证: MIT
- 下载大小: 55,342 字节
- 数据集大小: 406,643 字节
数据集结构
- 特征:
question: 字符串类型answer: 字符串类型(task6除外)
- 任务划分:
task1: 250个样本,100,788字节task2: 250个样本,42,363字节task3: 250个样本,67,642字节task4: 250个样本,146,014字节task5: 100个样本,22,327字节task6: 100个样本,27,509字节
任务描述
- task1: Relation Judgment
- task2: Prerequisite Prediction
- task3: Path Searching
- task4: Subgraph Completion
- task5: Clustering
- task6: Idea Hamster(无答案,开放式问题)
使用示例
python from datasets import load_dataset
dataset = load_dataset("li-lab/tutorqa")
访问单个任务
task1 = dataset["task1"] task6 = dataset["task6"]
引用信息
bibtex @inproceedings{yang2025graphusion, title={Graphusion: A RAG Framework for Knowledge Graph Construction with a Global Perspective}, author={Yang, Rui and Yang, Boming and Feng, Aosong and Ouyang, Sixun and Blum, Moritz and She, Tianwei and Jiang, Yuang and Lecue, Freddy and Lu, Jinghui and Li, Irene}, booktitle={Proceedings of the NLP4KGC Workshop at The Web Conference 2025 (WWW25)}, year={2025}, url={https://arxiv.org/abs/2410.17600} }
相关资源
搜集汇总
数据集介绍

构建方式
TutorQA数据集作为自然语言处理教育领域的专业评估基准,其构建过程体现了严谨的学术方法论。该数据集基于科学知识图谱融合理论,通过六项精心设计的任务模块系统化构建,包括关系判断、先决条件预测等核心维度。研究人员采用结构化数据采集策略,每个任务模块独立编码为特定分割,确保数据分布的清晰边界与任务特异性。原始数据经过多轮专家校验与清洗,最终形成包含1200个样本的标准化语料库,其中前五个任务均包含标准答案,第六项任务则为开放式问题设计。
特点
该数据集最显著的特征在于其多维度评估框架的设计理念。六个任务模块分别针对知识图谱的不同认知层次,从基础的关系识别到复杂的子图补全,形成渐进式的能力评估体系。数据字段设计简洁高效,采用统一的问答对结构(task1-5)或独立问题字段(task6),既保证了数据格式的规范性,又兼顾了不同任务类型的特殊需求。各任务样本量经过科学配比,核心认知任务(task1-4)保持250个样本的均衡分布,而高阶思维任务(task5-6)则配置100个样本,体现研究者在认知负荷与评估效度间的精准平衡。
使用方法
该数据集的使用遵循现代机器学习研究的标准化流程。通过HuggingFace数据集库的load_dataset函数可直接加载,其模块化设计允许研究者灵活调用特定任务分区进行分析。典型应用场景包括:加载完整数据集进行端到端模型训练,或选择特定任务子集开展专项能力评估。对于task6这类开放式任务,研究者可结合生成式模型进行创造性思维测评。数据字段的规范化命名确保与主流NLP工具链的无缝对接,question-answer的键值对结构可直接应用于监督学习框架。值得注意的是,该数据集特别适合作为检索增强生成(RAG)系统的评估基准,其知识图谱背景为模型的知识融合能力测试提供了理想场景。
背景与挑战
背景概述
TutorQA数据集作为自然语言处理教育领域的重要基准,由Yang等人于2025年在《Graphusion: A RAG Framework for Knowledge Graph Construction with a Global Perspective》一文中首次提出。该数据集依托于大型语言模型在科学知识图谱融合与构建中的应用研究,旨在推动NLP教育中推理能力、图结构理解及语言生成等多维度任务的评估。其六个精心设计的子任务涵盖了关系判断、先决条件预测、路径搜索等核心问题,为教育知识图谱的自动化构建提供了标准化测试平台。数据集由国际研究团队联合发布,相关成果发表于WWW'25会议的NLP4KGC研讨会,标志着教育技术与知识图谱交叉研究的重要进展。
当前挑战
该数据集面临的挑战主要体现在两个维度:在领域问题层面,如何准确建模教育知识图谱中复杂的多跳推理关系成为关键难点,特别是任务4的子图补全需要处理非结构化教学概念的高维关联;任务6的开放式问答设计对生成模型的教育领域知识深度提出了更高要求。在构建过程中,研究团队需克服教育领域标注数据稀缺的困境,通过专家标注与自动生成相结合的方式确保六个子任务间的难度平衡,同时维持知识图谱结构的逻辑一致性。不同任务间答案格式的异构性(如结构化答案与开放文本)也为评估体系的统一设计带来显著挑战。
常用场景
经典使用场景
在自然语言处理教育领域,TutorQA数据集被广泛用于评估模型在知识图谱融合与构建任务中的表现。该数据集通过六个精心设计的任务,如关系判断、先决条件预测和路径搜索等,为研究者提供了一个标准化的测试平台,用以衡量模型在复杂推理和图结构理解方面的能力。
实际应用
该数据集在实际应用中展现出重要价值,特别是在智能教育系统的开发中。通过利用TutorQA的任务模块,教育科技公司能够训练出更精准的课程推荐引擎,自动化生成个性化的学习路径,并为在线教育平台提供基于知识图谱的智能问答服务。
衍生相关工作
围绕TutorQA数据集已衍生出多项经典研究,包括基于图神经网络的答案生成模型、多模态知识图谱融合框架,以及面向教育领域的检索增强生成系统。这些工作不仅扩展了原始数据集的应用边界,还为NLP教育技术的创新提供了理论支撑和方法论指导。
以上内容由遇见数据集搜集并总结生成



