T2S-Bench

github2026-03-05 更新2026-03-06 收录

下载链接：

https://github.com/T2S-Bench/T2S-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

T2S-Bench是一个专门设计用于评估和改进模型文本到结构能力的基准测试。它包含1.8K高质量样本，覆盖6个科学领域、17个子领域和32种不同的结构类型，涵盖了广泛的现实世界语义结构。T2S-Bench包括三个组成部分：T2S-Train-1.2k用于训练，T2S-Bench-MR（500样本）用于多跳推理，T2S-Bench-E2E（87样本）用于端到端结构化。

T2S-Bench is a benchmark specifically designed to evaluate and enhance the text-to-structure capabilities of models. It contains 1.8K high-quality samples, covering 6 scientific domains, 17 sub-domains and 32 distinct structure types, encompassing a wide range of real-world semantic structures. T2S-Bench consists of three components: T2S-Train-1.2k for model training, T2S-Bench-MR (with 500 samples) for multi-hop reasoning, and T2S-Bench-E2E (with 87 samples) for end-to-end structured tasks.

创建时间：

2026-03-05

原始信息汇总

T2S-Bench 数据集概述

数据集简介

T2S-Bench 是一个用于评估模型从科学文本中提取结构化表示能力的综合性基准。它旨在评测大型语言模型从复杂文本中显式构建信息结构（捕获关键实体、关系和高级语义组织）的能力。该基准包含 1.8K 个高质量样本，覆盖 6 个科学领域、17 个子领域和 32 种不同的结构类型。

数据集构成

T2S-Bench 由三个精心策划的子集组成：

子集名称	样本数量	数据集地址	主要目标	设计特点	评估指标
T2S-Train-1.2k	1,200 个样本	https://huggingface.co/datasets/T2SBench/T2S-Train-1.2k	为训练/指令微调提供经过验证的文本-结构对	多跳问答；支持单选和多选	精确匹配 (EM)、F1
T2S-Bench-MR	500 个样本	https://huggingface.co/datasets/T2SBench/T2S-Bench-MR	回答需要基于从文本中提取的隐式/显式结构进行推理的多项选择问题	多跳问答；支持单选和多选	精确匹配 (EM)、F1
T2S-Bench-E2E	87 个样本	https://huggingface.co/datasets/T2SBench/T2S-Bench-E2E	从文本中提取与目标关键结构匹配的节点-链接图	固定关键节点/链接；部分约束生成以减少歧义	节点相似度 (基于SBERT)、链接 F1 (基于连接)

数据质量与来源

所有样本均来自同行评审的学术论文，提供了高质量的、基于结构的样本。
每个样本都经过了 6K+ 模型搜索、6 轮验证和 3 轮人工审核，确保了结构、文本和推理逻辑的正确性。

评估方法

快速评估

提供 evaluate_model.py (用于 MR 子集) 和 evaluate_structure.py (用于 E2E 子集) 脚本，支持通过 API 或本地 Hugging Face 模型进行评估。

通过 lm-evaluation-harness 评估

T2S-Bench 已集成到 EleutherAI 的 lm-evaluation-harness 中，支持使用 lm_eval CLI 对 Hugging Face 模型进行标准化评估。评估任务包括：

t2sbench_multichoice: 针对 MR 子集的多选问答任务。
t2sbench_structure_nodes: 针对 E2E 子集的节点标注阶段。
t2sbench_structure_links: 针对 E2E 子集的链接提取阶段。
t2sbench: 完整的基准测试（包含所有三个任务）。

评估结果格式

评估脚本会输出一个 JSON 文件，包含整体指标（如 EM、F1）、按主要类别和问题类型的细分指标，以及所有样本的详细预测结果。对于 E2E 结构评估，输出还会包含每个样本的 node_similarity 和 link_f1 字段。

引用信息

如果 T2S-Bench 对您的研究和应用有帮助，请引用以下论文： bibtex @misc{wang2026t2sbenchstructureofthoughtbenchmarking, title={T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning}, author={Qinsi Wang and Hancheng Ye and Jinhee Kim and Jinghan Ke and Yifei Wang and Martin Kuo and Zishan Shao and Dongting Li and Yueqian Lin and Ting Jiang and Chiyue Wei and Qi Qian and Wei Wen and Helen Li and Yiran Chen}, year={2026}, eprint={2603.03790}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2603.03790}, }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，评估大语言模型从复杂文本中提取结构化信息的能力一直是一项挑战。T2S-Bench的构建过程体现了严谨的科学方法，其样本均源自经过同行评审的学术论文，确保了文本的权威性与专业性。数据集涵盖六个科学领域、十七个子领域及三十二种结构类型，通过超过六千次模型搜索、六轮验证与三轮人工审核，对每个样本的结构、文本与推理逻辑进行了严格校正，从而形成了包含一千八百个高质量样本的基准。

特点

T2S-Bench的显著特点在于其全面性与精细化的任务设计。数据集不仅包含用于训练的一千两百个已验证文本-结构对，还专门设置了包含五百个样本的多跳推理基准与八十七个样本的端到端结构抽取基准。这种划分使得评估能够覆盖从多选问答到图结构生成的不同复杂度任务。数据集引入了多样化的评估指标，如精确匹配、F1分数、基于SBERT的节点相似度与连接性链接F1，为模型能力提供了多维度、细粒度的衡量标准。

使用方法

使用T2S-Bench进行评估具有高度的灵活性与标准化。研究人员可通过Hugging Face直接加载数据集，或利用提供的脚本通过API或本地模型进行评测。数据集已集成至lm-evaluation-harness框架，支持通过统一命令行接口对模型进行标准化测试。评估过程会生成详细的JSON结果文件，其中包含整体指标、按领域与问题类型的细分数据以及每个样本的预测与对比信息，为深入分析模型在文本到结构推理任务上的表现提供了坚实基础。

背景与挑战

背景概述

在自然语言处理领域，大型语言模型已在多种语言理解与推理任务中展现出卓越能力，然而模型从复杂文本中显式构建信息结构——即捕捉关键实体、关系及高阶语义组织的能力——仍缺乏深入理解与系统评估。为填补这一空白，研究团队于2026年推出了T2S-Bench基准数据集，该数据集由1.8K高质量样本构成，覆盖6个科学领域、17个子领域及32种结构类型，旨在系统评估与提升模型的文本到结构推理能力。通过从同行评审学术论文中抽取并经过多轮验证的文本-结构对，T2S-Bench为模型训练与评估提供了严谨的结构化基础，推动了语义结构化表示研究的发展。

当前挑战

T2S-Bench所针对的核心领域挑战在于模型从科学文本中提取精确结构化信息的能力，这要求超越流畅文本生成，实现多跳推理与端到端结构构建，现有模型在此类任务中常面临语义歧义与逻辑连贯性不足的困难。在数据集构建过程中，挑战主要体现在确保样本的结构正确性、文本质量与推理逻辑的严谨性，研究团队通过超过6000次模型搜索、六轮自动验证及三轮人工审核以应对这些挑战，同时还需处理科学文本的领域多样性及结构类型的复杂性，以构建具有高信度与广泛覆盖度的评估基准。

常用场景

经典使用场景

在自然语言处理领域，评估大型语言模型从复杂科学文本中提取结构化信息的能力一直是研究难点。T2S-Bench作为首个专注于文本到结构推理的基准测试，其经典使用场景在于系统性地评测模型在跨学科科学文献中进行多跳推理与端到端结构构建的性能。该数据集覆盖六个科学领域、十七个子领域及三十二种结构类型，通过精心设计的任务要求模型将非结构化文本转化为明确的语义图式，从而深入检验模型对实体、关系及高阶语义组织的显式建模能力。

解决学术问题

该数据集有效解决了当前大语言模型评估中缺乏对结构化信息提取能力进行系统量化的问题。传统基准多侧重于文本生成流畅性或简单问答，而T2S-Bench通过引入多跳推理与图结构生成任务，填补了模型在科学文献深度理解与结构化表征方面的评估空白。其意义在于为学术界提供了可重复、可比较的评估框架，推动模型从表层语言模仿向深层语义结构解析的范式转变，对提升模型在知识密集型应用中的可靠性具有重要影响。

衍生相关工作

围绕T2S-Bench衍生的经典工作主要集中于结构化推理范式的创新与模型能力诊断。研究者基于其多跳推理子集开发了链式结构推理提示技术，提升了模型对隐含语义关系的追溯能力；同时，端到端结构生成任务催生了新型图结构解码器的设计，促进了文本与图神经网络的高效融合。这些工作不仅拓展了结构化推理的技术边界，也为后续面向复杂领域的基准构建提供了方法论参考，形成了以结构化为核心的评估与研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集