T2S-Bench
收藏T2S-Bench 数据集概述
数据集简介
T2S-Bench 是一个用于评估模型从科学文本中提取结构化表示能力的综合性基准。它旨在评测大型语言模型从复杂文本中显式构建信息结构(捕获关键实体、关系和高级语义组织)的能力。该基准包含 1.8K 个高质量样本,覆盖 6 个科学领域、17 个子领域和 32 种不同的结构类型。
数据集构成
T2S-Bench 由三个精心策划的子集组成:
| 子集名称 | 样本数量 | 数据集地址 | 主要目标 | 设计特点 | 评估指标 |
|---|---|---|---|---|---|
| T2S-Train-1.2k | 1,200 个样本 | https://huggingface.co/datasets/T2SBench/T2S-Train-1.2k | 为训练/指令微调提供经过验证的文本-结构对 | 多跳问答;支持单选和多选 | 精确匹配 (EM)、F1 |
| T2S-Bench-MR | 500 个样本 | https://huggingface.co/datasets/T2SBench/T2S-Bench-MR | 回答需要基于从文本中提取的隐式/显式结构进行推理的多项选择问题 | 多跳问答;支持单选和多选 | 精确匹配 (EM)、F1 |
| T2S-Bench-E2E | 87 个样本 | https://huggingface.co/datasets/T2SBench/T2S-Bench-E2E | 从文本中提取与目标关键结构匹配的节点-链接图 | 固定关键节点/链接;部分约束生成以减少歧义 | 节点相似度 (基于SBERT)、链接 F1 (基于连接) |
数据质量与来源
- 所有样本均来自同行评审的学术论文,提供了高质量的、基于结构的样本。
- 每个样本都经过了 6K+ 模型搜索、6 轮验证和 3 轮人工审核,确保了结构、文本和推理逻辑的正确性。
评估方法
快速评估
提供 evaluate_model.py (用于 MR 子集) 和 evaluate_structure.py (用于 E2E 子集) 脚本,支持通过 API 或本地 Hugging Face 模型进行评估。
通过 lm-evaluation-harness 评估
T2S-Bench 已集成到 EleutherAI 的 lm-evaluation-harness 中,支持使用 lm_eval CLI 对 Hugging Face 模型进行标准化评估。评估任务包括:
t2sbench_multichoice: 针对 MR 子集的多选问答任务。t2sbench_structure_nodes: 针对 E2E 子集的节点标注阶段。t2sbench_structure_links: 针对 E2E 子集的链接提取阶段。t2sbench: 完整的基准测试(包含所有三个任务)。
评估结果格式
评估脚本会输出一个 JSON 文件,包含整体指标(如 EM、F1)、按主要类别和问题类型的细分指标,以及所有样本的详细预测结果。对于 E2E 结构评估,输出还会包含每个样本的 node_similarity 和 link_f1 字段。
引用信息
如果 T2S-Bench 对您的研究和应用有帮助,请引用以下论文: bibtex @misc{wang2026t2sbenchstructureofthoughtbenchmarking, title={T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning}, author={Qinsi Wang and Hancheng Ye and Jinhee Kim and Jinghan Ke and Yifei Wang and Martin Kuo and Zishan Shao and Dongting Li and Yueqian Lin and Ting Jiang and Chiyue Wei and Qi Qian and Wei Wen and Helen Li and Yiran Chen}, year={2026}, eprint={2603.03790}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2603.03790}, }




