S2abEL
收藏arXiv2023-04-30 更新2024-06-21 收录
下载链接:
https://github.com/allenai/S2abEL/blob/main/data/release_data.tar.gz
下载链接
链接失效反馈官方服务:
资源简介:
S2abEL是由密歇根大学和艾伦人工智能研究所创建的,专注于科学表格中的实体链接任务的数据集。该数据集包含8,429个来自732个机器学习结果表格的单元格,每个单元格都经过人工标注,包括单元格类型、归属来源和实体链接。S2abEL旨在解决科学领域中实体链接的挑战,特别是在知识库不完整和需要理解论文文本以进行实体消歧的情况下。该数据集的应用领域包括增强阅读应用和自动化知识库构建,以支持复杂的问答或假设生成。
S2abEL is a dataset dedicated to entity linking tasks in scientific tables, developed jointly by the University of Michigan and the Allen Institute for AI. It comprises 8,429 cells extracted from 732 machine learning result tables, with each cell manually annotated with three pieces of information: cell type, attribution source, and entity link. S2abEL aims to address the challenges of entity linking in the scientific domain, particularly in scenarios where knowledge bases are incomplete and entity disambiguation requires understanding of research paper texts. Its application scenarios include enhanced reading applications and automated knowledge base construction, to support complex question answering or hypothesis generation.
提供机构:
密歇根大学, 艾伦人工智能研究所
创建时间:
2023-04-30
搜集汇总
数据集介绍

构建方式
在科学信息抽取领域,构建高质量数据集是推动实体链接技术发展的关键。S2abEL数据集的构建过程体现了严谨的学术规范与创新性设计。研究团队以机器学习领域的结果表格为对象,从SegmentedTables资源中筛选出初始表格与单元格类型标注,并利用T5-small模型自动化提取参考文献信息,进而通过Semantic Scholar获取论文摘要以丰富上下文。标注工作由具备数据科学背景的专业人员完成,他们借助特制的Flask网络界面,在详细标注指南的指导下,对8,429个单元格进行了手工标注,涵盖了单元格类型分类、归属源匹配及实体链接等任务。为确保标注质量,研究实施了多轮训练与评估,最终通过科恩卡帕系数验证了标注者间的一致性,从而确保了数据集的可靠性与权威性。
特点
S2abEL数据集在科学表格实体链接领域展现出独特而鲜明的特征。其核心在于专注于机器学习结果表格,并链接至Papers with Code知识库,这为研究科学领域的长尾实体与不完整知识库问题提供了宝贵资源。该数据集包含了大量知识库外实体提及,比例高达42.8%,这显著区别于传统以知识库内实体为主的实体链接数据集,对模型的泛化与推理能力提出了更高要求。此外,数据集不仅提供了单元格的实体链接标注,还包含了手工标注的单元格类型与归属源信息,形成了多层次、结构化的标注体系。这种设计使得S2abEL能够支持从单元格类型分类到端到端实体链接的完整任务流程,为模型开发与评估提供了全面而细致的基准。
使用方法
S2abEL数据集为评估与推进科学表格实体链接方法提供了系统性的框架。研究者可利用该数据集训练与测试模型在多个子任务上的性能,包括单元格类型分类、归属源匹配、候选实体检索以及包含知识库外实体识别的实体消歧。数据集采用跨领域评估设置,确保训练、验证与测试数据来自不同的论文主题,这有效检验了模型在未见主题上的泛化能力。具体而言,模型可首先利用单元格内容、表格结构及从全文检索的上下文句子进行单元格类型分类,随后结合归属源信息与密集检索策略生成候选实体,最终通过交叉编码器架构完成实体消歧与知识库外提及的判断。这种分解式任务定义与丰富的数据标注为深入分析模型瓶颈、探索更先进的科学信息抽取方法奠定了坚实基础。
背景与挑战
背景概述
在自然语言处理领域,实体链接任务旨在将文本提及与知识库中的对应条目进行关联,是构建知识密集型应用的基础。随着科学文献的快速增长,科学表格中的实体链接成为推动大规模科学知识库构建的关键步骤,进而支持高级科学问答与分析。S2abEL数据集由密歇根大学与艾伦人工智能研究所的研究团队于2023年创建,专注于机器学习结果表格中的实体链接,包含来自732个表格的8,429个单元格的手工标注,链接至PaperswithCode知识库。该数据集的推出填补了科学表格实体链接领域的空白,为科学信息提取与知识发现提供了重要资源。
当前挑战
S2abEL数据集所解决的领域问题聚焦于科学表格中的实体链接,其核心挑战在于科学知识库往往高度不完整,导致大量提及无法在知识库中找到对应实体,即存在大量知识库外提及。此外,科学表格中的提及常以缩写或模糊形式出现,需结合论文全文语境进行消歧,这对模型的上下文理解能力提出了更高要求。在构建过程中,标注工作面临显著挑战,包括需要标注者具备领域专业知识以区分罕见提及与知识库外实体,以及设计高效标注流程以平衡标注成本与质量,例如通过结合自动候选生成与人工验证来确保标注的准确性与一致性。
常用场景
经典使用场景
在科学文献信息抽取领域,S2abEL数据集为机器学习结果表格中的实体链接任务提供了首个专门基准。该数据集聚焦于从学术论文表格中识别并链接方法、数据集和度量等实体至Papers withCode知识库,其经典应用场景包括训练和评估能够理解表格上下文、处理知识库外实体的神经网络模型。通过提供丰富的标注信息,如单元格类型、归属来源和实体链接,该数据集支持模型在跨领域设置下进行细粒度性能验证,为科学知识库的自动化构建奠定基础。
解决学术问题
S2abEL数据集针对科学表格实体链接中的核心挑战,系统性地解决了知识库不完整导致的实体缺失问题。传统实体链接方法通常假设所有提及均能在知识库中找到对应实体,然而在快速演进的科学领域,这一封闭世界假设并不成立。该数据集通过标注大量知识库外提及,推动了开放世界实体链接研究的发展,使模型能够区分罕见实体与全新概念。此外,数据集引入的归属来源匹配任务,有助于消解科学表格中常见的缩写和模糊表述,提升了实体消歧的准确性。
衍生相关工作
S2abEL数据集的发布催生了一系列针对科学表格理解的相关研究。其基线方法融合了密集检索与归属来源检索策略,为后续工作提供了可借鉴的架构。该数据集亦启发了对通用表格实体链接方法(如TURL)在科学领域适应性的深入评估,揭示了结合文档上下文对于处理科学表格的重要性。进一步地,围绕知识库外实体识别、跨模态表格理解以及低资源科学领域实体链接等方向,衍生出多篇改进模型与扩展数据集的研究,持续推动着科学信息抽取技术的发展。
以上内容由遇见数据集搜集并总结生成



