SemTabNet

Hugging Face2024-06-27 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/ds4sd/SemTabNet

下载链接

链接失效反馈

官方服务：

资源简介：

SemTabNet是一个用于特征提取、表格问答和文本到文本生成任务的数据集，大小在10万到100万之间，主要语言为英语。该数据集与一篇关于使用大型语言模型从表格中提取ESG KPIs的论文相关，提出了一种新的知识模型STATEMENTS，用于从表格或文本中提取量化信息。数据集支持三种任务，每个任务的数据被分为训练、验证和测试集，且所有文本内容均为英语。

创建时间：

2024-06-27

原始信息汇总

数据集概述

基本信息

名称: SemTabNet
许可: MIT
任务类别:
- 特征提取
- 表格问答
- 文本生成
大小类别: 100K<n<1M
语言: 英语
标签:
- 信息提取
- 表格理解
- 气候
- ESG

数据集描述

该数据集伴随以下论文发布：

标题: Statements: Universal Information Extraction from Tables with Large Language Models for ESG KPIs
作者: Lokesh Mishra, Sohayl Dhibi, Yusik Kim, Cesar Berrospi Ramis, Shubham Gupta, Michele Dolfi, Peter Staar
会议: 被NLP4Climate workshop接受，在第62届计算语言学协会年会（ACL 2024）上发表

论文提出了一种新的知识模型STATEMENTS，用于以领域无关、统一结构存储定量信息。将原始输入（表格或文本）转换为STATEMENTS的任务称为Statement Extraction（SE），属于通用信息提取类别。

数据分割

数据集支持三个任务，每个任务的数据分为训练集、验证集和测试集。此外，还提供了用于构建所有其他数据的原始表格的原始注释。

任务	训练集	测试集	验证集
SE Direct	103455	11682	5445
SE Indirect 1D	72580	8489	3821
SE Indirect 2D	93153	22839	4903

语言

数据集中的文本为英语。

引用信息

Arxiv: https://arxiv.org/abs/2406.19102

搜集汇总

数据集介绍

构建方式

SemTabNet数据集的构建基于一种名为STATEMENTS的知识模型，该模型旨在以领域无关的统一结构存储定量信息。数据集通过从原始表格或文本中提取信息，形成Statement Extraction（SE）任务。数据集的构建过程包括从多个来源收集原始表格数据，并通过人工或自动化工具进行标注，最终生成训练、验证和测试集。数据集的构建策略在相关论文中有详细描述，确保了数据的多样性和代表性。

特点

SemTabNet数据集的特点在于其专注于表格信息的通用提取任务，涵盖了直接和间接的Statement Extraction任务。数据集包含超过10万条训练样本，涵盖了气候和环境、社会和治理（ESG）等领域的表格数据。其文本内容均为英文，且数据集的标注策略确保了信息的准确性和一致性。此外，数据集还提供了原始表格的注释，便于用户深入理解数据的来源和结构。

使用方法

SemTabNet数据集的使用方法主要围绕其支持的三个任务展开：SE Direct、SE Indirect 1D和SE Indirect 2D。用户可以通过加载训练、验证和测试集进行模型训练和评估。数据集适用于特征提取、表格问答和文本生成等任务，尤其适合用于研究表格信息的通用提取方法。用户可通过提供的代码库和论文进一步了解数据集的详细使用方法，并结合大型语言模型进行实验和研究。

背景与挑战

背景概述

SemTabNet数据集由IBM Research DeepSearch团队于2024年提出，旨在解决从表格中提取通用信息的挑战，特别是在环境、社会和治理（ESG）关键绩效指标（KPIs）领域。该数据集伴随论文《Statements: Universal Information Extraction from Tables with Large Language Models for ESG KPIs》发布，并在第62届计算语言学协会年会（ACL 2024）的NLP4Climate研讨会上被接受。SemTabNet的核心研究问题是通过大语言模型将原始表格或文本转换为统一的量化信息结构，即Statement Extraction（SE）。这一任务属于通用信息提取的范畴，为ESG领域的数据分析提供了新的工具和方法。

当前挑战

SemTabNet面临的挑战主要集中在两个方面。首先，在领域问题方面，表格数据的多样性和复杂性使得通用信息提取变得尤为困难。表格可能包含不同结构、格式和语义信息，如何准确提取并统一表示这些信息是一个重大挑战。其次，在数据集构建过程中，如何确保标注的准确性和一致性也是一个关键问题。由于表格数据的复杂性，标注过程需要高度精确的规则和人工干预，以确保生成的数据集能够有效支持模型训练和评估。此外，如何在大规模数据上保持高效的处理和存储，也是构建过程中需要克服的技术难题。

常用场景

经典使用场景

SemTabNet数据集在表格理解和信息提取领域具有广泛的应用，特别是在处理与环境、社会和治理（ESG）相关的关键绩效指标（KPIs）时。该数据集通过提供结构化的表格数据，支持从复杂表格中提取定量信息，并将其转换为统一的陈述格式。这一过程不仅适用于学术研究，还为实际应用中的自动化信息提取提供了基础。

解决学术问题

SemTabNet数据集解决了从非结构化或半结构化表格中提取信息的难题，尤其是在跨领域、跨语言的通用信息提取任务中。通过引入Statement Extraction（SE）任务，该数据集为研究人员提供了一个标准化的框架，用于评估和开发新的信息提取模型。这一创新不仅推动了表格理解领域的发展，还为大规模语言模型在信息提取中的应用提供了新的研究方向。

衍生相关工作

基于SemTabNet数据集，研究人员开发了多种先进的表格信息提取模型，特别是在结合大规模语言模型的应用中取得了显著进展。例如，相关工作探索了如何利用预训练语言模型提升Statement Extraction任务的性能，并提出了新的评估指标和方法。这些研究不仅扩展了SemTabNet的应用范围，还为表格理解领域的未来发展提供了重要的理论和技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集