finreg_esma_code

Hugging Face2025-06-06 更新2025-06-07 收录

下载链接：

https://huggingface.co/datasets/Tonic/finreg_esma_code

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三种配置：分块（chunked）、已摄入（ingested）和摘要化（summarized）。每种配置都包括文档的ID、文本、文件名、文件大小等元数据，以及文档的原始摘要、摘要和文档摘要等信息。数据集被划分为训练集，每种配置的训练集大小和下载大小不同。

This dataset comprises three configurations: chunked, ingested, and summarized. Each configuration includes metadata such as document ID, text, filename, file size and other related attributes, alongside information including the document's original abstract, summary and document-level summary. The dataset is divided into training sets, where the training set size and download size vary across each configuration.

创建时间：

2025-06-06

原始信息汇总

数据集概述

基本信息

数据集名称: finreg_esma_code
托管平台: Hugging Face
数据集地址: https://huggingface.co/datasets/Tonic/finreg_esma_code

数据集配置

数据集包含三种配置：

1. chunked

特征:
- document_id (string)
- document_text (string)
- document_filename (string)
- document_metadata (struct: file_size (int64))
- raw_chunk_summaries (sequence: string)
- chunk_summaries (sequence: string)
- raw_document_summary (string)
- document_summary (string)
- summarization_model (string)
- chunks (list: chunk_id (string), chunk_text (string))
- multihop_chunks (list: chunk_ids (sequence: string), chunks_text (sequence: string))
数据分割:
- train (样本数: 1, 大小: 3,149,201 字节)
下载大小: 1,012,456 字节
数据集大小: 3,149,201 字节

2. ingested

特征:
- document_id (string)
- document_text (string)
- document_filename (string)
- document_metadata (struct: file_size (int64))
数据分割:
- train (样本数: 1, 大小: 1,166,413 字节)
下载大小: 354,051 字节
数据集大小: 1,166,413 字节

3. summarized

特征:
- document_id (string)
- document_text (string)
- document_filename (string)
- document_metadata (struct: file_size (int64))
- raw_chunk_summaries (sequence: string)
- chunk_summaries (sequence: string)
- raw_document_summary (string)
- document_summary (string)
- summarization_model (string)
数据分割:
- train (样本数: 1, 大小: 1,214,446 字节)
下载大小: 410,859 字节
数据集大小: 1,214,446 字节

数据文件路径

chunked: chunked/train-*
ingested: ingested/train-*
summarized: summarized/train-*

搜集汇总

数据集介绍

构建方式

在金融监管领域，finreg_esma_code数据集通过多阶段处理流程构建而成。原始文档经过标准化解析后形成ingested配置，保留文档ID、文本内容及元数据等核心要素。进阶处理阶段采用分块策略生成chunked配置，将文档分解为语义单元并附加多跳关联块，同时集成自动摘要模型产出的分块级和文档级摘要。summarized配置则专注于摘要信息的存储，完整保留了不同颗粒度的摘要文本及所用模型信息。

使用方法

研究者可根据需求选择不同配置版本开展实验。ingested配置适用于文档级检索任务，chunked配置支持细粒度的语义分析或多跳推理研究，summarized配置则专攻摘要质量评估。加载时通过指定config_name参数调用对应版本，各字段的嵌套结构需使用特定查询语法访问。对于多跳关联分析，multihop_chunks字段提供的块间关联信息可显著提升复杂查询的准确性。摘要相关字段包含的模型元数据，支持不同摘要算法的对比研究。

背景与挑战

背景概述

finreg_esma_code数据集聚焦于金融监管领域，由欧洲证券和市场管理局（ESMA）相关文档构建而成，旨在为自然语言处理任务提供结构化文本资源。该数据集通过多维度特征标注，包括文档摘要、分块文本及多层次语义关联，反映了金融监管文件处理的复杂性。其构建体现了监管科技（RegTech）领域对智能化文档分析的需求，为法律文本挖掘、监管合规自动化等研究提供了重要数据支撑。

当前挑战

该数据集面临的核心挑战在于金融监管文本特有的专业性与结构性。领域问题层面，需解决法律术语多义性识别、跨段落逻辑关系建模等NLP难题；构建过程中，文档的异构格式标准化、多粒度摘要生成的准确性，以及跨文本块（multihop_chunks）的语义连贯性维护均构成技术瓶颈。此外，监管文件的动态更新特性对数据集的版本管理提出了持续性要求。

常用场景

经典使用场景

在金融监管领域，finreg_esma_code数据集以其结构化的文档摘要和分块信息，成为研究欧洲证券和市场管理局（ESMA）法规文本的重要资源。该数据集通过提供原始文档、分块文本及其摘要，为研究人员分析复杂金融法规的语言模式和结构特征提供了便利。经典使用场景包括法规文本的自动摘要生成、跨文档信息检索以及多跳推理任务，这些任务对于理解冗长且技术性强的金融监管文件至关重要。

解决学术问题

finreg_esma_code数据集有效解决了金融法规文本处理中的多个学术难题。其分块和摘要功能显著降低了长文档的理解难度，为自然语言处理领域的长文本建模提供了实验基础。数据集中的多跳分块设计尤其适合研究跨段落语义关联问题，填补了金融领域多跳推理数据集的空白。这些特性使得研究者能够深入探索法规文本的语义结构，推动法律文本自动分析技术的发展。

实际应用

在实际应用中，该数据集为金融机构和监管科技(RegTech)公司开发智能合规系统提供了关键支持。基于数据集训练的模型可以自动识别法规更新中的关键条款变化，大幅提升合规审查效率。同时，其结构化数据格式便于与现有法律知识图谱系统集成，为构建智能法规查询平台奠定了数据基础。这些应用显著降低了金融机构的合规成本，提高了监管政策的透明度。

数据集最近研究