data-extraction

Name: data-extraction
Creator: ZySec AI
Published: 2025-09-12 21:08:11
License: 暂无描述

Hugging Face2025-09-12 更新2025-09-13 收录

下载链接：

https://huggingface.co/datasets/ZySec-AI/data-extraction

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个全面的训练语言模型的数据集，用于法律和调查背景下的问题生成、原子关系提取和意图检测。数据集包括三个主要部分：问题生成和原子关系数据、意图提取训练数据以及关于数据集大小和组成的统计数据。数据集主要用于法律AI系统、调查工具、语言模型训练以及学术研究。

提供机构：

ZySec AI

创建时间：

2025-09-12

原始信息汇总

数据集概述

数据集名称

Question and Atomic Relations Generation Dataset with Intent Extraction

数据集组成

问题生成与原子关系提取（data.jsonl）

包含结构化数据，用于训练模型从复杂法律文档生成问题和提取原子关系
文档类型：详细调查报告、起诉书、法律程序
主题覆盖：犯罪调查、资产扣押、环境法、监视报告、司法审查

意图提取训练数据（intend-data.jsonl）

专门数据集，用于改进执法和法律背景下的用户意图检测
实体提取：从用户查询中提取关键主体、事件和核心元素
子问题生成：澄清问题以消除用户意图歧义
领域特定：针对犯罪统计、CDR分析和法律数据请求定制

数据集统计

总记录数：10,000+条
语言：主要为英语，含部分西班牙语示例
领域：法律、调查和执法背景
时间范围：当代法律案件和程序

数据格式

问题生成数据

json { "id": "unique_identifier", "input": "source_document_text", "topic_name": "document_category", "output": "{"questions": ["generated_question_1", "generated_question_2", ...]}" }

意图检测数据

json { "id": "unique_identifier", "system_prompt": "task_instructions", "input": "user_query_with_context", "topic_name": "query_category", "output": "{"extracted_entities": [...], "sub_questions": [...]}" }

应用领域

法律AI系统：法律文档分析的自动问题生成
调查工具：执法查询的意图检测
语言模型训练：法律和调查领域的微调
研究：法律NLP和问答系统的学术研究

许可和使用

仅用于研究和防御性安全应用
使用时需确保符合适用法律法规

引用

Question and Atomic Relations Generation Dataset with Intent Detection https://huggingface.co/datasets/ZySec-AI/data-extraction

搜集汇总

数据集介绍

构建方式

在法律与调查领域的自然语言处理研究中，data-extraction数据集通过系统化采集与标注构建而成。该数据集整合了来自详细调查报告、起诉书、法律程序文件等复杂法律文档的原始文本，并依据案件类型进行主题分类。每条记录均采用结构化处理，包含输入文档、主题标签及问题生成输出，确保了数据在法律语境下的专业性与一致性。

特点

本数据集显著特点在于其高度专业化的法律与调查领域覆盖，涵盖资产扣押、犯罪调查、环境法及司法审查等多个细分主题。数据以JSONL格式组织，支持问题生成、原子关系抽取和意图检测三重任务，兼具多语言样本与上下文分析能力。其内容设计紧密贴合实际应用场景，如犯罪统计分析和法律文档处理，为领域特异性研究提供了丰富资源。

使用方法

使用者可通过加载JSONL文件直接访问结构化数据，每条记录包含唯一标识符、输入文本及多模态输出字段。该数据集适用于训练法律AI系统进行自动问题生成，或用于增强调查工具中的意图检测模块。研究人员可依据系统提示和主题分类，开展法律自然语言处理的模型微调与实证研究，但需注意遵守研究用途许可及法律法规约束。

背景与挑战

背景概述

在法律人工智能研究领域，数据提取与意图理解始终是核心难题。data-extraction数据集由ZySec-AI研究团队于当代构建，专注于法律与调查语境下的问题生成、原子关系抽取及意图检测任务。该数据集涵盖超过10,000条记录，涉及案件研究、资产扣押、司法审查等多维度法律文本，旨在推动法律文档自动化分析与智能调查系统的发展，对提升法律自然语言处理技术的精准性与实用性具有显著影响力。

当前挑战

该数据集致力于解决法律文档复杂语义理解与多任务处理的挑战，包括从非结构化法律文本中生成精确问题、提取细粒度原子关系，以及识别用户查询的深层意图。构建过程中面临领域专业性带来的标注困难，需确保法律术语的准确性与案例的时效性；同时，多语言数据（主要为英语及部分西班牙语）的整合与一致性维护，以及法律敏感信息的合规处理，均为数据集构建的重要挑战。

常用场景

经典使用场景

在法律智能系统开发领域，该数据集为生成式语言模型提供了结构化训练范式。通过案例研究报告、起诉书和司法程序文档，模型能够学习从复杂法律文本中自动生成针对性问题，并提取原子关系。这种能力特别适用于犯罪调查场景下的文档分析，帮助法律从业者快速梳理案件关键要素，提升文档处理效率。

实际应用

在实践层面，该数据集支撑了多个关键应用系统的开发。执法机构的调查支持系统利用其意图检测模块处理犯罪统计查询和通话记录分析；律师事务所的文档自动化平台借助问题生成功能快速梳理案卷材料；司法部门的智能检索系统则通过原子关系提取实现判例的精准关联。这些应用显著提升了法律工作的效率与准确性。

衍生相关工作

基于该数据集衍生的经典研究包括：LegalBERT在意图检测领域的领域自适应研究、基于图神经网络的司法文档关系提取框架、以及多任务学习下的法律问答系统构建。这些工作不仅推动了法律人工智能的技术前沿，更形成了从文档解析到智能决策的完整技术链条，为后续研究者提供了重要参考范式。

以上内容由遇见数据集搜集并总结生成