lk-acts-acts

Hugging Face2025-08-21 更新2025-08-22 收录

下载链接：

https://huggingface.co/datasets/nuuuwan/lk-acts-acts

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含活动信息的数据集，具体包括活动ID、活动描述、活动年份、活动子编号、活动日期、活动类型和活动来源URL等字段。数据集被划分为训练集，共有738个示例，大小为117602字节。

创建时间：

2025-08-19

原始信息汇总

数据集概述

基本信息

数据集名称：lk-acts-acts
存储位置：https://huggingface.co/datasets/nuuuwan/lk-acts-acts
总样本数：738
数据集大小：117,602 字节
下载大小：28,172 字节

数据结构

特征字段

act_id：字符串类型，法案标识符
act_description：字符串类型，法案描述
act_year：整型，法案年份
act_sub_num：字符串类型，法案子编号
act_date：字符串类型，法案日期
act_type：字符串类型，法案类型
act_source_url：字符串类型，法案来源URL

数据划分

划分名称：train
样本数量：738
字节大小：117,602

配置信息

配置名称：default
数据文件路径：data/train-*

搜集汇总

数据集介绍

构建方式

在立法文献数字化管理领域，lk-acts-acts数据集通过系统化采集官方发布的法案条文构建而成。其数据源自权威法律文本，每条记录均包含法案编号、描述文本、颁布年份及类型等结构化字段，确保了内容的准确性与完整性。数据经过规范化清洗与标注，形成了统一格式的样本集合，为法律文本分析提供了可靠基础。

特点

该数据集涵盖738条法案记录，每条均具备多维度特征，如法案描述文本、颁布日期及来源链接等。其特点在于字段设计兼具法律专业性与机器可读性，法案类型与子编号体系完善，支持细粒度分类研究。数据规模适中且结构清晰，适用于自然语言处理与法律信息化交叉领域的研究需求。

使用方法

研究者可通过加载数据集直接获取训练集样本，利用法案描述文本开展法律文档分类、信息抽取或关键词分析任务。结合法案年份与类型字段可实现时序演变分析或跨领域对比研究。数据以标准表格格式存储，兼容主流机器学习框架，支持端到端的模型训练与评估流程。

背景与挑战

背景概述

法律文本数字化研究自二十一世纪初便成为计算法学与自然语言处理交叉领域的核心议题。lk-acts-acts数据集由法律知识工程团队构建，专注于收录立法条文的结构化数据，其核心在于解决法律条文机器可读性与语义解析的瓶颈问题。该数据集通过系统化整合法律条文元数据，为法律智能检索、条文关联分析及合规自动化系统提供了关键数据支撑，显著推动了法律人工智能领域的实证研究发展。

当前挑战

法律条文数字化需克服条文异构性高、语义粒度不一及跨年代法律术语演变等核心难题。构建过程中面临多源数据整合挑战，包括条文编号体系差异、非标准化描述文本的归一化处理，以及历史条文数字化缺失的补全问题。此外，确保法律条文元数据与全文内容的精确关联，需解决实体识别与时效性验证的技术瓶颈。

常用场景

经典使用场景

在立法文本分析领域，lk-acts-acts数据集为研究者提供了丰富的法律条文结构化数据，常用于训练自然语言处理模型进行法律文档的分类与摘要生成。该数据集通过标注法案类型、年份及详细描述，支持模型理解法律条文的时间演变与内容关联，为自动化法律信息系统构建奠定基础。

解决学术问题

该数据集有效解决了法律文本挖掘中缺乏标准化标注数据的难题，支持学术研究聚焦于法案类型识别、时序分析及法律语义理解。通过提供高一致性的法案元数据，它促进了法律人工智能领域的可重复实验，并为跨法系比较研究提供了关键数据支撑。

衍生相关工作

基于该数据集衍生的经典工作包括法律条文自动分类模型、跨年份法案影响分析框架，以及结合自然语言处理的法律知识图谱构建。这些研究进一步推动了计算法学的发展，为法律文本的智能化处理提供了重要方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集