立法主题分析多维权重编排数据集

Name: 立法主题分析多维权重编排数据集
Creator: 北京大学
License: 暂无描述

国家基础学科公共科学数据中心2025-11-01 收录

下载链接：

https://nbsdc.cn/general/dataDetail?id=69023a0d195d2632a803c484&type=1

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集面向立法主题分析模型的多维权重编排任务，采用大语言模型生成500篇高质量合成法治文件。文件类型涵盖法治意见、调研报告、涉外风险报告、立法规划研究及专家评审意见，领域均衡覆盖营商环境、生态保护与基层社会治理。每篇文件严格包含10个权重因子和5个分析维度，字数规范、格式统一，其中400篇作为参考库用于构建权重因子匹配库，100篇作为测试集用于模型评估。数据集以JSON格式存储，为立法主题分析研究提供结构化、多维度数据支持。本数据集专门为立法主题分析模型的多维权重编排任务构建，旨在支持基于权重因子的立法文件主题分析评估研究。考虑到实际法治文件获取的困难性以及数据敏感性等因素，我们采用大语言模型DeepSeek-R1构建了高质量的合成法治文件数据集。数据集构建过程分为两个阶段：首先，设计涵盖不同文件类型和领域组合的标题生成策略，确保数据的多样性和代表性；其次，基于标准化的生成规范，要求每篇文件必须完整包含10个权重因子（紧迫性、可行性、必要性、公众支持、成本效益、社会影响、可持续性、经济影响、政策一致性、法律明确性）和5个分析维度（法律基础维度、社会影响维度、经济可行维度、时间紧迫维度、长期发展维度）。数据集在文件类型分布上包括法治意见文件（30%）、法治调研报告（25%）、涉外风险报告（20%）、立法规划研究（15%）、专家评审意见（10%）；在领域分布上均衡涵盖营商环境（33.3%）、生态保护（33.3%）、基层社会治理（33.3%）三个重要领域。所有文件均采用标准学术报告格式，字数控制在4196-8192字之间，确保内容的专业性、严谨性和逻辑连贯性。最终构建的数据集总计500篇高质量法治文件，其中参考库文件400篇用于构建Dual-Encoder和Cross-Encoder的权重因子匹配库，测试文件100篇用于模型性能评估和验证，以JSON格式存储，支持立法主题分析研究任务。

提供机构：

北京大学