立法主题分析多维权重编排数据集
收藏国家基础学科公共科学数据中心2025-11-01 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=69023a0d195d2632a803c484&type=1
下载链接
链接失效反馈官方服务:
资源简介:
本数据集面向立法主题分析模型的多维权重编排任务,采用大语言模型生成500篇高质量合成法治文件。文件类型涵盖法治意见、调研报告、涉外风险报告、立法规划研究及专家评审意见,领域均衡覆盖营商环境、生态保护与基层社会治理。每篇文件严格包含10个权重因子和5个分析维度,字数规范、格式统一,其中400篇作为参考库用于构建权重因子匹配库,100篇作为测试集用于模型评估。数据集以JSON格式存储,为立法主题分析研究提供结构化、多维度数据支持。
本数据集专门为立法主题分析模型的多维权重编排任务构建,旨在支持基于权重因子的立法文件主题分析评估研究。考虑到实际法治文件获取的困难性以及数据敏感性等因素,我们采用大语言模型DeepSeek-R1构建了高质量的合成法治文件数据集。数据集构建过程分为两个阶段:首先,设计涵盖不同文件类型和领域组合的标题生成策略,确保数据的多样性和代表性;其次,基于标准化的生成规范,要求每篇文件必须完整包含10个权重因子(紧迫性、可行性、必要性、公众支持、成本效益、社会影响、可持续性、经济影响、政策一致性、法律明确性)和5个分析维度(法律基础维度、社会影响维度、经济可行维度、时间紧迫维度、长期发展维度)。数据集在文件类型分布上包括法治意见文件(30%)、法治调研报告(25%)、涉外风险报告(20%)、立法规划研究(15%)、专家评审意见(10%);在领域分布上均衡涵盖营商环境(33.3%)、生态保护(33.3%)、基层社会治理(33.3%)三个重要领域。所有文件均采用标准学术报告格式,字数控制在4196-8192字之间,确保内容的专业性、严谨性和逻辑连贯性。最终构建的数据集总计500篇高质量法治文件,其中参考库文件400篇用于构建Dual-Encoder和Cross-Encoder的权重因子匹配库,测试文件100篇用于模型性能评估和验证,以JSON格式存储,支持立法主题分析研究任务。
提供机构:
北京大学



