Jinsns/flk

Name: Jinsns/flk
Creator: Jinsns
Published: 2023-11-09 15:42:43
License: 暂无描述

Hugging Face2023-11-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Jinsns/flk

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit --- # 法律法规 # 从国家法律法规数据库（https://flk.npc.gov.cn/）下载的法律法规解压后得到： law_list.tsv 法律法规的信息列表 law_docs/ 目录下有五个文件夹，分别装有不同状态的法律法规。 status 1 有效，3 尚未生效，5 已修改（有对应的1），7 两种：【有关法律问题和重大问题的决定】或【修改、废止的决定】，9 已废止 txt_files/ 用脚本处理 status1 中的非扫描件，生成的txt文件，每一行是形式是 ``` 某法第n章第n条法条内容 ``` laws_vector_store/ 是FAISS向量数据库，embedding模型采用text2vec （https://huggingface.co/GanymedeNil/text2vec-large-chinese）向量数据库的每一条数据是txt的一行（向量数据库的范围是所有txt_files）

--- license: mit --- # Laws and Regulations # Laws and regulations downloaded from the National Laws and Regulations Database (https://flk.npc.gov.cn/). After extraction, the following contents are obtained: - law_list.tsv: Information list of laws and regulations The `law_docs/` directory contains five subdirectories, each storing laws and regulations of different statuses: - Status 1: Valid - Status 3: Not yet effective - Status 5: Modified (with corresponding version 1) - Status 7: Two categories: [Decisions on relevant legal issues and major matters] or [Decisions of amendment or repeal] - Status 9: Repealed The `txt_files/` directory contains TXT files generated by processing non-scanned documents in status 1 with a script. Each line follows the format: [Law Name] Chapter n Article n: Text of the legal provision The `laws_vector_store/` is a FAISS vector store that uses the text2vec embedding model (https://huggingface.co/GanymedeNil/text2vec-large-chinese). Each entry in the vector store corresponds to one line from the TXT files, covering all files within the `txt_files/` directory.

提供机构：

Jinsns

原始信息汇总

法律法规数据集概述

数据来源

数据集来源于国家法律法规数据库（https://flk.npc.gov.cn/）。

文件结构

law_list.tsv: 包含法律法规的信息列表。
law_docs/: 目录下有五个文件夹，分别装有不同状态的法律法规。
- status 1: 有效
- status 3: 尚未生效
- status 5: 已修改（有对应的1）
- status 7: 两种：【有关法律问题和重大问题的决定】或【修改、废止的决定】
- status 9: 已废止
txt_files/: 用脚本处理 status 1 中的非扫描件，生成的txt文件，每一行格式为：

某法第n章第n条法条内容
laws_vector_store/: FAISS向量数据库，embedding模型采用text2vec（https://huggingface.co/GanymedeNil/text2vec-large-chinese）。向量数据库的每一条数据是txt的一行（向量数据库的范围是所有txt_files）。

搜集汇总

数据集介绍

构建方式

Jinsns/flk数据集的构建基于国家法律法规数据库的丰富资源，精心筛选并整合了不同状态的法律法规文本。数据集的构建首先涉及从官方网站下载相关法律法规文件，随后对这些文件进行解压，得到包含详细信息的tsv文件和按状态分类的法律法规文档。进一步，通过脚本处理有效状态的法律法规非扫描件，生成结构化的txt文件，为后续分析和处理提供了标准化格式。此外，采用text2vec模型将txt文件内容转换为向量表示，存储于FAISS向量数据库中，以便于高效的检索和匹配。

特点

该数据集的特点在于其内容的权威性和多样性，涵盖了从有效到已废止的各个状态的法律法规，为研究法律法规的演变提供了宝贵资源。数据集的结构化txt文件，使得法条内容易于访问和分析。同时，向量数据库的构建，不仅提高了搜索效率，也使得基于内容的智能推荐和相似性分析成为可能，为法律法规的智能化处理和利用提供了新的途径。

使用方法

使用Jinsns/flk数据集，用户可以直接访问tsv文件以获取法律法规的元信息，或通过txt文件进行文本分析。对于需要高效检索和复杂数据挖掘的任务，可以利用向量数据库进行快速查询和匹配。此外，用户应当遵守相关法律法规，确保数据使用的合法性和合规性。在使用过程中，建议结合具体的任务需求，合理选择数据集的不同组成部分，以发挥数据集的最大效用。

背景与挑战

背景概述

Jinsns/flk数据集，基于我国国家法律法规数据库构建，旨在为自然语言处理领域提供一份权威的法律文本资源。该数据集由我国研究人员于近年来创建，汇集了国家法律法规的丰富信息。其核心研究问题是如何有效地将法律法规文本进行结构化处理，以便于后续的法律信息检索与分析。该数据集的构建，对于法律信息化、智能化处理具有里程碑意义，对相关领域的研究产生了深远影响。

当前挑战

该数据集在构建过程中所面临的挑战主要包括：一是法律法规文本的多样性和复杂性，给文本的结构化处理带来了难题；二是法律法规的不断更新，要求数据集的维护和更新需同步进行，以保证数据的时效性和准确性；三是在处理大量文本时，如何保证向量嵌入的质量和效率，以及向量数据库的构建和查询效率，都是该数据集需要解决的问题。在所解决的领域问题方面，如何提高法律法规文本分类和检索的准确性和效率，是该数据集面临的另一个重要挑战。

常用场景

经典使用场景

在信息检索与文本挖掘领域，Jinsns/flk数据集的经典使用场景主要在于法律法规文本的搜索与内容分析。通过该数据集，研究者可以构建模型以快速定位相关法律条文，提高法律信息处理的自动化水平，进而辅助法律专业人士高效完成法律检索工作。

解决学术问题

该数据集解决了学术研究中如何处理与分析大规模法律文本的问题，使得研究者能够利用自然语言处理技术对法律法规进行量化分析，从而揭示法律文本的结构特征和内容规律，推动法律文本挖掘和智能问答系统的发展。

衍生相关工作

基于Jinsns/flk数据集，学术界衍生出了一系列相关研究，包括但不限于法律文本分类、情感分析、篇章结构分析等。这些研究不仅丰富了法律文本处理的理论与方法，也为法律人工智能领域的发展奠定了坚实的基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集