Jinsns/flk
收藏Hugging Face2023-11-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Jinsns/flk
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
---
# 法律法规 #
从国家法律法规数据库(https://flk.npc.gov.cn/) 下载的法律法规
解压后得到:
law_list.tsv 法律法规的信息列表
law_docs/ 目录下有五个文件夹,分别装有不同状态的法律法规。
status 1 有效 ,3 尚未生效 ,5 已修改(有对应的1),7 两种:【有关法律问题和重大问题的决定】或【修改、废止的决定】,9 已废止
txt_files/ 用脚本处理 status1 中的非扫描件,生成的txt文件,每一行是形式是
```
某法 第n章 第n条 法条内容
```
laws_vector_store/ 是FAISS向量数据库,embedding模型采用text2vec (https://huggingface.co/GanymedeNil/text2vec-large-chinese)
向量数据库的每一条数据是txt的一行(向量数据库的范围是所有txt_files)
---
license: mit
---
# Laws and Regulations #
Laws and regulations downloaded from the National Laws and Regulations Database (https://flk.npc.gov.cn/).
After extraction, the following contents are obtained:
- law_list.tsv: Information list of laws and regulations
The `law_docs/` directory contains five subdirectories, each storing laws and regulations of different statuses:
- Status 1: Valid
- Status 3: Not yet effective
- Status 5: Modified (with corresponding version 1)
- Status 7: Two categories: [Decisions on relevant legal issues and major matters] or [Decisions of amendment or repeal]
- Status 9: Repealed
The `txt_files/` directory contains TXT files generated by processing non-scanned documents in status 1 with a script. Each line follows the format:
[Law Name] Chapter n Article n: Text of the legal provision
The `laws_vector_store/` is a FAISS vector store that uses the text2vec embedding model (https://huggingface.co/GanymedeNil/text2vec-large-chinese).
Each entry in the vector store corresponds to one line from the TXT files, covering all files within the `txt_files/` directory.
提供机构:
Jinsns
原始信息汇总
法律法规数据集概述
数据来源
- 数据集来源于国家法律法规数据库(https://flk.npc.gov.cn/)。
文件结构
-
law_list.tsv: 包含法律法规的信息列表。
-
law_docs/: 目录下有五个文件夹,分别装有不同状态的法律法规。
- status 1: 有效
- status 3: 尚未生效
- status 5: 已修改(有对应的1)
- status 7: 两种:【有关法律问题和重大问题的决定】或【修改、废止的决定】
- status 9: 已废止
-
txt_files/: 用脚本处理 status 1 中的非扫描件,生成的txt文件,每一行格式为:
某法 第n章 第n条 法条内容
-
laws_vector_store/: FAISS向量数据库,embedding模型采用text2vec(https://huggingface.co/GanymedeNil/text2vec-large-chinese)。向量数据库的每一条数据是txt的一行(向量数据库的范围是所有txt_files)。
搜集汇总
数据集介绍

构建方式
Jinsns/flk数据集的构建基于国家法律法规数据库的丰富资源,精心筛选并整合了不同状态的法律法规文本。数据集的构建首先涉及从官方网站下载相关法律法规文件,随后对这些文件进行解压,得到包含详细信息的tsv文件和按状态分类的法律法规文档。进一步,通过脚本处理有效状态的法律法规非扫描件,生成结构化的txt文件,为后续分析和处理提供了标准化格式。此外,采用text2vec模型将txt文件内容转换为向量表示,存储于FAISS向量数据库中,以便于高效的检索和匹配。
特点
该数据集的特点在于其内容的权威性和多样性,涵盖了从有效到已废止的各个状态的法律法规,为研究法律法规的演变提供了宝贵资源。数据集的结构化txt文件,使得法条内容易于访问和分析。同时,向量数据库的构建,不仅提高了搜索效率,也使得基于内容的智能推荐和相似性分析成为可能,为法律法规的智能化处理和利用提供了新的途径。
使用方法
使用Jinsns/flk数据集,用户可以直接访问tsv文件以获取法律法规的元信息,或通过txt文件进行文本分析。对于需要高效检索和复杂数据挖掘的任务,可以利用向量数据库进行快速查询和匹配。此外,用户应当遵守相关法律法规,确保数据使用的合法性和合规性。在使用过程中,建议结合具体的任务需求,合理选择数据集的不同组成部分,以发挥数据集的最大效用。
背景与挑战
背景概述
Jinsns/flk数据集,基于我国国家法律法规数据库构建,旨在为自然语言处理领域提供一份权威的法律文本资源。该数据集由我国研究人员于近年来创建,汇集了国家法律法规的丰富信息。其核心研究问题是如何有效地将法律法规文本进行结构化处理,以便于后续的法律信息检索与分析。该数据集的构建,对于法律信息化、智能化处理具有里程碑意义,对相关领域的研究产生了深远影响。
当前挑战
该数据集在构建过程中所面临的挑战主要包括:一是法律法规文本的多样性和复杂性,给文本的结构化处理带来了难题;二是法律法规的不断更新,要求数据集的维护和更新需同步进行,以保证数据的时效性和准确性;三是在处理大量文本时,如何保证向量嵌入的质量和效率,以及向量数据库的构建和查询效率,都是该数据集需要解决的问题。在所解决的领域问题方面,如何提高法律法规文本分类和检索的准确性和效率,是该数据集面临的另一个重要挑战。
常用场景
经典使用场景
在信息检索与文本挖掘领域,Jinsns/flk数据集的经典使用场景主要在于法律法规文本的搜索与内容分析。通过该数据集,研究者可以构建模型以快速定位相关法律条文,提高法律信息处理的自动化水平,进而辅助法律专业人士高效完成法律检索工作。
解决学术问题
该数据集解决了学术研究中如何处理与分析大规模法律文本的问题,使得研究者能够利用自然语言处理技术对法律法规进行量化分析,从而揭示法律文本的结构特征和内容规律,推动法律文本挖掘和智能问答系统的发展。
衍生相关工作
基于Jinsns/flk数据集,学术界衍生出了一系列相关研究,包括但不限于法律文本分类、情感分析、篇章结构分析等。这些研究不仅丰富了法律文本处理的理论与方法,也为法律人工智能领域的发展奠定了坚实的基础。
以上内容由遇见数据集搜集并总结生成



