法律相关语料库|法律语料数据集|法律研究数据集

github2023-09-03 更新2024-05-31 收录

法律语料

法律研究

下载链接：

https://github.com/twang2218/law-datasets

下载链接

链接失效反馈

资源简介：

收集了中国法律相关的多种语料，包括法律法规、法律文书、法律书籍、法律案例、法律新闻、法律考题和法律问答等资源。

This dataset encompasses a diverse collection of Chinese legal corpora, including but not limited to statutes and regulations, legal documents, legal literature, case law, legal news, legal examination questions, and legal Q&A resources.

创建时间：

2023-09-03

原始信息汇总

法律相关语料库收集

数据集概述

1. 法律法规

来源：中国法律法规数据库 (https://flk.npc.gov.cn/)
相关链接：law-and-regulations

2. 法律文书

来源：
- 中国裁判文书网 (http://wenshu.court.gov.cn/)
- 中国检察网 (https://www.12309.gov.cn/)
相关项目：
- https://github.com/myx666/LeCaRD
- https://github.com/THUIR/LeCaRDv2
- https://github.com/thunlp/CAIL2018

3. 法律书籍

4. 法律案例

来源：https://github.com/liuhuanyong/LawCrimeMining

5. 法律新闻

来源：中国法院网 (http://www.chinacourt.org/)

6. 法律考题

来源：
- 中国法律职业资格考试网 (http://www.chinalegal.org/)
- 中国司法部国家司法考试中心 (http://www.moj.gov.cn/pub/sfbgw/jgsz/jgszzsdw/zsdwgjsfkszx/)
相关数据集：JEC-QA中国法考数据集 (https://jecqa.thunlp.org/)

7. 法律问答

来源：
- 中国法律服务网 (http://www.12348.gov.cn/)
- 华律网 (http://www.66law.cn/)
- 百度知道 (https://zhidao.baidu.com/)
相关数据集：
- 北京大学开放研究数据平台 (http://opendata.pku.edu.cn/dataset.xhtml?persistentId=doi:10.18170/DVN/OLO4G8) [2017年12月至2018年2月份]
- 法律知道 (3.6 万条) (https://github.com/murufeng/ChineseNlpCorpus/blob/master/datasets/lawzhidao/intro.ipynb)

AI搜集汇总

数据集介绍

构建方式

法律相关语料库的构建方式涵盖了多个法律领域的数据来源，包括法律法规、法律文书、法律书籍、法律案例、法律新闻、法律考题以及法律问答。数据集通过整合中国法律法规数据库、中国裁判文书网、中国检察网、中国法院网、中国法律职业资格考试网、中国法律服务网等多个权威平台的数据，确保了语料库的全面性和权威性。此外，数据集还引入了法律书籍、法律案例分析以及法律问答社区的内容，进一步丰富了语料库的多样性。

特点

该法律相关语料库的特点在于其广泛的数据覆盖范围和多样的数据类型。语料库不仅包含了法律法规和法律文书等正式的法律文本，还涵盖了法律新闻、法律考题以及法律问答等非正式的法律交流内容，从而提供了从正式到非正式的多层次法律信息。此外，数据集的构建基于多个权威数据源，确保了数据的准确性和可靠性，为法律研究和应用提供了坚实的基础。

使用方法

法律相关语料库的使用方法多样，适用于法律研究、法律教育、法律咨询等多个领域。研究者可以通过该语料库进行法律文本分析、法律案例研究以及法律问答系统的开发。教育工作者可以利用该数据集设计法律考试题目或进行法律教学案例分析。此外，法律咨询服务提供者也可以利用该语料库构建智能问答系统，以提高法律咨询的效率和准确性。

背景与挑战

背景概述

法律相关语料库是一个旨在汇集多种法律领域文本数据的综合性资源，涵盖法律法规、法律文书、法律书籍、法律案例、法律新闻、法律考题以及法律问答等多个方面。该数据集的建设由多个研究机构和法律相关网站共同参与，旨在为法律领域的研究、教育和实践提供丰富的语料支持。通过整合来自中国法律法规数据库、中国裁判文书网、中国法院网等多个权威来源的数据，该语料库为法律文本的分析、自然语言处理以及法律智能系统的开发提供了坚实的基础。

当前挑战

法律相关语料库的构建面临多重挑战。首先，法律文本的复杂性和专业性要求数据集在收集和标注过程中必须保持高度的准确性和一致性。其次，法律领域的动态变化使得数据集的更新和维护成为一个持续的挑战。此外，法律文本的多样性，包括法律法规、案例、文书等，要求数据集在结构和内容上具备高度的灵活性和适应性。最后，法律数据的隐私和安全问题也是构建过程中需要重点考虑的方面，确保数据使用的合规性和安全性。

常用场景

经典使用场景

法律相关语料库的经典使用场景主要体现在法律文本的自动化处理与分析领域。该数据集汇聚了法律法规、法律文书、法律书籍、法律案例、法律新闻、法律考题及法律问答等多源数据，为法律领域的自然语言处理（NLP）研究提供了丰富的语料支持。研究者可以利用该数据集进行法律文本的分类、信息抽取、文本生成等任务，从而推动法律智能化的进程。

衍生相关工作

基于法律相关语料库，衍生了一系列经典工作，如法律文本分类模型、法律知识图谱构建、法律问答系统等。例如，LeCaRD数据集的发布推动了法律文书检索技术的研究，CAIL2018数据集则为法律文本的自动生成与理解提供了基准。此外，法律考题数据集JEC-QA的推出，进一步促进了法律教育领域的智能化发展。

数据集最近研究

最新研究方向

在法律领域的语料库建设方面，最新的研究方向主要集中在法律文本的自动化处理与分析。随着自然语言处理技术的进步，研究者们致力于开发高效的算法，以实现法律法规、法律文书、法律案例等文本的自动分类、摘要生成和信息抽取。这些技术不仅能够提升法律从业者的工作效率，还能为法律教育、司法决策提供数据支持。此外，法律问答系统的研究也备受关注，旨在通过智能问答技术，为公众提供便捷的法律咨询服务，推动法律知识的普及与应用。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

DermNet

DermNet是一个包含皮肤病图像的数据集，涵盖了多种皮肤病类型，如痤疮、湿疹、牛皮癣等。该数据集主要用于皮肤病诊断和研究。

www.dermnetnz.org 收录

中国区域地面气象要素驱动数据集 v2.0（1951-2020）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 70 年（1951~2020 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致，仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新，以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中，计划于 2025 年上半年发布，从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心收录

38-Cloud

该数据集包含38幅Landsat 8场景图像及其手动提取的像素级云检测地面实况。数据集被分割成多个384*384的补丁，适合深度学习语义分割算法。训练集有8400个补丁，测试集有9201个补丁。每个补丁包含4个对应的谱通道：红色、绿色、蓝色和近红外。

github 收录

paris2024-data

包含2024年巴黎奥运会和残奥会的数据集，包括奖牌列表、获奖运动员信息、国家和事件的详细数据。

github 收录