five

HFforLegal/laws|法律文本数据集|AI模型数据集

收藏
hugging_face2024-07-02 更新2024-07-06 收录
法律文本
AI模型
下载链接:
https://hf-mirror.com/datasets/HFforLegal/laws
下载链接
链接失效反馈
资源简介:
The Laws数据集是一个集中了来自不同国家的法律文本的集合,旨在通过提供标准化的、易于访问的全球法律文档语料库来改进法律AI模型的开发。数据集包含多个特征,如书籍名称、文档内容、时间戳、ID和哈希值。数据集按国家划分,使用ISO 3166-1 alpha-2代码来标识不同国家的法律文档。此外,数据集还考虑了伦理问题,如隐私、偏见、时效性和管辖权问题。

The Laws Dataset is a comprehensive collection of legal texts from various countries, centralized in a common format. This dataset aims to improve the development of legal AI models by providing a standardized, easily accessible corpus of global legal documents. The dataset includes features such as book name, document content, timestamp, ID, and hash value. It is organized by country using ISO 3166-1 alpha-2 codes to identify legal documents from different jurisdictions. Additionally, the dataset addresses ethical considerations such as privacy, bias, currency, and jurisdiction.
提供机构:
HFforLegal
原始信息汇总

数据集概述

数据集信息

  • 特征:
    • book: 法律书籍的名称或代码(例如,"Civil Code", "Penal Code")
    • document: 法律文件的完整文本内容
    • timestamp: 法律生效或最后更新的时间戳
    • id: 每个文档的标识符
    • hash: 用于验证目的的document的SHA-256哈希值
  • 分割:
    • fr: 包含153,005个样本,总大小为151,400,300字节
  • 下载大小: 64,396,801字节
  • 数据集大小: 151,400,300字节
  • 配置:
    • default: 使用data/fr-*路径加载fr分割的数据
  • 许可证: cc-by-4.0
  • 任务类别:
    • 问答
    • 文本生成
    • 表格问答
  • 语言: 法语
  • 标签:
    • 法律
    • 法律
    • 财政
    • 税收
    • δεξιά
    • recht
    • derecho
  • 名称: The Laws, centralizing legal texts for better use

目标

  • 集中世界各地的法律文本于一个通用格式,以促进:
    1. 比较法律研究
    2. 多语言法律AI模型的开发
    3. 跨司法管辖区的法律研究
    4. 改进法律技术工具

数据集结构

  • book: 法律书籍的名称或代码
  • document: 法律文件的完整文本内容
  • timestamp: 法律生效或最后更新的时间戳
  • id: 每个文档的标识符
  • hash: 用于验证目的的document的SHA-256哈希值

国家分割

  • 数据集使用基于国家的分割来组织来自不同司法管辖区的法律文件。每个分割由相应国家的ISO 3166-1 alpha-2代码标识。
  • 示例代码:
    • 法国: fr
    • 美国: us
    • 英国: gb
    • 德国: de
    • 日本: jp
    • 巴西: br
    • 澳大利亚: au

伦理考虑

  • 隐私: 确保所有个人信息已正确匿名化。
  • 偏见: 注意源材料和所包含法律的选择中可能存在的偏见。
  • 时效性: 法律会随时间变化。始终验证您正在使用的法律版本是否为最新版本。
  • 司法管辖: 法律解释可能因司法管辖区而异。基于此数据训练的AI模型不应替代专业法律建议。

引用

  • 如果您在研究中使用此数据集,请使用以下BibTeX条目: BibTeX @misc{HFforLegal2024, author = {Louis Brulé Naudet}, title = {The Laws, centralizing legal texts for better use}, year = {2024}, howpublished = {url{https://huggingface.co/datasets/HFforLegal/laws}}, }
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过整合来自不同国家的法律文本,采用统一的格式进行构建。具体而言,数据集包括了多个国家的法律文档,每个文档都包含了详细的元数据,如管辖区域、语言、文本内容、HTML结构、主要标题、替代标题、子标识符、主标识符、源页面URL、源文件URL、发布日期、签署日期、UUID和文本哈希值等。这种结构化的数据集设计旨在便于跨司法管辖区的数据管理和分析,同时确保数据的完整性和一致性。
特点
该数据集的主要特点在于其全球性和标准化。它涵盖了多个国家和地区的法律文本,采用ISO 3166-1 alpha-2代码标识每个司法管辖区域,并使用ISO 639-1代码标识文档语言。此外,数据集提供了HTML格式的文本,便于结构化分析。每个文档的元数据丰富,包括UUID和文本哈希值,确保了数据的唯一性和完整性。
使用方法
使用该数据集时,用户可以通过提供的Python脚本轻松生成文本的SHA-256哈希值,以确保数据完整性。数据集支持多种任务,如问答、文本生成和表格问答,适用于开发多语言法律AI模型。用户可以通过HuggingFace的API或直接下载数据集进行本地处理。此外,数据集的结构化设计使得跨司法管辖区的比较研究和法律技术工具的开发变得更加便捷。
背景与挑战
背景概述
在法律信息处理领域,全球法律文本的标准化和集中化一直是研究的重点。HFforLegal/laws数据集由Louis Brulé Naudet主导创建,旨在通过集中不同国家的法律文本,提供一个标准化的全球法律文档库。该数据集的核心研究问题是如何有效地整合和利用多语言、多司法管辖区的法律文本,以促进法律AI模型的开发和应用。自创建以来,该数据集已成为法律AI研究的重要资源,推动了跨司法管辖区的法律比较研究、多语言法律AI模型的开发以及法律技术工具的改进。
当前挑战
尽管HFforLegal/laws数据集在法律文本的集中化和标准化方面取得了显著进展,但仍面临若干挑战。首先,数据集的构建过程中需要处理不同语言和司法管辖区的法律文本,这要求高度的语言和技术能力。其次,确保数据集的隐私和安全,特别是对个人信息的匿名化处理,是一个持续的挑战。此外,法律文本的时效性问题也不容忽视,因为法律经常更新,数据集需要定期维护以保持其准确性。最后,法律文本的多样性和复杂性可能导致模型训练中的偏见问题,需要在数据选择和模型训练过程中加以关注。
常用场景
经典使用场景
在法律领域,HFforLegal/laws数据集的经典使用场景主要集中在法律文本的自动化处理和分析。该数据集通过集中全球各国的法律文本,为法律AI模型的开发提供了标准化的语料库。具体应用包括法律问答系统、法律文本生成以及跨司法管辖区的法律研究。通过这些应用,法律从业者能够更高效地获取和分析法律信息,从而提升法律服务的质量和效率。
衍生相关工作
HFforLegal/laws数据集的发布催生了一系列相关研究和工作。例如,基于该数据集,研究者开发了多语言法律问答系统,能够处理不同语言的法律查询。此外,还有研究利用该数据集进行跨司法管辖区的法律比较分析,揭示不同法律体系之间的异同。这些衍生工作不仅丰富了法律AI的研究内容,也为实际应用提供了更多可能性。
数据集最近研究
最新研究方向
在法律领域的最新研究中,HFforLegal/laws数据集因其对全球法律文本的标准化集中处理而备受关注。该数据集不仅支持多语言法律AI模型的开发,还促进了跨司法管辖区的法律研究和比较法律研究。前沿研究方向包括利用该数据集进行法律文本的深度分析,以识别和减少潜在的偏见,以及开发能够实时更新法律信息的智能系统。这些研究不仅提升了法律技术的准确性和全面性,还为法律领域的AI应用提供了新的可能性,特别是在确保法律文本的准确性和时效性方面。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录