lexlms/lex_files
收藏Hugging Face2023-07-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lexlms/lex_files
下载链接
链接失效反馈官方服务:
资源简介:
LeXFiles是一个新的多样化的英语多国法律语料库,包含了来自6个主要英语法律系统(欧盟、欧洲委员会、加拿大、美国、英国、印度)的立法和判例法,共11个不同的子语料库。该语料库包含约190亿个标记。与Hendersons等人(2022年)发布的“Pile of Law”语料库相比,后者总共有320亿个标记,其中大部分(26/30)子语料库来自美国,因此整个语料库在很大程度上偏向于美国法律系统,特别是联邦或州司法管辖区。
LeXFiles是一个新的多样化的英语多国法律语料库,包含了来自6个主要英语法律系统(欧盟、欧洲委员会、加拿大、美国、英国、印度)的立法和判例法,共11个不同的子语料库。该语料库包含约190亿个标记。与Hendersons等人(2022年)发布的“Pile of Law”语料库相比,后者总共有320亿个标记,其中大部分(26/30)子语料库来自美国,因此整个语料库在很大程度上偏向于美国法律系统,特别是联邦或州司法管辖区。
提供机构:
lexlms
原始信息汇总
数据集概述
名称: LeXFiles
语言: 英语(en)
许可: CC-BY-NC-SA-4.0
多语言性: 单语(monolingual)
大小: 1M<n<10M
源数据集: 扩展(extended)
任务类别:
- 文本生成(text-generation)
- 填充掩码(fill-mask)
任务ID:
- 语言建模(language-modeling)
- 掩码语言建模(masked-language-modeling)
标签:
- 法律(legal)
- 法律(law)
数据集详细信息
概述: LeXFiles是一个包含11个不同子语料库的新型多样化英语跨国法律语料库,涵盖了6个主要英语国家的立法和判例法(欧盟、欧洲理事会、加拿大、美国、英国、印度)。该语料库包含约190亿个令牌。
子语料库详情:
| 子语料库名称 | 文档数量 | 令牌数量 | 百分比 |
|---|---|---|---|
| EU Legislation | 93.7K | 233.7M | 1.2% |
| EU Court Decisions | 29.8K | 178.5M | 0.9% |
| ECtHR Decisions | 12.5K | 78.5M | 0.4% |
| UK Legislation | 52.5K | 143.6M | 0.7% |
| UK Court Decisions | 47K | 368.4M | 1.9% |
| Indian Court Decisions | 34.8K | 111.6M | 0.6% |
| Canadian Legislation | 6K | 33.5M | 0.2% |
| Canadian Court Decisions | 11.3K | 33.1M | 0.2% |
| U.S. Court Decisions | 4.6M | 11.4B | 59.2% |
| U.S. Legislation | 518 | 1.4B | 7.4% |
| U.S. Contracts | 622K | 5.3B | 27.3% |
总览:
- 文档总数: 5.8M
- 总令牌数: 18.8B
使用方法: 通过指定子语料库别名加载特定子语料库。
示例: python from datasets import load_dataset
dataset = load_dataset(lexlms/lex_files, name=us-court-cases)
引用: Chalkidis, Ilias et al. "LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development." Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Toronto, Canada, 2023.
搜集汇总
数据集介绍

构建方式
在构建LeXFiles数据集时,研究者们精心整合了来自六个主要英语法律体系(欧盟、欧洲委员会、加拿大、美国、英国和印度)的立法与判例法文本,形成了十一个独立的子语料库。该数据集通过扩展现有法律文本资源,并采用无标注的创建方式,确保了原始法律信息的完整性。特别值得注意的是,对于美国法院判例,研究者设定了1965年作为时间阈值,以排除基于过时且可能有害法律标准的案例,从而提升了语料的时效性与适用性。整个语料库最终涵盖了约188亿个词元,为法律自然语言处理研究提供了坚实的数据基础。
特点
LeXFiles数据集以其跨国法律文本的多样性而著称,涵盖了欧盟、欧洲委员会、加拿大、美国、英国和印度等多个法律管辖区的立法与司法文书。相较于以往偏向美国法律体系的语料库,该数据集通过均衡纳入不同地区的法律文本,显著减轻了地域性偏差。其子语料库结构清晰,包括欧盟立法、各国法院判例等具体类别,并提供了详细的文档数量与词元统计,便于研究者根据具体需求进行选择性使用。这种设计使得该数据集能够支持对跨国法律语言差异与共性的深入探索。
使用方法
使用LeXFiles数据集时,研究者可通过Hugging Face的`datasets`库便捷加载特定子语料库。只需在调用`load_dataset`函数时指定数据集名称`'lexlms/lex_files'`及相应的语料库别名(如`'us-court-cases'`),即可获取目标数据。该数据集主要适用于文本生成与掩码语言建模等任务,能够为法律领域的大型语言模型预训练与微调提供高质量语料。用户可根据研究目的,灵活组合不同子语料库,以考察特定法律体系或跨法域的语言特征。
背景与挑战
背景概述
随着法律科技与自然语言处理技术的深度融合,构建高质量、多法域的法律文本语料库成为推动法律智能发展的关键。由Ilias Chalkidis等人于2023年发布的LeXFiles数据集,旨在应对现有法律语料库中普遍存在的单一法域偏向问题。该数据集汇集了欧盟、欧洲委员会、加拿大、美国、英国及印度六大英语法律体系的立法与判例文书,涵盖约190亿词汇量,通过11个子语料库的精心构建,为跨国法律语言模型的训练提供了更为均衡和多样化的数据基础。其设计不仅促进了法律文本生成与掩码语言建模等任务的研究,也为探索不同司法管辖区的法律语言差异与共性开辟了新路径。
当前挑战
在领域问题层面,LeXFiles致力于缓解法律自然语言处理中因数据偏向导致的模型泛化能力不足的挑战。现有资源如‘Pile of Law’语料库虽规模庞大,但过度集中于美国法律体系,难以支撑跨国或跨法域的法律分析任务。构建过程中,研究团队面临多重挑战:一是数据收集需跨越多个司法管辖区,确保法律文书的权威性与时效性,例如美国判例仅纳入1965年后的文档以规避过时法律标准;二是语料平衡性处理,需通过指数采样策略调整各子语料库的权重,避免数据量较大的美国部分主导模型训练;三是法律文本的敏感性与伦理考量,要求严格筛选内容以排除有害或歧视性法律表述,保障数据应用的合规性。
常用场景
经典使用场景
在计算法律学领域,LeXFiles数据集为法律语言模型的预训练提供了关键资源。该数据集整合了欧盟、英国、美国、加拿大、印度等多个英语法律体系的立法与判例文本,覆盖约190亿词汇量,其多国别特性有效缓解了以往法律语料库中美国法律体系的过度偏向问题。研究者常利用该数据集进行掩码语言建模和生成式任务,以构建能够理解跨国法律术语、推理逻辑和文本结构的专业模型,为法律人工智能的跨辖区适应性奠定基础。
实际应用
在实际应用中,LeXFiles数据集支撑了智能法律助手、合同分析系统和司法预测工具的开发。基于该数据集训练的语言模型能够协助律师快速检索跨国判例、自动生成法律文书摘要,或识别合同条款中的潜在风险。例如,在跨境商业合同中,模型可对比不同司法管辖区的法律要求,提供合规性建议;在司法领域,它能辅助分析历史判例趋势,提升裁判效率。这些应用显著降低了法律服务的专业门槛与时间成本,促进了法律科技的普惠化。
衍生相关工作
围绕LeXFiles数据集,学界衍生了一系列经典研究工作。其中最突出的是LegalLAMA基准,该基准利用数据集中法律实体的预测任务评估模型的专业知识掌握程度。此外,许多研究基于该数据集训练了如LegalBERT、CaseLawBERT等领域专用模型,并在法律文本分类、判决预测、法规检索等任务上取得了显著进展。这些工作不仅深化了对法律语言建模的理解,还催生了跨司法管辖区法律人工智能的比较研究,为全球法律科技生态的协作与标准化提供了重要参考。
以上内容由遇见数据集搜集并总结生成



