lexlms/lex_files_preprocessed
收藏数据集卡片:LexFiles
数据集描述
数据集摘要
LeXFiles是一个新的多样化的英语跨国法律语料库,包含11个不同的子语料库,涵盖了来自6个主要英语法律体系(欧盟、欧洲人权法院、加拿大、美国、英国、印度)的立法和判例法。该语料库包含约190亿个标记。与Hendersons等人(2022年)发布的“Pile of Law”语料库相比,后者总计320亿个标记,其中大部分(26/30)来自美国,因此整体上偏向于美国法律体系,特别是联邦或州管辖。
数据集规格
| 语料库 | 语料库别名 | 文档数量 | 标记数量 | 百分比 | 采样比率 (a=0.5) | 采样比率 (a=0.2) |
|---|---|---|---|---|---|---|
| 欧盟立法 | eu-legislation |
93.7K | 233.7M | 1.2% | 5.0% | 8.0% |
| 欧盟法院判决 | eu-court-cases |
29.8K | 178.5M | 0.9% | 4.3% | 7.6% |
| 欧洲人权法院判决 | ecthr-cases |
12.5K | 78.5M | 0.4% | 2.9% | 6.5% |
| 英国立法 | uk-legislation |
52.5K | 143.6M | 0.7% | 3.9% | 7.3% |
| 英国法院判决 | uk-court-cases |
47K | 368.4M | 1.9% | 6.2% | 8.8% |
| 印度法院判决 | indian-court-cases |
34.8K | 111.6M | 0.6% | 3.4% | 6.9% |
| 加拿大立法 | canadian-legislation |
6K | 33.5M | 0.2% | 1.9% | 5.5% |
| 加拿大法院判决 | canadian-court-cases |
11.3K | 33.1M | 0.2% | 1.8% | 5.4% |
| 美国法院判决 [1] | court-listener |
4.6M | 11.4B | 59.2% | 34.7% | 17.5% |
| 美国立法 | us-legislation |
518 | 1.4B | 7.4% | 12.3% | 11.5% |
| 美国合同 | us-contracts |
622K | 5.3B | 27.3% | 23.6% | 15.0% |
| 总计 | lexlms/lexfiles |
5.8M | 18.8B | 100% | 100% | 100% |
[1] 仅考虑自1965年以来的美国法院判决(参考《民权法案》之后),作为依赖严重过时和在很多情况下有害的法律标准的案件的硬性门槛。其他语料库包含更近期的文档。
[2] 采样比率按照Lample等人(2019年)引入的指数采样计算。
未考虑用于预训练的额外语料库,因为它们不代表事实性法律知识。
| 语料库 | 语料库别名 | 文档数量 | 标记数量 |
|---|---|---|---|
| 来自C4的法律网页 | legal-c4 |
284K | 340M |
引用
@inproceedings{chalkidis-garneau-etal-2023-lexlms, title = {{LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development}}, author = "Chalkidis*, Ilias and Garneau*, Nicolas and Goanta, Catalina and Katz, Daniel Martin and Søgaard, Anders", booktitle = "Proceedings of the 61h Annual Meeting of the Association for Computational Linguistics", month = june, year = "2023", address = "Toronto, Canada", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/xxx", }



