five

lexlms/lex_files|法律数据集|语言模型数据集

收藏
hugging_face2023-07-24 更新2024-03-04 收录
法律
语言模型
下载链接:
https://hf-mirror.com/datasets/lexlms/lex_files
下载链接
链接失效反馈
资源简介:
LeXFiles是一个新的多样化的英语多国法律语料库,包含了来自6个主要英语法律系统(欧盟、欧洲委员会、加拿大、美国、英国、印度)的立法和判例法,共11个不同的子语料库。该语料库包含约190亿个标记。与Hendersons等人(2022年)发布的“Pile of Law”语料库相比,后者总共有320亿个标记,其中大部分(26/30)子语料库来自美国,因此整个语料库在很大程度上偏向于美国法律系统,特别是联邦或州司法管辖区。

LeXFiles是一个新的多样化的英语多国法律语料库,包含了来自6个主要英语法律系统(欧盟、欧洲委员会、加拿大、美国、英国、印度)的立法和判例法,共11个不同的子语料库。该语料库包含约190亿个标记。与Hendersons等人(2022年)发布的“Pile of Law”语料库相比,后者总共有320亿个标记,其中大部分(26/30)子语料库来自美国,因此整个语料库在很大程度上偏向于美国法律系统,特别是联邦或州司法管辖区。
提供机构:
lexlms
原始信息汇总

数据集概述

名称: LeXFiles

语言: 英语(en)

许可: CC-BY-NC-SA-4.0

多语言性: 单语(monolingual)

大小: 1M<n<10M

源数据集: 扩展(extended)

任务类别:

  • 文本生成(text-generation)
  • 填充掩码(fill-mask)

任务ID:

  • 语言建模(language-modeling)
  • 掩码语言建模(masked-language-modeling)

标签:

  • 法律(legal)
  • 法律(law)

数据集详细信息

概述: LeXFiles是一个包含11个不同子语料库的新型多样化英语跨国法律语料库,涵盖了6个主要英语国家的立法和判例法(欧盟、欧洲理事会、加拿大、美国、英国、印度)。该语料库包含约190亿个令牌。

子语料库详情:

子语料库名称 文档数量 令牌数量 百分比
EU Legislation 93.7K 233.7M 1.2%
EU Court Decisions 29.8K 178.5M 0.9%
ECtHR Decisions 12.5K 78.5M 0.4%
UK Legislation 52.5K 143.6M 0.7%
UK Court Decisions 47K 368.4M 1.9%
Indian Court Decisions 34.8K 111.6M 0.6%
Canadian Legislation 6K 33.5M 0.2%
Canadian Court Decisions 11.3K 33.1M 0.2%
U.S. Court Decisions 4.6M 11.4B 59.2%
U.S. Legislation 518 1.4B 7.4%
U.S. Contracts 622K 5.3B 27.3%

总览:

  • 文档总数: 5.8M
  • 总令牌数: 18.8B

使用方法: 通过指定子语料库别名加载特定子语料库。

示例: python from datasets import load_dataset

dataset = load_dataset(lexlms/lex_files, name=us-court-cases)

引用: Chalkidis, Ilias et al. "LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development." Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Toronto, Canada, 2023.

用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

HUSTgearbox

This reposotory release a gearbox failure dataset, which can support intelliegnt fault diagnosis research

github 收录

DermNet

DermNet是一个包含皮肤病图像的数据集,涵盖了多种皮肤病类型,如痤疮、湿疹、牛皮癣等。该数据集主要用于皮肤病诊断和研究。

www.dermnetnz.org 收录

paris2024-data

包含2024年巴黎奥运会和残奥会的数据集,包括奖牌列表、获奖运动员信息、国家和事件的详细数据。

github 收录

MealRec+

MealRec+数据集是由武汉理工大学研究团队创建的,旨在支持个性化和健康饮食推荐的研究。该数据集包含7280条记录,涵盖了餐食与菜品之间的关联信息,以及用户与餐食的交互数据。创建过程中,研究团队采用了模拟方法,从用户与菜品交互数据中推导出餐食与菜品的关联及用户与餐食的交互。此外,数据集还利用了世界卫生组织和英国食品标准局的两个著名营养标准来计算餐食的健康评分。MealRec+数据集的应用领域主要集中在通过分析用户偏好和餐食健康性,提供更健康的餐食推荐,以促进用户的健康饮食习惯。

arXiv 收录