lexlms/lex_files|法律数据集|语言模型数据集

hugging_face2023-07-24 更新2024-03-04 收录

法律

语言模型

下载链接：

https://hf-mirror.com/datasets/lexlms/lex_files

下载链接

链接失效反馈

资源简介：

LeXFiles是一个新的多样化的英语多国法律语料库，包含了来自6个主要英语法律系统（欧盟、欧洲委员会、加拿大、美国、英国、印度）的立法和判例法，共11个不同的子语料库。该语料库包含约190亿个标记。与Hendersons等人（2022年）发布的“Pile of Law”语料库相比，后者总共有320亿个标记，其中大部分（26/30）子语料库来自美国，因此整个语料库在很大程度上偏向于美国法律系统，特别是联邦或州司法管辖区。

提供机构：

lexlms

原始信息汇总

数据集概述

名称: LeXFiles

语言: 英语（en）

许可: CC-BY-NC-SA-4.0

多语言性: 单语（monolingual）

大小: 1M<n<10M

源数据集: 扩展（extended）

任务类别:

文本生成（text-generation）
填充掩码（fill-mask）

任务ID:

语言建模（language-modeling）
掩码语言建模（masked-language-modeling）

标签:

法律（legal）
法律（law）

数据集详细信息

概述: LeXFiles是一个包含11个不同子语料库的新型多样化英语跨国法律语料库，涵盖了6个主要英语国家的立法和判例法（欧盟、欧洲理事会、加拿大、美国、英国、印度）。该语料库包含约190亿个令牌。

子语料库详情:

子语料库名称	文档数量	令牌数量	百分比
EU Legislation	93.7K	233.7M	1.2%
EU Court Decisions	29.8K	178.5M	0.9%
ECtHR Decisions	12.5K	78.5M	0.4%
UK Legislation	52.5K	143.6M	0.7%
UK Court Decisions	47K	368.4M	1.9%
Indian Court Decisions	34.8K	111.6M	0.6%
Canadian Legislation	6K	33.5M	0.2%
Canadian Court Decisions	11.3K	33.1M	0.2%
U.S. Court Decisions	4.6M	11.4B	59.2%
U.S. Legislation	518	1.4B	7.4%
U.S. Contracts	622K	5.3B	27.3%

总览:

文档总数: 5.8M
总令牌数: 18.8B

使用方法: 通过指定子语料库别名加载特定子语料库。

示例: python from datasets import load_dataset

dataset = load_dataset(lexlms/lex_files, name=us-court-cases)

引用: Chalkidis, Ilias et al. "LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development." Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Toronto, Canada, 2023.

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

HUSTgearbox

This reposotory release a gearbox failure dataset, which can support intelliegnt fault diagnosis research

github 收录

DermNet

DermNet是一个包含皮肤病图像的数据集，涵盖了多种皮肤病类型，如痤疮、湿疹、牛皮癣等。该数据集主要用于皮肤病诊断和研究。

www.dermnetnz.org 收录

paris2024-data

包含2024年巴黎奥运会和残奥会的数据集，包括奖牌列表、获奖运动员信息、国家和事件的详细数据。

github 收录

MealRec+

MealRec+数据集是由武汉理工大学研究团队创建的，旨在支持个性化和健康饮食推荐的研究。该数据集包含7280条记录，涵盖了餐食与菜品之间的关联信息，以及用户与餐食的交互数据。创建过程中，研究团队采用了模拟方法，从用户与菜品交互数据中推导出餐食与菜品的关联及用户与餐食的交互。此外，数据集还利用了世界卫生组织和英国食品标准局的两个著名营养标准来计算餐食的健康评分。MealRec+数据集的应用领域主要集中在通过分析用户偏好和餐食健康性，提供更健康的餐食推荐，以促进用户的健康饮食习惯。

arXiv 收录