lexlms/lex_files|法律数据集|语言模型数据集
收藏数据集概述
名称: LeXFiles
语言: 英语(en)
许可: CC-BY-NC-SA-4.0
多语言性: 单语(monolingual)
大小: 1M<n<10M
源数据集: 扩展(extended)
任务类别:
- 文本生成(text-generation)
- 填充掩码(fill-mask)
任务ID:
- 语言建模(language-modeling)
- 掩码语言建模(masked-language-modeling)
标签:
- 法律(legal)
- 法律(law)
数据集详细信息
概述: LeXFiles是一个包含11个不同子语料库的新型多样化英语跨国法律语料库,涵盖了6个主要英语国家的立法和判例法(欧盟、欧洲理事会、加拿大、美国、英国、印度)。该语料库包含约190亿个令牌。
子语料库详情:
子语料库名称 | 文档数量 | 令牌数量 | 百分比 |
---|---|---|---|
EU Legislation | 93.7K | 233.7M | 1.2% |
EU Court Decisions | 29.8K | 178.5M | 0.9% |
ECtHR Decisions | 12.5K | 78.5M | 0.4% |
UK Legislation | 52.5K | 143.6M | 0.7% |
UK Court Decisions | 47K | 368.4M | 1.9% |
Indian Court Decisions | 34.8K | 111.6M | 0.6% |
Canadian Legislation | 6K | 33.5M | 0.2% |
Canadian Court Decisions | 11.3K | 33.1M | 0.2% |
U.S. Court Decisions | 4.6M | 11.4B | 59.2% |
U.S. Legislation | 518 | 1.4B | 7.4% |
U.S. Contracts | 622K | 5.3B | 27.3% |
总览:
- 文档总数: 5.8M
- 总令牌数: 18.8B
使用方法: 通过指定子语料库别名加载特定子语料库。
示例: python from datasets import load_dataset
dataset = load_dataset(lexlms/lex_files, name=us-court-cases)
引用: Chalkidis, Ilias et al. "LeXFiles and LegalLAMA: Facilitating English Multinational Legal Language Model Development." Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Toronto, Canada, 2023.
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
HUSTgearbox
This reposotory release a gearbox failure dataset, which can support intelliegnt fault diagnosis research
github 收录
DermNet
DermNet是一个包含皮肤病图像的数据集,涵盖了多种皮肤病类型,如痤疮、湿疹、牛皮癣等。该数据集主要用于皮肤病诊断和研究。
www.dermnetnz.org 收录
paris2024-data
包含2024年巴黎奥运会和残奥会的数据集,包括奖牌列表、获奖运动员信息、国家和事件的详细数据。
github 收录
MealRec+
MealRec+数据集是由武汉理工大学研究团队创建的,旨在支持个性化和健康饮食推荐的研究。该数据集包含7280条记录,涵盖了餐食与菜品之间的关联信息,以及用户与餐食的交互数据。创建过程中,研究团队采用了模拟方法,从用户与菜品交互数据中推导出餐食与菜品的关联及用户与餐食的交互。此外,数据集还利用了世界卫生组织和英国食品标准局的两个著名营养标准来计算餐食的健康评分。MealRec+数据集的应用领域主要集中在通过分析用户偏好和餐食健康性,提供更健康的餐食推荐,以促进用户的健康饮食习惯。
arXiv 收录