joelniklaus/legal-mc4

Name: joelniklaus/legal-mc4
Creator: joelniklaus
Published: 2023-08-06 22:54:20
License: 暂无描述

Hugging Face2023-08-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/joelniklaus/legal-mc4

下载链接

链接失效反馈

官方服务：

资源简介：

MC4_Legal数据集包含了从mc4数据集中过滤出的法律相关文本资源，总计约106GB，可用于预训练语言模型。该数据集使用了与mc4_legal不同的过滤方法，并在英语部分使用了较小的过滤c4数据集以加快过滤速度。数据集支持多种欧洲语言，包括保加利亚语、捷克语、丹麦语、德语、希腊语、英语、西班牙语、爱沙尼亚语、芬兰语、法语、爱尔兰语、匈牙利语、意大利语、立陶宛语、拉脱维亚语、马耳他语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语和瑞典语。数据集的文件格式为jsonl.xz，包含训练和验证分割。

提供机构：

joelniklaus

原始信息汇总

数据集概述

数据集名称

名称: MC4_Legal: A Corpus Covering the Legal Part of MC4 for European Languages
别名: MC4_Legal

数据集基本信息

语言: 支持多种欧洲语言，包括bg, cs, da, de, el, en, es, et, fi, fr, ga, hu, it, lt, lv, mt, nl, pl, pt, ro, sk, sl, sv
许可证: cc-by-4.0
多语言性: 多语言
大小: 10M<n<100M
源数据集: 原始数据
任务类别: fill-mask

数据集内容

数据集大小: 约106GB
数据格式: jsonl.xz
数据分割: 包含训练集和验证集
数据实例: 每个语言的数据大小和文档数量不同，详细信息见下表：

语言	大小 (MB)	单词数	文档数	平均单词/文档
所有	448980	28599300521	9873288	2896
...	...	...	...	...

数据集使用

使用示例: 使用Hugging Face的datasets库加载数据集，示例代码如下： python from datasets import load_dataset dataset = load_dataset("joelito/mc4_legal", "de", split=train, streaming=True)

数据集创建

创建方法: 通过过滤mc4数据集中的法律相关数据创建
注意事项: 数据集可能包含噪声，质量未知

5,000+

优质数据集

54 个

任务类型

进入经典数据集