joelniklaus/legal-mc4
收藏Hugging Face2023-08-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joelniklaus/legal-mc4
下载链接
链接失效反馈官方服务:
资源简介:
MC4_Legal数据集包含了从mc4数据集中过滤出的法律相关文本资源,总计约106GB,可用于预训练语言模型。该数据集使用了与mc4_legal不同的过滤方法,并在英语部分使用了较小的过滤c4数据集以加快过滤速度。数据集支持多种欧洲语言,包括保加利亚语、捷克语、丹麦语、德语、希腊语、英语、西班牙语、爱沙尼亚语、芬兰语、法语、爱尔兰语、匈牙利语、意大利语、立陶宛语、拉脱维亚语、马耳他语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语和瑞典语。数据集的文件格式为jsonl.xz,包含训练和验证分割。
提供机构:
joelniklaus
原始信息汇总
数据集概述
数据集名称
- 名称: MC4_Legal: A Corpus Covering the Legal Part of MC4 for European Languages
- 别名: MC4_Legal
数据集基本信息
- 语言: 支持多种欧洲语言,包括bg, cs, da, de, el, en, es, et, fi, fr, ga, hu, it, lt, lv, mt, nl, pl, pt, ro, sk, sl, sv
- 许可证: cc-by-4.0
- 多语言性: 多语言
- 大小: 10M<n<100M
- 源数据集: 原始数据
- 任务类别: fill-mask
数据集内容
- 数据集大小: 约106GB
- 数据格式: jsonl.xz
- 数据分割: 包含训练集和验证集
- 数据实例: 每个语言的数据大小和文档数量不同,详细信息见下表:
| 语言 | 大小 (MB) | 单词数 | 文档数 | 平均单词/文档 |
|---|---|---|---|---|
| 所有 | 448980 | 28599300521 | 9873288 | 2896 |
| ... | ... | ... | ... | ... |
数据集使用
- 使用示例: 使用Hugging Face的
datasets库加载数据集,示例代码如下: python from datasets import load_dataset dataset = load_dataset("joelito/mc4_legal", "de", split=train, streaming=True)
数据集创建
- 创建方法: 通过过滤mc4数据集中的法律相关数据创建
- 注意事项: 数据集可能包含噪声,质量未知



