five

joelniklaus/legal-mc4

收藏
Hugging Face2023-08-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joelniklaus/legal-mc4
下载链接
链接失效反馈
官方服务:
资源简介:
MC4_Legal数据集包含了从mc4数据集中过滤出的法律相关文本资源,总计约106GB,可用于预训练语言模型。该数据集使用了与mc4_legal不同的过滤方法,并在英语部分使用了较小的过滤c4数据集以加快过滤速度。数据集支持多种欧洲语言,包括保加利亚语、捷克语、丹麦语、德语、希腊语、英语、西班牙语、爱沙尼亚语、芬兰语、法语、爱尔兰语、匈牙利语、意大利语、立陶宛语、拉脱维亚语、马耳他语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语和瑞典语。数据集的文件格式为jsonl.xz,包含训练和验证分割。
提供机构:
joelniklaus
原始信息汇总

数据集概述

数据集名称

  • 名称: MC4_Legal: A Corpus Covering the Legal Part of MC4 for European Languages
  • 别名: MC4_Legal

数据集基本信息

  • 语言: 支持多种欧洲语言,包括bg, cs, da, de, el, en, es, et, fi, fr, ga, hu, it, lt, lv, mt, nl, pl, pt, ro, sk, sl, sv
  • 许可证: cc-by-4.0
  • 多语言性: 多语言
  • 大小: 10M<n<100M
  • 源数据集: 原始数据
  • 任务类别: fill-mask

数据集内容

  • 数据集大小: 约106GB
  • 数据格式: jsonl.xz
  • 数据分割: 包含训练集和验证集
  • 数据实例: 每个语言的数据大小和文档数量不同,详细信息见下表:
语言 大小 (MB) 单词数 文档数 平均单词/文档
所有 448980 28599300521 9873288 2896
... ... ... ... ...

数据集使用

  • 使用示例: 使用Hugging Face的datasets库加载数据集,示例代码如下: python from datasets import load_dataset dataset = load_dataset("joelito/mc4_legal", "de", split=train, streaming=True)

数据集创建

  • 创建方法: 通过过滤mc4数据集中的法律相关数据创建
  • 注意事项: 数据集可能包含噪声,质量未知
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作