five

JoeUnili/FL_Legal_GER

收藏
Hugging Face2024-06-05 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/JoeUnili/FL_Legal_GER
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含列支敦士登的法律条文和其他法律数据,以文本形式呈现。数据集中仅包含一个名为“text”的列。该数据集旨在用于对列支敦士登法律数据进行语言模型的持续预训练。数据集仅以德语发布,包含约5700行数据。数据行数相对较少的原因是每条法律条文被上传为一行,因此所有法律条文在数据集中形成223行。数据集旨在直接用于预训练,但需要进一步的数据清理以获得满意的结果,因为存在空行,且文本行中包含格式错误,如拼写错误或缺少空格,因为大部分文本是通过OCR从PDF生成的。数据集的来源包括列支敦士登的223种不同州法律和法规、列支敦士登宪法的评论、列支敦士登民事诉讼法的评论等。

该数据集包含列支敦士登的法律条文和其他法律数据,以文本形式呈现。数据集中仅包含一个名为“text”的列。该数据集旨在用于对列支敦士登法律数据进行语言模型的持续预训练。数据集仅以德语发布,包含约5700行数据。数据行数相对较少的原因是每条法律条文被上传为一行,因此所有法律条文在数据集中形成223行。数据集旨在直接用于预训练,但需要进一步的数据清理以获得满意的结果,因为存在空行,且文本行中包含格式错误,如拼写错误或缺少空格,因为大部分文本是通过OCR从PDF生成的。数据集的来源包括列支敦士登的223种不同州法律和法规、列支敦士登宪法的评论、列支敦士登民事诉讼法的评论等。
提供机构:
JoeUnili
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别: 文本生成
  • 语言: 德语
  • 标签: 列支敦士登, 法律, 法规, 文本
  • 美观名称: 列支敦士登法律文本数据集
  • 大小类别: 1K<n<10K

数据集内容

  • 包含列支敦士登的法律条款及其他法律数据,以文本形式存在。
  • 数据集仅含一个名为“text”的列。
  • 数据集包含约5700行,每项法律条款作为一行上传,总计223行。

用途

  • 主要用于语言模型对列支敦士登法律数据的持续预训练。

数据质量

  • 数据集需要进一步清洗以获得满意结果,存在空行及格式错误,如拼写错误或缺少空格,因大部分文本由PDF通过OCR生成。

数据来源

  • 数据来源于多个公开可访问的网站,包括列支敦士登国家法律和法规、宪法评论、民法程序评论等。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作