five

joelniklaus/german_argument_mining

收藏
Hugging Face2022-09-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/joelniklaus/german_argument_mining
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个德语法律判决语料库,包含了200个随机选择的判决,并由法律专家对这些判决中的结论、定义和归因等部分进行了标注。数据集主要用于多类文本分类任务,特别是论点挖掘。数据集的创建目的是为了提供一个公开可用的德语法律文本语料库,标注的内容包括德国法律写作风格Urteilsstil的组成部分。数据集的语言为德语,源自巴伐利亚的法院。数据集的创建过程包括从巴伐利亚州的法院网站爬取数据,并由法律专家进行标注。数据集的结构包括元数据文件和句子分类文件,元数据文件包含了每个法院的详细信息,句子分类文件则包含了每个句子的分类标签。数据集被随机分为训练集、验证集和测试集,并提供了每个类别的分布情况。
提供机构:
joelniklaus
原始信息汇总

数据集概述

数据集名称

  • 名称: Annotated German Legal Decision Corpus
  • 别名: 德国法律判决标注语料库

数据集属性

  • 语言: 德语 (de)
  • 许可证: Creative Commons Attribution 4.0 International (cc-by-4.0)
  • 多语言性: 单语种
  • 大小: 10,000 < n < 100,000
  • 来源: 原始数据
  • 任务类别: 文本分类
  • 任务ID: 多类分类

数据集内容

  • 描述: 该数据集包含200个随机选择的判决,由法律专家标注了德国法律写作风格Urteilsstil的组成部分:结论、定义和涵摄。
  • 数据量: 总计25,075个句子被标注,其中5%为结论,21%为定义,53%为涵摄,剩余21%为其他。
  • 数据来源: 来自22个法院,主要来自VG Augsburg、VG Ansbach和LSG Munich。
  • 时间范围: 主要集中在2016年至2019年,无2020年的判决。

数据集结构

  • 数据实例: 每个句子作为json对象存储在train.jsonl, validation.jsonl, 或 test.jsonl文件中。
  • 数据字段: 包括file_number, input_sentence, label, context_before, context_after等。
  • 数据分割: 随机分割为80%训练集,10%验证集,10%测试集。

数据集创建

  • 标注理由: 创建一个公开的德国法律文本语料库,包含由法律专家标注的判决。
  • 源数据: 来自www.gesetze-bayern.de网站的判决,由C.H.BECK处理,包括匿名化、关键词化和添加编辑指南。
  • 标注者: 一位持有法律国家考试第一阶段资格的法律专家。

使用考虑

  • 数据处理: 使用SoMaJo Sentence Splitter,存在部分分割不准确的情况。

附加信息

  • 数据集维护者: Joel Niklaus和Veton Matoshi。
  • 贡献者: @kapllan 和 @joelniklaus。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作