lavis-nlp/german_legal_sentences
收藏Hugging Face2022-10-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lavis-nlp/german_legal_sentences
下载链接
链接失效反馈官方服务:
资源简介:
德国法律句子(GLS)数据集是一个自动生成的训练数据集,用于德语法律文档中的语义句子匹配和引用推荐。该数据集遵循弱监督概念,使用多种启发式方法生成不完美的标签。数据集中的句子和引用是从[Open Legal Data](http://openlegaldata.io/)提供的真实司法裁决中解析出来的。主要支持的任务是语义相似性排名,并提供了一系列基准方法的性能指标。
提供机构:
lavis-nlp
原始信息汇总
数据集概述
数据集描述
数据集总结
德国法律句子(GLS)是一个自动生成的训练数据集,用于德语法律文档中的语义句子匹配和引用推荐。该数据集遵循弱监督的概念,使用法律引用匹配和BM25相似性等多种启发式方法生成不完美的标签。数据集中的句子和引用是从Open Legal Data提供的实际司法决定中解析得到的。
支持的任务和排行榜
主要任务是语义相似性排序,使用平均倒数排名(MRR)、MAP和召回率作为评估指标。提供了几种基线方法的性能比较。
语言
该数据集包含来自德国法院决定领域的文本。
数据集结构
数据实例
数据集中的每个实例包含查询文档的ID、引用ID、句子ID和文本,以及相关文档的相应信息。
数据字段
[更多信息待补充]
数据分割
[更多信息待补充]
数据集创建
源数据
初始数据收集和规范化
数据来源于Open Legal Data,经过预处理和规范化,使用手工制作的正则表达式解析法律引用,并进行标准化处理。
源语言生产者
源语言来自德国法院诉讼的上下文。
注释
注释过程
注释是机器生成的。
注释者
注释由机器完成。
个人和敏感信息
源文档已公开并匿名化。
使用数据的考虑因素
数据集的社会影响
该数据集旨在通过加速语义搜索技术的研究,提高法院决定对公众的可访问性。
偏见讨论
[更多信息待补充]
其他已知限制
[更多信息待补充]



