jfrenz/legalglue
收藏Hugging Face2022-10-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jfrenz/legalglue
下载链接
链接失效反馈官方服务:
资源简介:
LegalGLUE(法律通用语言理解评估)数据集是在一篇学士论文中创建的,由四个现有的数据集组成,涵盖了三种任务类型和总共23种不同的语言。这些任务包括命名实体识别、多标签分类和主题分类。数据集支持的语言包括英语、丹麦语、德语、荷兰语、瑞典语、保加利亚语、捷克语、克罗地亚语、波兰语、斯洛伐克语、斯洛文尼亚语、西班牙语、法语、意大利语、葡萄牙语、罗马尼亚语、爱沙尼亚语、芬兰语、匈牙利语、立陶宛语、拉脱维亚语、希腊语和马耳他语。
The LegalGLUE (Legal General Language Understanding Evaluation) dataset was created in a bachelor's thesis, and it consists of four existing datasets covering three task types and a total of 23 distinct languages. The supported tasks include named entity recognition, multi-label classification, and topic classification. The languages supported by the dataset are English, Danish, German, Dutch, Swedish, Bulgarian, Czech, Croatian, Polish, Slovak, Slovenian, Spanish, French, Italian, Portuguese, Romanian, Estonian, Finnish, Hungarian, Lithuanian, Latvian, Greek, and Maltese.
提供机构:
jfrenz
原始信息汇总
数据集概述
数据集名称
- 名称: LegalGLUE
- 全称: Legal General Language Understanding Evaluation
数据集摘要
- 创建目的: 作为学士论文的一部分创建
- 组成: 包含四个现有数据集,覆盖三种任务类型和23种不同语言
- 任务类型: 包括命名实体识别、多标签文本分类和主题分类
支持的任务
- German_LER: 命名实体识别,语言为德语
- LeNER_Br: 命名实体识别,语言为葡萄牙语
- SwissJudgmentPrediction: 二元文本分类,支持德语、法语和意大利语
- MultiEURLEX: 多标签文本分类,支持23种语言
语言支持
- 语言列表: 英语、丹麦语、德语、荷兰语、瑞典语、保加利亚语、捷克语、克罗地亚语、波兰语、斯洛伐克语、斯洛文尼亚语、西班牙语、法语、意大利语、葡萄牙语、罗马尼亚语、爱沙尼亚语、芬兰语、匈牙利语、立陶宛语、拉脱维亚语、希腊语、马耳他语
数据集结构
数据实例
- German_LER: 包含样本ID、令牌和NER标签
- LeNER_Br: 包含样本ID、令牌和NER标签
- SwissJudgmentPrediction: 包含文档ID、出版年份、案件事实、判决结果、语言、地区、州和法律领域
- MultiEURLEX: 包含官方文档ID、文本和相关EUROVOC概念标签
数据字段
- German_LER: 样本ID、令牌、NER标签
- LeNER_Br: 样本ID、令牌、NER标签
- SwissJudgmentPrediction: 文档ID、出版年份、案件事实、判决结果、语言、地区、州、法律领域
- MultiEURLEX: 官方文档ID、文本、相关EUROVOC概念标签
数据分割
- German_LER: 66723个训练文档
- LeNER_Br: 7828个训练文档,1177个开发文档,1390个测试文档
- SwissJudgmentPrediction: 德语35458个训练文档,4705个开发文档,9725个测试文档;法语21179个训练文档,3095个开发文档,6820个测试文档;意大利语3072个训练文档,408个开发文档,812个测试文档
- MultiEURLEX: 支持23种语言,每种语言约55000个训练文档,5000个开发文档,5000个测试文档
数据集创建
- 来源数据: 四个现有数据集的整合
- 注释: 未提供详细信息
- 个人和敏感信息: 未提供详细信息
使用数据注意事项
- 社会影响: 未提供详细信息
- 偏见讨论: 未提供详细信息
- 其他已知限制: 未提供详细信息
附加信息
- 数据集管理者: 未提供详细信息
- 许可信息: 未提供详细信息
- 引用信息: 未提供详细信息
- 贡献: 未提供详细信息
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



