clairebarale/AsyLex
收藏Hugging Face2023-10-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/clairebarale/AsyLex
下载链接
链接失效反馈官方服务:
资源简介:
AsyLex数据集包含1996年至2022年加拿大难民身份认定的59,112份文档,为研究人员和从业者提供了训练和评估法律研究和案例审查的NLP模型的重要材料。数据集包含两个主要部分:Case Covers和Main Text,分别包含案例的元信息和全文。数据集还提供了24种法律相关实体类型的标注和1,682份案例结果的标注。数据集的结构包括多个配置文件,每个文件包含不同的数据内容,如原始文档、句子、实体提取、案例结果等。数据集的使用仅限于研究目的,不得用于商业用途。
提供机构:
clairebarale
原始信息汇总
数据集概述
基本信息
- 名称: AsyLex
- 语言: 英语
- 许可证: CC BY-NC-SA 4.0
- 多语言性: 单语种
- 大小类别: 1M<n<10M
- 标签: 法律NLP, 难民法
- 任务类别: 文本分类, 标记分类, 文本检索
- 任务ID: 多标签分类, 命名实体识别, 文档检索, 话语检索
数据集详情
- 包含文档数量: 59,112份
- 时间范围: 1996年至2022年
- 来源: 加拿大法律信息研究所(CanLII)
- 标注: 24种法律相关实体类型的人工标注,以及1,682份案件结果的黄金标准标注
数据集结构
- 配置:
- raw_documents: 包含所有文档的原始文本,按案件分类,带有相应的案件标识符。
- raw_sentences: 包含所有检索文档的原始文本,按句子分割,带有相应的案件标识符。
- all_legal_entities: 包含结构化数据集,所有提取的实体(每种实体类型一列),带有相应的案件标识符。
- casecover_legal_entities: 仅包含案件封面衍生的结构化数据集(每种实体类型一列),带有相应的案件标识符。
- casecover_entities_outcome: 与上述相同,但增加了案件的决定结果。
- determination_sentences: 包含所有已提取的带有“determination”实体类型的句子。所有这些句子应直接陈述决定的结果,带有相应的案件标识符。
- outcome_classification: 包含用于结果分类任务的训练和测试集。每个集包括案件标识符和决定结果(0,1,2)。测试集仅包含人工标注的黄金标准数据。
使用限制
- 许可: 仅用于研究目的,不得用于商业用途。
个人和敏感信息
- 所有文档均已匿名化。



