five

clairebarale/AsyLex

收藏
Hugging Face2023-10-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/clairebarale/AsyLex
下载链接
链接失效反馈
官方服务:
资源简介:
AsyLex数据集包含1996年至2022年加拿大难民身份认定的59,112份文档,为研究人员和从业者提供了训练和评估法律研究和案例审查的NLP模型的重要材料。数据集包含两个主要部分:Case Covers和Main Text,分别包含案例的元信息和全文。数据集还提供了24种法律相关实体类型的标注和1,682份案例结果的标注。数据集的结构包括多个配置文件,每个文件包含不同的数据内容,如原始文档、句子、实体提取、案例结果等。数据集的使用仅限于研究目的,不得用于商业用途。
提供机构:
clairebarale
原始信息汇总

数据集概述

基本信息

  • 名称: AsyLex
  • 语言: 英语
  • 许可证: CC BY-NC-SA 4.0
  • 多语言性: 单语种
  • 大小类别: 1M<n<10M
  • 标签: 法律NLP, 难民法
  • 任务类别: 文本分类, 标记分类, 文本检索
  • 任务ID: 多标签分类, 命名实体识别, 文档检索, 话语检索

数据集详情

  • 包含文档数量: 59,112份
  • 时间范围: 1996年至2022年
  • 来源: 加拿大法律信息研究所(CanLII)
  • 标注: 24种法律相关实体类型的人工标注,以及1,682份案件结果的黄金标准标注

数据集结构

  • 配置:
    • raw_documents: 包含所有文档的原始文本,按案件分类,带有相应的案件标识符。
    • raw_sentences: 包含所有检索文档的原始文本,按句子分割,带有相应的案件标识符。
    • all_legal_entities: 包含结构化数据集,所有提取的实体(每种实体类型一列),带有相应的案件标识符。
    • casecover_legal_entities: 仅包含案件封面衍生的结构化数据集(每种实体类型一列),带有相应的案件标识符。
    • casecover_entities_outcome: 与上述相同,但增加了案件的决定结果。
    • determination_sentences: 包含所有已提取的带有“determination”实体类型的句子。所有这些句子应直接陈述决定的结果,带有相应的案件标识符。
    • outcome_classification: 包含用于结果分类任务的训练和测试集。每个集包括案件标识符和决定结果(0,1,2)。测试集仅包含人工标注的黄金标准数据。

使用限制

  • 许可: 仅用于研究目的,不得用于商业用途。

个人和敏感信息

  • 所有文档均已匿名化。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作