five

darrow-ai/LegalLensNER|法律领域数据集|命名实体识别数据集

收藏
hugging_face2024-07-08 更新2024-03-04 收录
法律领域
命名实体识别
下载链接:
https://hf-mirror.com/datasets/darrow-ai/LegalLensNER
下载链接
链接失效反馈
资源简介:
LegalLensNER是一个专门为法律领域的命名实体识别(NER)设计的数据集,特别侧重于检测非结构化文本中的法律违规行为。数据集包含每个记录的唯一标识符、文本中的特定单词或标记、分配给单词的实体类别(如法律、违规、违规者或违规时间)、单词在文本中的起始和结束字符索引。数据生成过程结合了GPT-4的自动化数据生成和资深法律注释者的手动审查。数据集开放给研究人员和从业者进行进一步的丰富和合作。

LegalLensNER是一个专门为法律领域的命名实体识别(NER)设计的数据集,特别侧重于检测非结构化文本中的法律违规行为。数据集包含每个记录的唯一标识符、文本中的特定单词或标记、分配给单词的实体类别(如法律、违规、违规者或违规时间)、单词在文本中的起始和结束字符索引。数据生成过程结合了GPT-4的自动化数据生成和资深法律注释者的手动审查。数据集开放给研究人员和从业者进行进一步的丰富和合作。
提供机构:
darrow-ai
原始信息汇总

数据集概述

LegalLensNER 是一个专门为法律领域的命名实体识别(NER)设计的数集,特别强调在非结构化文本中检测法律违规行为。

数据字段

  • id: (int) 每条记录的唯一标识符。
  • word: (str) 文本中的特定单词或标记。
  • label: (str) 分配给单词的实体类别,包括 Law, Violation, Violated By, 或 Violated On。
  • start: (int) 单词在文本中的起始字符索引。
  • end: (int) 单词在文本中的结束字符索引。

数据生成

LegalLensNER 数据集通过详细的流程生成,包括使用 GPT-4 进行自动数据生成以产生合成数据,并由经验丰富的法律标注人员进行手动审查。

合作与贡献

LegalLensNER 数据集是一个专门用于法律领域 NER 任务的资源,为法律文本分析和信息提取提供了广泛的基础,并促进了法律自然语言处理(NLP)研究和应用的发展。该数据集对进一步的丰富和合作开放,鼓励对法律 NLP 感兴趣的研究人员和实践者进行贡献或参与合作项目,以增强数据集的广度和深度。

数据实例

要访问数据集,可以使用以下代码片段: python from datasets import load_dataset dataset = load_dataset("darrow-ai/LegalLensNER")

引用信息

@article{bernsohn2024legallens, title={LegalLens: Leveraging LLMs for Legal Violation Identification in Unstructured Text}, author={Bernsohn, Dor and Semo, Gil and Vazana, Yaron and Hayat, Gila and Hagag, Ben and Niklaus, Joel and Saha, Rohit and Truskovskyi, Kyryl}, journal={arXiv preprint arXiv:2402.04335}, year={2024} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
LegalLensNER数据集的构建过程融合了自动化与人工精校的双重策略。首先,利用GPT-4生成合成数据,确保数据多样性与覆盖面。随后,经验丰富的法律专家对生成的数据进行细致的手动标注,确保标签的准确性与专业性。这一过程不仅提升了数据集的质量,也为法律领域的命名实体识别任务提供了坚实的基础。
特点
LegalLensNER数据集的显著特点在于其专注于法律领域的命名实体识别,特别是对法律违规行为的识别。数据集中的每个记录包含独特的标识符、词汇、标签及其在文本中的起止位置,标签涵盖法律、违规、违规者及违规时间等多个类别。这种精细的标注结构使得该数据集在法律文本分析中具有高度的实用性和针对性。
使用方法
LegalLensNER数据集的使用方法简便且灵活。用户可通过HuggingFace的datasets库直接加载该数据集,使用Python代码如下:`from datasets import load_dataset; dataset = load_dataset("darrow-ai/LegalLensNER")`。加载后,数据集可用于训练和评估法律领域的命名实体识别模型,支持法律文本的信息提取与分析,推动法律自然语言处理研究的发展。
背景与挑战
背景概述
LegalLensNER数据集由Darrow.ai于2023年精心打造,专注于法律领域中的命名实体识别(NER)任务,特别是针对非结构化文本中的法律违规行为进行检测。该数据集的核心研究问题在于如何有效识别和分类法律文本中的关键实体,如法律条款、违规行为、违规对象及违规时间等。通过结合GPT-4的自动化数据生成与资深法律注释者的手动审查,LegalLensNER为法律自然语言处理(NLP)研究提供了坚实的基础,推动了法律文本分析与信息提取技术的发展。
当前挑战
LegalLensNER数据集在构建过程中面临多项挑战。首先,法律文本的复杂性和专业性要求高度精确的注释,这依赖于经验丰富的法律专家进行手动审查,增加了数据生成的成本与时间。其次,法律领域的术语和实体类别多样且复杂,如何设计合理的标签体系以覆盖广泛的实体类型是一个重要挑战。此外,法律文本的非结构化特性使得自动化的数据生成和实体识别任务更具难度,尤其是在处理模糊或不明确的表述时。这些挑战不仅影响了数据集的构建效率,也对后续的法律NLP模型训练提出了更高的要求。
常用场景
经典使用场景
LegalLensNER数据集在法律领域的命名实体识别(NER)任务中展现了其经典应用场景。该数据集专注于从非结构化文本中识别法律违规行为,具体包括法律条文、违规行为、违规主体及违规时间等实体的提取。通过这一过程,LegalLensNER为法律文本分析提供了坚实的基础,尤其适用于自动化法律信息提取和合规性审查。
解决学术问题
LegalLensNER数据集解决了法律领域中非结构化文本信息提取的学术难题。传统上,法律文本的复杂性和多样性使得自动化的实体识别变得极具挑战性。该数据集通过提供高质量的标注数据,推动了法律自然语言处理(NLP)研究的发展,为法律违规行为的自动检测提供了新的研究方向,具有重要的学术意义和应用价值。
衍生相关工作
LegalLensNER数据集的发布催生了一系列相关研究工作。例如,基于该数据集的模型优化和扩展研究,进一步提升了法律文本中实体识别的准确性和鲁棒性。此外,该数据集还激发了跨领域的研究兴趣,如结合知识图谱构建法律知识库,或应用于多语言法律文本处理,推动了法律NLP领域的技术进步和创新。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

Fruits-360

一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录