darrow-ai/LegalLensNER
收藏数据集概述
LegalLensNER 是一个专门为法律领域的命名实体识别(NER)设计的数集,特别强调在非结构化文本中检测法律违规行为。
数据字段
- id: (int) 每条记录的唯一标识符。
- word: (str) 文本中的特定单词或标记。
- label: (str) 分配给单词的实体类别,包括 Law, Violation, Violated By, 或 Violated On。
- start: (int) 单词在文本中的起始字符索引。
- end: (int) 单词在文本中的结束字符索引。
数据生成
LegalLensNER 数据集通过详细的流程生成,包括使用 GPT-4 进行自动数据生成以产生合成数据,并由经验丰富的法律标注人员进行手动审查。
合作与贡献
LegalLensNER 数据集是一个专门用于法律领域 NER 任务的资源,为法律文本分析和信息提取提供了广泛的基础,并促进了法律自然语言处理(NLP)研究和应用的发展。该数据集对进一步的丰富和合作开放,鼓励对法律 NLP 感兴趣的研究人员和实践者进行贡献或参与合作项目,以增强数据集的广度和深度。
数据实例
要访问数据集,可以使用以下代码片段: python from datasets import load_dataset dataset = load_dataset("darrow-ai/LegalLensNER")
引用信息
@article{bernsohn2024legallens, title={LegalLens: Leveraging LLMs for Legal Violation Identification in Unstructured Text}, author={Bernsohn, Dor and Semo, Gil and Vazana, Yaron and Hayat, Gila and Hagag, Ben and Niklaus, Joel and Saha, Rohit and Truskovskyi, Kyryl}, journal={arXiv preprint arXiv:2402.04335}, year={2024} }




