darrow-ai/LegalLensNER|法律领域数据集|命名实体识别数据集
收藏数据集概述
LegalLensNER 是一个专门为法律领域的命名实体识别(NER)设计的数集,特别强调在非结构化文本中检测法律违规行为。
数据字段
- id: (int) 每条记录的唯一标识符。
- word: (str) 文本中的特定单词或标记。
- label: (str) 分配给单词的实体类别,包括 Law, Violation, Violated By, 或 Violated On。
- start: (int) 单词在文本中的起始字符索引。
- end: (int) 单词在文本中的结束字符索引。
数据生成
LegalLensNER 数据集通过详细的流程生成,包括使用 GPT-4 进行自动数据生成以产生合成数据,并由经验丰富的法律标注人员进行手动审查。
合作与贡献
LegalLensNER 数据集是一个专门用于法律领域 NER 任务的资源,为法律文本分析和信息提取提供了广泛的基础,并促进了法律自然语言处理(NLP)研究和应用的发展。该数据集对进一步的丰富和合作开放,鼓励对法律 NLP 感兴趣的研究人员和实践者进行贡献或参与合作项目,以增强数据集的广度和深度。
数据实例
要访问数据集,可以使用以下代码片段: python from datasets import load_dataset dataset = load_dataset("darrow-ai/LegalLensNER")
引用信息
@article{bernsohn2024legallens, title={LegalLens: Leveraging LLMs for Legal Violation Identification in Unstructured Text}, author={Bernsohn, Dor and Semo, Gil and Vazana, Yaron and Hayat, Gila and Hagag, Ben and Niklaus, Joel and Saha, Rohit and Truskovskyi, Kyryl}, journal={arXiv preprint arXiv:2402.04335}, year={2024} }

中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录
Fruits-360
一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。
github 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录