five

ner_dataset_v2

收藏
Hugging Face2025-09-08 更新2025-09-09 收录
下载链接:
https://huggingface.co/datasets/VCor/ner_dataset_v2
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个具有id,命名实体标签和分词信息的文本数据集,包含训练集部分,总共2213个样本,数据大小为167585字节。数据集中的命名实体标签有六种类型,分别是非实体(O),开始-进行(B-ING),内部-进行(I-ING),开始-数量(B-QTY),内部-数量(I-QTY),开始-单位(B-UNIT)和内部-单位(I-UNIT)。
创建时间:
2025-09-08
原始信息汇总

数据集概述

基本信息

  • 数据集名称:ner_dataset_v2
  • 发布者:VCor
  • 存储位置:https://huggingface.co/datasets/VCor/ner_dataset_v2

数据集结构

特征

  • id:整型标识符(int32)
  • ner_tags:序列标注,采用分类标签体系,具体类别包括:
    • 0:O(非实体)
    • 1:B-ING(成分起始)
    • 2:I-ING(成分内部)
    • 3:B-QTY(数量起始)
    • 4:I-QTY(数量内部)
    • 5:B-UNIT(单位起始)
    • 6:I-UNIT(单位内部)
  • tokens:文本令牌序列(字符串类型)

数据划分

  • 训练集(train)
    • 样本数量:2,213
    • 磁盘占用:167,585字节
    • 下载大小:43,827字节

数据获取

  • 默认配置:default
  • 数据文件路径:data/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,命名实体识别任务对高质量标注数据的需求日益增长。ner_dataset_v2通过系统化流程构建,其训练集包含2213个样本,每个样本均以序列化文本形式呈现,并采用精细的标注体系对食材、数量和单位三类实体进行边界与类型标注,标注过程遵循经典的BIO序列标注框架,确保实体边界的精确性和一致性。
特点
该数据集的核心特征体现在其多层次标注体系与结构化数据组织。标注标签集涵盖七种细粒度类别,包括食材实体的起始与内部标记、数量及单位的边界标识,以及非实体标记。数据以标准化特征格式存储,包含序列化的文本令牌和对应的整数编码标注序列,这种设计既支持序列标注模型的直接训练,又便于进行实体边界解析与类型分析。
使用方法
对于研究者而言,该数据集可直接加载至主流深度学习框架进行模型训练。用户通过指定数据分割路径即可访问训练集,每条数据包含文本令牌序列和对应的标注序列,标注序列采用整数编码映射至预定义的实体类别。该结构适用于构建基于循环神经网络或Transformer的命名实体识别模型,并可进一步用于信息提取系统的开发与评估。
背景与挑战
背景概述
命名实体识别作为自然语言处理领域的核心任务,旨在从非结构化文本中提取并分类实体信息。ner_dataset_v2专注于烹饪领域的材料量化实体识别,由专业机构于近年构建,通过标注食材(ING)、数量(QTY)和单位(UNIT)三类实体,为食谱结构化分析和智能烹饪系统开发提供关键数据支撑。该数据集推动了领域特定NER技术的发展,在食品计算和智能家居领域具有重要应用价值。
当前挑战
该数据集主要解决烹饪文本中量化实体联合识别挑战,包括复合实体边界划分(如'一杯面粉'需同时识别单位、数量和食材)以及跨领域迁移难题。构建过程中面临标注一致性维护的困难,特别是计量单位多样性和食材别名标准化问题,同时需要平衡标注粒度与计算复杂度,确保模型既能捕获细节又保持实用效率。
常用场景
经典使用场景
在自然语言处理领域,ner_dataset_v2数据集专为命名实体识别任务而设计,其经典使用场景聚焦于食谱文本中的成分提取。通过标注食材名称、数量及单位等实体,该数据集支持模型学习识别烹饪文档中的结构化信息,为自动化菜谱分析奠定基础。
解决学术问题
该数据集有效解决了食谱文本中多类型实体边界模糊和嵌套识别的学术难题,通过标准化标注体系提升了模型对复合实体(如“2汤匙橄榄油”)的解析精度。其意义在于推动了领域特定NER研究的发展,并为低资源场景下的实体标注提供了可复用的范式。
衍生相关工作
基于该数据集衍生的经典工作包括融合BERT架构的领域自适应NER模型,以及针对成分实体链接的跨模态研究(如关联食材图像与文本)。后续研究进一步扩展了标注体系,开发了支持多语言食谱解析的混合标注数据集FoodNER。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作