five

levow/msra_ner|命名实体识别数据集|中文NLP数据集

收藏
hugging_face2024-01-18 更新2024-05-25 收录
命名实体识别
中文NLP
下载链接:
https://hf-mirror.com/datasets/levow/msra_ner
下载链接
链接失效反馈
资源简介:
MSRA NER数据集是一个用于中文命名实体识别的资源,包含45001个训练样本和3443个测试样本。数据集中的每个实例包括一个唯一的id、一组tokens以及对应的ner_tags,用于标记实体如人名、组织名和地点名。数据集由众包方式创建,语言为中文,适用于单语种处理。
提供机构:
levow
原始信息汇总

数据集概述

基本信息

  • 数据集名称: MSRA NER
  • 语言: 中文 (zh)
  • 许可证: 未知
  • 多语言性: 单语
  • 大小: 10K<n<100K
  • 来源: 原创
  • 任务类别: 词元分类
  • 任务ID: 命名实体识别

数据集结构

  • 特征:
    • id: 字符串类型
    • tokens: 字符串序列
    • ner_tags: 标签序列,包括:
      • 0: O
      • 1: B-PER
      • 2: I-PER
      • 3: B-ORG
      • 4: I-ORG
      • 5: B-LOC
      • 6: I-LOC
  • 配置名称: msra_ner
  • 分割:
    • 训练集: 45001个样本,33323074字节
    • 测试集: 3443个样本,2642934字节
    • 下载大小: 15156606字节
    • 数据集大小: 35966008字节

训练与评估索引

  • 配置: msra_ner
  • 任务: 词元分类
  • 任务ID: 实体提取
  • 分割:
    • 训练分割: train
    • 评估分割: test
  • 列映射:
    • tokens: tokens
    • ner_tags: tags
  • 指标:
    • 类型: seqeval
    • 名称: seqeval
AI搜集汇总
数据集介绍
main_image_url
构建方式
MSRA NER数据集的构建基于众包方式,通过汇集大量标注者的努力,对中文文本进行了详尽的命名实体识别(NER)标注。该数据集的原始数据来源于真实世界的中文文本,经过标准化处理后,形成了结构化的数据集。标注过程遵循了严格的命名实体分类标准,涵盖了人名(PER)、组织名(ORG)和地名(LOC)等常见实体类型。
特点
MSRA NER数据集的主要特点在于其高质量的标注和广泛的应用场景。数据集包含了超过45,000个训练样本和3,443个测试样本,覆盖了多种中文文本类型。其标注的实体标签系统清晰,便于模型训练和评估。此外,数据集的单语特性使其特别适合于中文自然语言处理任务的研究和应用。
使用方法
MSRA NER数据集适用于命名实体识别任务,用户可以通过加载数据集的训练和测试分割来进行模型训练和评估。数据集提供了标准的字段映射,如'tokens'对应文本序列,'ner_tags'对应命名实体标签序列,便于直接应用于各种基于序列标注的模型。通过使用如seqeval等评估指标,用户可以有效地衡量模型在命名实体识别任务上的性能。
背景与挑战
背景概述
MSRA NER数据集,由微软亚洲研究院(MSRA)创建,专注于中文命名实体识别(Named Entity Recognition, NER)任务。该数据集的构建旨在推动中文自然语言处理领域的发展,特别是为实体识别提供高质量的标注数据。数据集包含了超过45,000个训练样本和3,443个测试样本,涵盖了人名、组织名和地名等常见实体类别。尽管具体创建时间和主要研究人员信息未明确,但其对中文NER领域的贡献不容忽视,为后续研究提供了坚实的基础。
当前挑战
MSRA NER数据集在构建过程中面临多重挑战。首先,中文语言的复杂性使得实体边界识别尤为困难,尤其是在处理歧义和多义词时。其次,数据集的标注过程依赖于众包,这可能导致标注一致性问题,影响模型训练的准确性。此外,数据集的规模虽适中,但仍需进一步扩展以应对日益复杂的NER任务。最后,数据集的许可信息不明确,可能对未来的研究和应用带来法律和伦理上的不确定性。
常用场景
经典使用场景
在自然语言处理领域,MSRA NER数据集的经典使用场景主要集中在命名实体识别(Named Entity Recognition, NER)任务上。该数据集通过提供丰富的中文文本标注,帮助研究者和开发者训练和评估NER模型,特别是在识别人名、组织名和地名等实体方面表现出色。其标注的精细性和广泛性使得该数据集成为中文NER研究的重要基准。
实际应用
在实际应用中,MSRA NER数据集被广泛应用于信息抽取、文本分析、智能搜索等领域。例如,在新闻自动化处理中,该数据集帮助系统自动识别和分类新闻中的关键实体,提升信息处理的效率和准确性。此外,在智能客服和法律文书分析等场景中,该数据集也为实体识别提供了重要的技术支持,增强了系统的智能化水平。
衍生相关工作
基于MSRA NER数据集,研究者们开发了多种先进的NER模型和算法,推动了中文NER技术的快速发展。例如,一些研究工作通过引入深度学习技术,显著提升了实体识别的准确率。此外,该数据集还被用于多任务学习、跨语言学习等领域的研究,衍生出了一系列创新性的工作,进一步拓展了中文NER的应用范围和研究深度。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

RadDet

RadDet是一个包含11种雷达类别的数据集,包括6种新的低概率干扰(LPI)多相码(P1, P2, P3, P4, Px, Zadoff-Chu)和一种新的宽带调频连续波(FMCW)。数据集覆盖500 MHz频段,包含40,000个雷达帧,分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供:稀疏数据集(RadDet-1T)和密集数据集(RadDet-9T)。

github 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。

www.nrel.gov 收录