cross-ner

Hugging Face2025-10-24 更新2025-10-25 收录

下载链接：

https://huggingface.co/datasets/extraordinarylab/cross-ner

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了五个领域的数据：人工智能(ai)、文学(literature)、音乐(music)、政治(politics)和科学(science)。每个领域的数据都包括 tokens 和 ner_tags 两个特征，其中 tokens 是文本序列，ner_tags 是命名实体识别标签序列。数据集分为训练集(train)、验证集(validation)和测试集(test)。人工智能领域涉及算法、会议、国家、领域、地点、指标、杂项、组织、人员、产品、编程语言、研究员、任务、大学等实体类型。文学领域涉及奖项、书籍、国家、事件、文学类型、地点、杂志、杂项、组织、人员、诗歌、作家等实体类型。音乐领域涉及专辑、奖项、乐队、国家、事件、地点、杂项、音乐艺术家、乐器、音乐类型、组织、人员、歌曲等实体类型。政治领域涉及国家、选举、事件、地点、杂项、组织、人员、政党等实体类型。科学领域涉及学术期刊、天体、奖项、化学化合物、化学元素、国家、学科、酶、事件、地点、杂项、组织、人员、蛋白质、科学家、理论、大学等实体类型。

创建时间：

2025-10-22

原始信息汇总

Cross-NER 数据集概述

数据集基本信息

数据集名称：Cross-NER
配置数量：5个独立配置
数据格式：序列标注格式

配置详情

AI领域配置

特征字段：
- tokens：字符串序列
- ner_tags：字符串序列
数据划分：
- 训练集：100个样本，63,594字节
- 验证集：350个样本，182,480字节
- 测试集：431个样本，215,418字节
实体类型：ALGORITHM, CONFERENCE, COUNTRY, FIELD, LOCATION, METRICS, MISC, ORGANISATION, PERSON, PRODUCT, PROGRAMLANG, RESEARCHER, TASK, UNIVERSITY

文学领域配置

特征字段：
- tokens：字符串序列
- ner_tags：字符串序列
数据划分：
- 训练集：100个样本，60,015字节
- 验证集：400个样本，232,319字节
- 测试集：416个样本，255,110字节
实体类型：AWARD, BOOK, COUNTRY, EVENT, LITERARYGENRE, LOCATION, MAGAZINE, MISC, ORGANISATION, PERSON, POEM, WRITER

音乐领域配置

特征字段：
- tokens：字符串序列
- ner_tags：字符串序列
数据划分：
- 训练集：100个样本，65,151字节
- 验证集：380个样本，260,943字节
- 测试集：465个样本，329,216字节
实体类型：ALBUM, AWARD, BAND, COUNTRY, EVENT, LOCATION, MISC, MUSICALARTIST, MUSICALINSTRUMENT, MUSICGENRE, ORGANISATION, PERSON, SONG

政治领域配置

特征字段：
- tokens：字符串序列
- ner_tags：字符串序列
数据划分：
- 训练集：200个样本，148,987字节
- 验证集：541个样本，452,499字节
- 测试集：651个样本，495,984字节
实体类型：COUNTRY, ELECTION, EVENT, LOCATION, MISC, ORGANISATION, PERSON, POLITICALPARTY, POLITICIAN

科学领域配置

特征字段：
- tokens：字符串序列
- ner_tags：字符串序列
数据划分：
- 训练集：200个样本，122,701字节
- 验证集：450个样本，286,015字节
- 测试集：543个样本，341,182字节
实体类型：ACADEMICJOURNAL, ASTRONOMICALOBJECT, AWARD, CHEMICALCOMPOUND, CHEMICALELEMENT, COUNTRY, DISCIPLINE, ENZYME, EVENT, LOCATION, MISC, ORGANISATION, PERSON, PROTEIN, SCIENTIST, THEORY, UNIVERSITY

总体统计

总下载大小：885,236字节
总数据集大小：3,514,614字节
覆盖领域：人工智能、文学、音乐、政治、科学

搜集汇总

数据集介绍

构建方式

在跨领域命名实体识别研究中，cross-ner数据集通过精心设计的标注体系构建而成。该数据集涵盖人工智能、文学、音乐、政治和科学五大专业领域，每个领域均配置独立的标注规范。构建过程中采用标准化的训练集、验证集和测试集划分策略，其中训练样本规模控制在100-200条，验证集与测试集则根据领域复杂度配置350-650条不等样本，确保模型在不同领域间具有可比较的评估基准。

使用方法

针对跨领域命名实体识别任务，研究者可通过加载特定领域配置灵活使用该数据集。以政治领域为例，用户可选择politics配置加载包含200条训练样本、541条验证样本和651条测试样本的数据分区。每个数据样本均以(token序列, ner_tag序列)的标准化格式呈现，支持直接输入主流神经网络模型进行训练和评估，为跨领域迁移学习研究提供标准化实验基准。

背景与挑战

背景概述

跨领域命名实体识别数据集Cross-NER由多领域研究团队于自然语言处理技术蓬勃发展时期构建，旨在解决传统命名实体识别模型在特定领域泛化能力不足的核心问题。该数据集涵盖人工智能、文学、音乐、政治与科学五大垂直领域，每个领域均定义了细粒度的实体类别体系，如人工智能领域的算法与编程语言、科学领域的化学元素与蛋白质等实体类型。通过构建跨领域实体标注框架，该数据集显著推动了领域自适应命名实体识别技术的研究进程，为构建通用型信息抽取系统提供了关键数据支撑。

当前挑战

在领域问题层面，该数据集需应对不同领域实体表达的显著差异性挑战，例如科学文献中的酶编号与音乐领域的专辑名称具有截然不同的语义特征和上下文模式。构建过程中面临标注一致性的核心难题，专业领域术语的边界划分需要领域专家参与验证，如化学化合物命名与天文对象的标准化标注。多领域数据分布不均衡现象亦构成重要挑战，政治领域实体数量远超文学领域，这种偏态分布可能影响跨领域模型的泛化性能。

常用场景

经典使用场景

在跨领域命名实体识别研究中，Cross-NER数据集通过涵盖人工智能、文学、音乐、政治和科学五大专业领域，为构建领域自适应模型提供了重要基准。该数据集每个领域都定义了领域特定的实体类型标签体系，例如科学领域的酶类和蛋白质实体，音乐领域的专辑和乐器实体，使得研究者能够系统评估模型在不同专业文本上的泛化能力。这种多领域标注架构为探索领域间知识迁移和领域特定实体识别提供了标准化实验平台。

解决学术问题

Cross-NER有效解决了传统命名实体识别模型在跨领域场景下性能衰减的经典难题。通过提供统一标注规范的多领域语料，该数据集支持研究者深入分析领域差异对实体识别的影响机制，推动领域自适应方法和迁移学习算法的创新。在自然语言处理领域，它填补了专业领域实体识别评估资源的空白，为构建鲁棒性更强的信息抽取系统提供了关键数据支撑。

实际应用

在实际应用层面，Cross-NER支撑了智能学术检索系统的开发，能够精准识别科学文献中的专业术语和命名实体。在媒体内容分析领域，该数据集训练的模型可自动标注新闻中的人物、组织和事件实体，助力舆情监测系统的构建。商业场景中，基于该数据集的技术已应用于专利分析、竞争情报挖掘等专业服务，显著提升了行业知识图谱的构建效率和质量。

数据集最近研究