DFKI-SLT/cross_ner
收藏Hugging Face2023-01-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DFKI-SLT/cross_ner
下载链接
链接失效反馈官方服务:
资源简介:
CrossNER是一个跨领域的命名实体识别数据集,专门设计用于处理不同领域(政治、自然科学、音乐、文学和人工智能)的实体识别任务。数据集包含专家生成的标注,支持英语单语种,规模在10K到100K之间。每个领域都有特定的实体类别,数据集结构包括多个配置,每个配置对应一个领域,并提供训练、验证和测试集。
CrossNER is a cross-domain named entity recognition (NER) dataset specifically developed to address entity recognition tasks across five distinct domains: politics, natural sciences, music, literature, and artificial intelligence. The dataset features expert-curated annotations, is tailored for English monolingual applications, and has a corpus size ranging from 10K to 100K instances. Each domain has its own predefined entity categories. The dataset structure comprises multiple configurations, each corresponding to one individual domain, and provides standard training, validation, and test splits for model training and evaluation.
提供机构:
DFKI-SLT
原始信息汇总
数据集概述
名称: CrossNER
描述: CrossNER是一个跨领域的命名实体识别数据集,涵盖五个不同的领域:政治、自然科学、音乐、文学和人工智能。该数据集包含专门针对不同领域的实体类别。
语言: 英语(en)
多语言性: 单语
注释创建者: 专家生成
数据集大小: 10K<n<100K
源数据集: 扩展自conll2003
任务类别: 令牌分类
任务ID: 命名实体识别
数据集结构
特征
- id: 字符串类型
- tokens: 字符串序列
- ner_tags: 类别标签序列,包含78种不同的实体类型,如B-academicjournal, I-academicjournal等。
数据分割
- train: 不同配置下的训练集大小和示例数量各异,例如在ai配置下,num_bytes为65080,num_examples为100。
- validation: 不同配置下的验证集大小和示例数量各异,例如在ai配置下,num_bytes为189453,num_examples为350。
- test: 不同配置下的测试集大小和示例数量各异,例如在ai配置下,num_bytes为225691,num_examples为431。
下载和数据集大小
- 下载大小: 不同配置下的下载大小各异,例如在ai配置下为289173字节。
- 数据集大小: 不同配置下的数据集大小各异,例如在ai配置下为480224字节。
数据集标签
数据集包含多种实体标签,用于标识文本中的不同实体类型,如学术期刊、专辑、算法等,共计78种。
数据集配置
数据集提供多种配置,包括ai、literature、music、conll2003、politics和science,每种配置针对不同的领域和任务需求。
数据集示例
数据集中的示例包括文本中的令牌及其对应的实体标签,例如: json { "id": "0", "tokens": ["EU", "rejects", "German", "call", "to", "boycott", "British", "lamb", "."], "ner_tags": [49, 0, 41, 0, 0, 0, 41, 0, 0] }
此示例中,"EU"被标记为组织实体(标签49),其余令牌未被标记为任何实体。
搜集汇总
数据集介绍

背景与挑战
背景概述
CrossNER是一个跨领域的命名实体识别数据集,涵盖政治、自然科学、音乐、文学和人工智能五个领域,提供详细的实体类别标注和未标注的领域相关语料库。数据集结构清晰,分为训练集、开发集和测试集,适用于跨领域NER任务的评估和研究。
以上内容由遇见数据集搜集并总结生成



