scientific_NER_dataset
收藏github2016-08-08 更新2024-05-31 收录
下载链接:
https://github.com/XI-lab/scientific_NER_dataset
下载链接
链接失效反馈官方服务:
资源简介:
科学文档中命名实体识别(NER)的评判数据集,包含SIGIR 2012集合和物理(arxiv HEP-PH)集合的评判n-grams,以及由最大熵分类器从SIGIR集合提取的实体。
A benchmark dataset for Named Entity Recognition (NER) in scientific documents, comprising evaluation n-grams from the SIGIR 2012 collection and the physics (arXiv HEP-PH) collection, along with entities extracted from the SIGIR collection by a maximum entropy classifier.
创建时间:
2013-10-08
原始信息汇总
数据集概述
数据集名称
Scientific Named Entity Recognition (NER) Dataset
数据集描述
本数据集用于科学文档中的命名实体识别(NER),包含以下文件:
-
SIGIR_judged.csv- 格式:
n-gram,paper title,IS_VALID - 内容:SIGIR 2012 Collection的已评判n-grams,其中
IS_VALID字段值为0或1。
- 格式:
-
Physics_judged.csv- 格式:
n-gram,arxiv ID,IS_VALID - 内容:Physics (arxiv HEP-PH) Collection的已评判n-grams,其中
IS_VALID字段值为0或1。
- 格式:
-
maxent_last20.csv- 内容:由Maximum Entropy分类器从SIGIR Collection提取的实体,未进行评判。评判信息位于
SIGIR_judged.csv中。
- 内容:由Maximum Entropy分类器从SIGIR Collection提取的实体,未进行评判。评判信息位于
搜集汇总
数据集介绍

构建方式
scientific_NER_dataset的构建,是基于科学文档中的命名实体识别任务而精心设计的。该数据集通过搜集SIGIR 2012文献集与物理学领域arXiv预印本库HEP-PH的相关n-grams,并辅以人工标注的合法性标签(IS_VALID),形成了具有判别性的训练样本。 Maximum Entropy分类器的初步实体提取结果亦包含于数据集中,以供后续的人工判别参考。
特点
该数据集的特点在于其专注于科学文献领域的命名实体识别,不仅覆盖了SIGIR和物理学两个领域,而且通过人工标注提供了精确的实体验证标签,增强了数据集的实用性和准确性。此外,数据集以CSV文件格式组织,便于处理和使用,同时包含了未标注的实体提取结果,为研究者提供了进一步分析和标注的空间。
使用方法
在使用scientific_NER_dataset时,研究者可以直接利用已标注的CSV文件进行模型训练和评估。针对未标注的实体提取结果,用户需要依据`SIGIR_judged.csv`和`Physics_judged.csv`中的标准,自行进行标注工作。数据集的结构设计使得其可以轻松地集成到现有的机器学习工作流程中,为科学研究领域的文本挖掘任务提供了有力的数据支持。
背景与挑战
背景概述
scientific_NER_dataset是一个针对科学文献命名词性实体识别(Named Entity Recognition, NER)的专业数据集,其创建旨在促进科研领域中命名实体的自动识别技术发展。该数据集由SIGIR 2012文献集合与物理学领域arXiv预印本库中的HEP-PH子库构成,包含了经过标注的有效n-gram数据,用于训练和评估NER系统。自推出以来,该数据集成为科研文本处理、信息抽取以及自然语言处理领域中的一个重要资源,对推动相关技术进步发挥了显著作用。
当前挑战
数据集在解决科学文献中的命名实体识别问题的同时,面临着以下挑战:首先,科学文献中专业术语和命名实体的复杂性为实体识别带来了困难;其次,构建过程中如何确保标注质量与一致性,以及处理大量数据时的效率问题,也是必须克服的挑战。此外,由于科学领域的快速发展,数据集的时效性和涵盖范围的更新亦是不容忽视的问题。
常用场景
经典使用场景
在科学文献处理领域,scientific_NER_dataset数据集的典型应用场景是命名实体识别任务,其通过提供经过标注的n-gram以及对应的文献标题或arxiv ID,为算法训练和模型评估提供了可靠的数据基础。
实际应用
在实际应用中,scientific_NER_dataset被广泛应用于科学文献分析系统,辅助研究人员快速定位文献中的关键信息,提高文献处理的自动化和智能化水平。
衍生相关工作
基于此数据集,学术界衍生出了一系列经典研究工作,包括但不限于实体识别算法的优化、跨领域实体识别模型的构建,以及实体链接和知识图谱构建等领域的探索。
以上内容由遇见数据集搜集并总结生成



