Softcite dataset

github2024-05-21 更新2024-05-31 收录

下载链接：

https://github.com/howisonlab/softcite-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于监督学习基于命名实体识别的研究出版物中软件提及的金标准数据集，由德克萨斯大学奥斯汀分校的Howison实验室和Science-miner创建，并得到Sloan基金会的资助支持。

A gold standard dataset for supervised learning based on named entity recognition in research publications mentioning software, created by the Howison Lab at the University of Texas at Austin and Science-miner, with funding support from the Sloan Foundation.

创建时间：

2017-06-01

原始信息汇总

数据集概述

数据集名称

Softcite dataset

数据集描述

Softcite数据集是由Howison Lab at the University of Texas at Austin和Science-miner合作，并得到Sloan Foundation资助开发的一个黄金标准数据集。该数据集专注于研究出版物中软件提及的命名实体识别，适用于监督学习。

数据集内容

数据集包含约5,000篇开放获取的研究出版物，主要来自生命科学和社会科学领域。
在这些出版物中，共识别出4,093次软件提及。
软件提及被进一步标注了软件的详细信息，如版本、出版商和访问URL（如有）。
数据集以TEI/XML格式发布，包含标注的研究出版物元数据和软件提及。

数据集用途

设计用于机器学习，特别是监督学习基础的学术文本挖掘。
可用于训练模型识别文本中的软件实体，开发提高软件在信息系统中可见性的工具，或研究软件在研究中的使用情况。

数据集创建方法

使用GROBID将数千篇开放获取出版物的PDF转换为TEI/XML文本。
由NLP专家和研究软件专家组成的团队进行软件提及的标注。
通过内部标注者一致性检查确保标注质量。

数据集版本

当前版本为v1.0，已发布在GitHub和Zenodo。

数据集许可证

根据Creative Commons Attribution 4.0 International License授权。

数据集未来发展

计划与其他现有数据集和资源建立互操作性，以扩大软件实体识别的ML努力。
开发CiteAs.org，一个用于在线发现软件和其他研究成果的交互式搜索引擎，并计划将软件知识库整合进CiteAs.org以增强推荐功能。
计划基于现有标注方案，从不同领域的文献中众包更多的软件标注数据，并计划未来向社区发布这些数据。

搜集汇总

数据集介绍

构建方式

Softcite数据集的构建过程严谨且系统，首先利用开源机器学习库GROBID将数千份开放获取的科研出版物PDF文件转换为TEI/XML文本格式。随后，由自然语言处理专家和研究软件领域的专家组成的标注团队，对这些出版物中的软件提及进行了详细的标注，包括软件版本、发布者和访问URL等细节。为确保标注的一致性和准确性，团队进行了多次交叉验证和专家审查，最终形成了这一高质量的金标准数据集。

特点

Softcite数据集的显著特点在于其高质量的标注和丰富的上下文信息。该数据集包含了约5000篇生命科学和社会科学领域的开放获取研究出版物，识别并标注了4093个软件提及。这些软件提及不仅包括基本的软件名称，还涵盖了版本、发布者和访问URL等详细信息，且所有标注均在段落上下文中进行，确保了上下文相关性。此外，数据集采用TEI/XML格式，便于机器学习模型的直接使用。

使用方法

Softcite数据集主要用于支持基于监督学习的软件提及识别任务。用户可以利用该数据集训练模型，以识别文本中的软件实体，并提取相关信息。此外，数据集还可用于开发提升软件在信息系统中可见性的工具，或研究软件在科研中的使用情况。为方便用户，数据集提供了详细的文档和示例，用户可通过GitHub讨论区或直接联系数据集维护者获取进一步的技术支持。

背景与挑战

背景概述

Softcite数据集由德克萨斯大学奥斯汀分校的Howison实验室与Science-miner合作创建，并得到Sloan基金会的资助。该数据集旨在通过识别和标注研究出版物中的软件提及，提升软件在学术影响评估系统中的可见性。创建时间可追溯至2015年，主要研究人员包括James Howison和Fan Du等。核心研究问题聚焦于如何通过机器学习技术，从大量开放获取的研究出版物中提取软件提及，并对其进行详细标注，包括软件版本、发布者和访问URL等信息。该数据集对软件工程和信息科学领域具有重要影响，为软件在学术研究中的贡献提供了量化依据。

当前挑战

Softcite数据集在构建过程中面临多项挑战。首先，软件提及在学术出版物中通常未被正式索引，导致大量有价值的软件信息无法被学术数据库和信息检索系统捕捉。其次，数据集的构建涉及大量开放获取出版物的PDF转换和手动标注，确保标注的一致性和准确性是一项复杂任务。此外，如何将标注数据有效地整合到现有的学术信息系统中，以提升软件的可见性和影响力，也是该数据集面临的重要挑战。

常用场景

经典使用场景

Softcite数据集的经典使用场景主要集中在软件实体识别（Named Entity Recognition, NER）领域。该数据集通过标注大量生命科学和社会科学领域的开放获取研究出版物，识别并记录了4,093个软件提及。这些标注数据以TEI/XML格式呈现，包含软件的版本、发布者和访问URL等详细信息，为机器学习模型提供了丰富的训练和验证资源。研究者可以利用此数据集训练模型，以自动识别和提取学术文本中的软件提及，从而提升软件在学术影响评估系统中的可见性。

衍生相关工作

Softcite数据集的发布催生了多项相关研究和工作。首先，基于该数据集，研究者开发了GROBID模块用于软件提及识别，并构建了软件知识库，提供了一系列增强学术文本挖掘和信息检索的功能。其次，Softcite数据集与CiteAs.org等平台的整合，进一步推动了软件在学术引用和推荐系统中的应用。此外，该数据集还激发了更多关于软件在学术文献中角色和影响的研究，促进了跨学科的合作和知识共享，为学术软件生态系统的研究提供了新的视角和方法。

数据集最近研究