SYNERGY dataset

github2024-05-11 更新2024-05-31 收录

下载链接：

https://github.com/asreview/systematic-review-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

SYNERGY是一个关于系统评价中研究选择的免费开放机器学习数据集，包含来自26个系统评价的169,288篇学术作品。其中仅有2,834篇（1.67%）被二元分类数据集包含在系统评价中。这使得SYNERGY数据集成为开发信息检索算法的独特数据集，特别是对于稀疏标签。由于每个记录都有许多可用变量（如标题、摘要、作者、参考文献、主题），该数据集对NLP、机器学习、网络分析等领域的研究人员非常有用。数据集总共包含82,668,134个可训练数据点。

SYNERGY is a free and open machine learning dataset focused on study selection in systematic reviews, encompassing 169,288 academic works from 26 systematic reviews. Only 2,834 of these works (1.67%) are included in the binary classification dataset for systematic reviews. This makes the SYNERGY dataset a unique resource for developing information retrieval algorithms, especially for sparse labels. With numerous available variables per record (such as title, abstract, authors, references, and subjects), the dataset is highly valuable for researchers in fields like NLP, machine learning, and network analysis. The dataset contains a total of 82,668,134 trainable data points.

创建时间：

2019-01-18

原始信息汇总

SYNERGY数据集概述

数据集描述

名称: SYNERGY
类型: 开放数据集，专注于系统评价中的研究选择。
规模: 包含169,288篇学术作品，来自26个系统评价。
包含情况: 仅有2,834篇作品（占总数的1.67%）被包含在系统评价中。
用途: 适用于开发信息检索算法，特别是针对稀疏标签的研究。
数据点: 总计82,668,134个可训练数据点。

数据集内容

记录数量: 169,288条记录。
标记记录: 2,834条记录由系统评价作者手动标记为包含。
数据集细分:
- 包含26个子数据集，每个子数据集对应一个系统评价。
- 每个子数据集包含不同数量的记录和被包含的记录数。

数据集变量

主要变量:
- id: 字符串，OpenAlex ID。
- doi: 字符串，对象的DOI标识符（如有）。
- label_included: 二进制，1表示包含记录，0表示排除记录。
- title: 字符串，作品标题。
- abstract: 字符串，作品摘要。
- authorships: 列表，作者及其机构的列表。
- type: 字符串，作品类型。
- publication_year: 整数，出版年份。
- referenced_works: 列表，本作品引用的作品的OpenAlex ID列表。
- concepts: 列表，维基数据概念对象（或主题）列表。
- best_oa_location: 对象，作品最佳开放访问位置。
- cited_by_count: 整数，截至2023年4月1日，本作品被引用的次数。

数据获取

获取方式: 通过synergy-dataset Python包安装和下载。
命令: 使用python -m synergy_dataset get下载和构建数据集。
数据集管理: 使用synergy_dataset list和synergy_dataset show <DATASET_NAME>查看数据集及其属性。

数据集许可

许可类型: CC0 1.0公共领域贡献许可证。
数据来源: OpenAlex发布的元数据作品。

搜集汇总

数据集介绍

构建方式

SYNERGY数据集通过整合26个系统综述的研究选择数据构建而成，涵盖了169,288篇学术作品，其中仅有2,834篇（1.67%）被标记为包含。数据集的构建基于OpenAlex Work对象，每个记录包含丰富的元数据，如标题、摘要、作者、引用等，确保了数据的多样性和深度。通过手动标注和系统综述的资格标准，数据集为信息检索算法的发展提供了宝贵的资源，特别是在稀疏标签的场景下。

特点

SYNERGY数据集的显著特点在于其稀疏标签的特性，仅有1.67%的记录被标记为包含，这为研究者提供了挑战性的训练环境。此外，数据集包含了82,668,134个可训练数据点，涵盖了多种变量，如标题、摘要、作者、引用等，适用于自然语言处理、机器学习、网络分析等多个领域。数据集的多样性和丰富性使其成为研究者探索复杂信息检索问题的理想选择。

使用方法

SYNERGY数据集可通过Python包`synergy-dataset`轻松获取，用户只需安装该包并通过命令行运行`python -m synergy_dataset get`即可下载和构建数据集。数据集提供了详细的变量列表和属性，用户可以使用`synergy_dataset list`和`synergy_dataset show <DATASET_NAME>`命令查看数据集的概览和具体属性。此外，数据集的变量包括标题、摘要、作者、引用等，适合用于机器学习模型的训练和评估。

背景与挑战

背景概述

SYNERGY数据集是一个专注于系统综述中研究选择的开放数据集，由Jonathan De Bruin等人于2023年创建。该数据集包含了来自26个系统综述的169,288篇学术作品，其中仅有2,834篇（1.67%）被标记为包含。SYNERGY数据集的核心研究问题是如何在信息检索算法中处理稀疏标签，尤其是在系统综述的背景下。由于其丰富的变量（如标题、摘要、作者、参考文献、主题等），该数据集对自然语言处理、机器学习、网络分析等领域的研究具有重要意义。SYNERGY的发布不仅为相关领域的研究提供了宝贵的资源，还推动了信息检索和机器学习算法的发展。

当前挑战

SYNERGY数据集面临的主要挑战之一是如何处理稀疏标签问题，即仅有极少数记录被标记为包含，这使得模型训练变得复杂。此外，数据集的构建过程中还涉及大量的变量处理，如标题、摘要、作者等，这些变量的多样性和复杂性增加了数据预处理的难度。另一个挑战是如何确保数据的质量和一致性，尤其是在涉及多个系统综述的情况下，不同综述的筛选标准可能存在差异。最后，SYNERGY数据集的广泛应用还面临如何有效整合和利用其丰富的元数据，以提升信息检索和机器学习模型的性能。

常用场景

经典使用场景

SYNERGY数据集在系统评价研究中具有经典应用场景，主要用于开发信息检索算法，尤其是在稀疏标签的情况下。该数据集通过包含169,288篇学术论文的详细信息，为研究人员提供了丰富的训练数据，特别适用于自然语言处理（NLP）、机器学习以及网络分析等领域。通过分析论文的标题、摘要、作者、引用关系等变量，研究人员可以构建高效的模型来识别和筛选符合特定标准的学术文献。

衍生相关工作

SYNERGY数据集的发布激发了许多相关研究工作，尤其是在信息检索和机器学习领域。例如，研究人员基于该数据集开发了多种文本分类和聚类算法，用于提高文献筛选的效率和准确性。此外，SYNERGY还促进了跨学科的研究合作，推动了自然语言处理技术在医学和心理学等领域的应用。未来，随着SYNERGY+（SYNERGY Plus）的开发，预计将有更多创新性工作涌现。

数据集最近研究