SYNERGY dataset

github2024-05-11 更新2024-05-31 收录

下载链接：

https://github.com/msdslab/automated-systematic-review-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

SYNERGY是一个关于系统评价中研究选择的免费开放机器学习数据集，包含来自26个系统评价的169,288篇学术作品。该数据集特别适用于开发信息检索算法，尤其是针对稀疏标签的情况。由于每个记录包含多种变量（如标题、摘要、作者、参考文献、主题），该数据集对NLP、机器学习、网络分析等领域的研究人员非常有用。数据集总计包含82,668,134个可训练数据点。

SYNERGY is a freely accessible machine learning dataset focused on study selection within systematic reviews, encompassing 169,288 scholarly works from 26 systematic reviews. This dataset is particularly suited for the development of information retrieval algorithms, especially in scenarios involving sparse labeling. Given that each record includes multiple variables (such as title, abstract, authors, references, and subjects), it is highly valuable for researchers in fields like NLP, machine learning, and network analysis. The dataset comprises a total of 82,668,134 trainable data points.

创建时间：

2019-01-18

原始信息汇总

SYNERGY数据集概述

数据集描述

名称: SYNERGY
类型: 开放数据集，专注于系统评价中的研究选择。
规模: 包含169,288篇学术作品，来自26个系统评价。
分类: 二元分类数据集，其中2,834篇作品（占总数的1.67%）被系统评价所包含。
用途: 适用于开发信息检索算法，特别是针对稀疏标签的算法。
数据点总数: 82,668,134个可训练数据点。

数据集内容

记录详情: 每个记录包含标题、摘要、作者、参考文献、主题等多个变量。
记录示例:
- 编号: Appenzeller-Herzog_2019
- 主题: 医学
- 记录数: 2873
- 包含记录数: 26
- 包含比例: 0.9%

数据获取

获取方式: 通过synergy-dataset Python包安装和下载。
命令示例:
- 安装包: pip install synergy-dataset
- 下载数据: python -m synergy_dataset get

数据集变量

主要变量:
- id: 字符串，OpenAlex ID。
- doi: 字符串，对象的DOI标识符（如有）。
- label_included: 二进制，1表示包含记录，0表示排除记录。
- title: 字符串，作品标题。
- abstract: 字符串，作品摘要。
- authorships: 列表，作者及其机构的列表。
- type: 字符串，作品类型或体裁。
- publication_year: 整数，出版年份。
- referenced_works: 列表，此作品引用的作品的OpenAlex ID列表。
- concepts: 列表，维基数据概念对象（或主题）列表。
- best_oa_location: 对象，此作品的最佳开放获取位置。
- cited_by_count: 整数，截至2023年4月1日，此作品被引用的次数。

数据集使用

命令: 使用synergy_dataset list和synergy_dataset show <DATASET_NAME>获取数据集及其属性的概览。

数据集贡献

欢迎贡献: 包括公开发布的系统评价数据集、教程编写、软件集成等。

数据集引用

引用格式: bib @data{HE6NAQ_2023, author = {De Bruin, Jonathan and Ma, Yongchao and Ferdinands, Gerbrich and Teijema, Jelle and Van de Schoot, Rens}, publisher = {DataverseNL}, title = {{SYNERGY - Open machine learning dataset on study selection in systematic reviews}}, year = {2023}, version = {V1}, doi = {10.34894/HE6NAQ}, url = {https://doi.org/10.34894/HE6NAQ} }

搜集汇总

数据集介绍

构建方式

SYNERGY数据集通过整合26个系统综述的研究选择数据构建而成，涵盖了169,288篇学术文献，其中仅有2,834篇（1.67%）被标记为包含。数据集的构建基于OpenAlex Work对象，每个记录包含丰富的元数据，如标题、摘要、作者、参考文献和主题等。通过手动标注和系统综述的资格标准，数据集形成了二分类标签，为信息检索算法提供了稀疏标签的独特训练环境。

特点

SYNERGY数据集的显著特点在于其稀疏标签的特性，仅有1.67%的记录被标记为包含，这为开发和测试信息检索算法提供了挑战性的数据环境。此外，数据集包含了丰富的变量，如标题、摘要、作者、参考文献和主题等，使其适用于自然语言处理、机器学习、网络分析等多个研究领域。数据集的总训练数据点达到82,668,134个，为大规模数据分析提供了坚实基础。

使用方法

SYNERGY数据集可以通过Python包`synergy-dataset`轻松获取，用户只需通过命令行运行`pip install synergy-dataset`进行安装，随后使用`python -m synergy_dataset get`命令下载并构建数据集。数据集提供了详细的变量列表和属性，用户可以通过`synergy_dataset list`和`synergy_dataset show <DATASET_NAME>`命令查看数据集的概览和具体属性。此外，数据集的变量如标题、摘要、作者等，为机器学习模型提供了丰富的训练数据。

背景与挑战

背景概述

SYNERGY数据集是一个专注于系统综述中研究选择的开放数据集，由169,288篇学术作品组成，这些作品来自26个系统综述。该数据集的核心研究问题是如何在系统综述中高效地进行文献筛选和选择，特别是在标签稀疏的情况下。SYNERGY数据集由Jonathan De Bruin、Yongchao Ma、Gerbrich Ferdinands、Jelle Teijema和Rens Van de Schoot等研究人员创建，并于2023年发布。该数据集不仅为信息检索算法的发展提供了独特的资源，还对自然语言处理、机器学习和网络分析等领域的研究产生了深远影响。

当前挑战

SYNERGY数据集面临的挑战主要集中在两个方面：一是如何处理标签稀疏的问题，因为仅有1.67%的学术作品被标记为包含在系统综述中；二是如何充分利用数据集中丰富的变量信息，如标题、摘要、作者、参考文献和主题等，以提高信息检索和机器学习模型的性能。此外，构建过程中还需解决数据质量和一致性问题，确保每个记录的变量信息准确且完整。这些挑战为研究人员提供了开发和优化算法的机会，同时也推动了相关领域的技术进步。

常用场景

经典使用场景

SYNERGY数据集在系统综述中的研究选择领域具有经典应用场景。该数据集通过提供169,288篇学术论文的详细信息，特别是其中仅有2,834篇被标记为包含的研究，为信息检索算法的发展提供了宝贵的资源。特别是在处理稀疏标签问题上，SYNERGY数据集展示了其独特价值。研究人员可以利用该数据集中的标题、摘要、作者、引用和主题等变量，进行自然语言处理（NLP）、机器学习、网络分析等领域的深入研究。

解决学术问题

SYNERGY数据集解决了在系统综述研究中常见的信息检索和分类问题。由于系统综述通常涉及大量的文献筛选，而手动筛选过程既耗时又容易出错，SYNERGY数据集通过提供大规模的、结构化的数据，帮助研究人员开发和优化自动化的筛选算法。这不仅提高了研究效率，还减少了人为偏差，从而提升了系统综述的科学性和可靠性。

衍生相关工作

SYNERGY数据集的发布激发了许多相关研究工作。例如，研究人员基于该数据集开发了新的自然语言处理技术，用于更精确地提取和分类文献中的关键信息。此外，还有研究团队利用SYNERGY数据集进行网络分析，探索学术文献之间的引用关系和知识传播路径。这些衍生工作不仅丰富了数据集的应用场景，还推动了相关领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集