JoaoCoelho/scientific_papers_citation_scores

Name: JoaoCoelho/scientific_papers_citation_scores
Creator: JoaoCoelho
Published: 2023-12-15 18:05:04
License: 暂无描述

Hugging Face2023-12-15 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/JoaoCoelho/scientific_papers_citation_scores

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含一系列科学论文，每篇论文都与一系列分数相关联，这些分数量化了每篇论文收到的引用次数。数据来源于OpenCitations，一个全面且可访问的在线学术引用数据库。分数通过引用树的方式计算，其中论文是节点，引用是边。这种方法提供了论文通过其引用网络影响的详细视图。数据集的结构包括每篇论文的特定属性，如标题、出版日期、DOI、链接等，以及不同深度的引用分数。数据集可用于微调大型语言模型（LLM），以生成可能在科学界取得成功的新科学概念。

提供机构：

JoaoCoelho

原始信息汇总

数据集概述

该数据集包含一系列科学论文，每篇论文都关联一系列评分。这些评分量化了每篇论文收到的引用次数。数据来源于OpenCitations，这是一个全面且易于访问的学术引用在线数据库。

评分计算方法

设想一个树状结构，其中论文是节点，引用是边。例如，如果论文A被论文B和C引用，它在树深度1（score_depth_1）的得分是2。如果论文D引用B，但C没有被引用，论文A在树深度2（score_depth_2）的得分是1。这些得分（score_depth_1, score_depth_2, ..., score_depth_N）记录了每篇论文在不同树深度上的引用次数，直至深度N。这种方法提供了通过引用网络详细了解论文影响力的视角。

数据集结构

数据集来自ArXiv仓库，每行由一个具有特定属性的对象表示。以下是一个示例行的结构：

json { "omid": "omid:br/061603088748", "pub_date": "2018-09", "title": "Development of different methods and their efficiencies for the estimation of diffusion coefficients following the diffusion couple technique", "doi": "10.1016/j.actamat.2018.04.051", "link": "https://arxiv.org/abs/1809.09687", "pdf": "https://arxiv.org/pdf/1809.09687", "e-print": "https://arxiv.org/e-print/1809.09687", "score-depth-1": 61, "score-depth-2": 62, "score-depth-3": 76, "score-depth-4": 62, "score-depth-5": 76 }

访问数据集

最新版本的数据集名为scores-max=10000-date=15_12_2023.parquet，可在“文件和版本”部分访问。文件名中的max=10000表示最高可能得分为10,000。

建议的微调/奖励模型训练方法

对于训练强化学习（RL）模型，建议采用以下方法：

选择符合特定标准的论文子集。例如，深度5得分大于9000的论文可视为“成功”。
提示：仅选择年龄相似的论文。非常新的论文可能得分较低，因为它们没有足够的时间被引用。
识别深度1得分为0的论文，标记为“不成功”。
利用这两组数据对特定语言学习模型（LLM）应用RL技术，从而根据定义的成功标准微调模型。

这种方法有助于根据论文的影响力分类，并利用这种分类来优化学习模型的性能。

5,000+

优质数据集

54 个

任务类型

进入经典数据集