five

JoaoCoelho/scientific_papers_citation_scores

收藏
Hugging Face2023-12-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/JoaoCoelho/scientific_papers_citation_scores
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含一系列科学论文,每篇论文都与一系列分数相关联,这些分数量化了每篇论文收到的引用次数。数据来源于OpenCitations,一个全面且可访问的在线学术引用数据库。分数通过引用树的方式计算,其中论文是节点,引用是边。这种方法提供了论文通过其引用网络影响的详细视图。数据集的结构包括每篇论文的特定属性,如标题、出版日期、DOI、链接等,以及不同深度的引用分数。数据集可用于微调大型语言模型(LLM),以生成可能在科学界取得成功的新科学概念。

该数据集包含一系列科学论文,每篇论文都与一系列分数相关联,这些分数量化了每篇论文收到的引用次数。数据来源于OpenCitations,一个全面且可访问的在线学术引用数据库。分数通过引用树的方式计算,其中论文是节点,引用是边。这种方法提供了论文通过其引用网络影响的详细视图。数据集的结构包括每篇论文的特定属性,如标题、出版日期、DOI、链接等,以及不同深度的引用分数。数据集可用于微调大型语言模型(LLM),以生成可能在科学界取得成功的新科学概念。
提供机构:
JoaoCoelho
原始信息汇总

数据集概述

该数据集包含一系列科学论文,每篇论文都关联一系列评分。这些评分量化了每篇论文收到的引用次数。数据来源于OpenCitations,这是一个全面且易于访问的学术引用在线数据库。

评分计算方法

设想一个树状结构,其中论文是节点,引用是边。例如,如果论文A被论文B和C引用,它在树深度1(score_depth_1)的得分是2。如果论文D引用B,但C没有被引用,论文A在树深度2(score_depth_2)的得分是1。这些得分(score_depth_1, score_depth_2, ..., score_depth_N)记录了每篇论文在不同树深度上的引用次数,直至深度N。这种方法提供了通过引用网络详细了解论文影响力的视角。

数据集结构

数据集来自ArXiv仓库,每行由一个具有特定属性的对象表示。以下是一个示例行的结构:

json { "omid": "omid:br/061603088748", "pub_date": "2018-09", "title": "Development of different methods and their efficiencies for the estimation of diffusion coefficients following the diffusion couple technique", "doi": "10.1016/j.actamat.2018.04.051", "link": "https://arxiv.org/abs/1809.09687", "pdf": "https://arxiv.org/pdf/1809.09687", "e-print": "https://arxiv.org/e-print/1809.09687", "score-depth-1": 61, "score-depth-2": 62, "score-depth-3": 76, "score-depth-4": 62, "score-depth-5": 76 }

访问数据集

最新版本的数据集名为scores-max=10000-date=15_12_2023.parquet,可在“文件和版本”部分访问。文件名中的max=10000表示最高可能得分为10,000。

建议的微调/奖励模型训练方法

对于训练强化学习(RL)模型,建议采用以下方法:

  • 选择符合特定标准的论文子集。例如,深度5得分大于9000的论文可视为“成功”。
  • 提示:仅选择年龄相似的论文。非常新的论文可能得分较低,因为它们没有足够的时间被引用。
  • 识别深度1得分为0的论文,标记为“不成功”。
  • 利用这两组数据对特定语言学习模型(LLM)应用RL技术,从而根据定义的成功标准微调模型。

这种方法有助于根据论文的影响力分类,并利用这种分类来优化学习模型的性能。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作