five

ScienceMeter

收藏
github2025-06-03 更新2025-06-04 收录
下载链接:
https://github.com/yikee/ScienceMeter
下载链接
链接失效反馈
官方服务:
资源简介:
我们从10个科学领域中每个领域检索了1000篇期刊或会议论文,使用Semantic Scholar API。对于每篇论文,我们还收集了其引用论文,形成了我们的原始语料库。我们过滤掉缺乏引用信息或摘要的论文,然后根据给定模型的知识截止日期和论文的出版日期重新分组剩余的论文。这一过程产生了5,148个三元组(先前论文、新论文、未来论文)。对于每篇论文,我们合成了一个支持声明(一个独特的支持科学主张)和一个反驳声明(一个相关但不支持的科学主张)。生成的数据集可在filtered_with_claims文件夹中找到。

We retrieved 1000 journal or conference papers from each of 10 scientific fields using the Semantic Scholar API. For each paper, we also collected its cited papers, forming our original corpus. We filtered out papers lacking citation information or abstracts, and then regrouped the remaining papers based on the knowledge cutoff date of the given model and the publication date of the papers. This process produced 5,148 triplets (previous paper, new paper, future paper). For each paper, we synthesized a supporting statement (a unique supporting scientific argument) and a rebuttal statement (a related but non-supporting scientific argument). The generated dataset is located in the 'filtered_with_claims' folder.
创建时间:
2025-05-28
原始信息汇总

ScienceMeter数据集概述

数据集简介

  • 名称:ScienceMeter
  • 用途:追踪语言模型中科学知识的更新情况
  • 状态:开发中(代码和文档可能不完整或会变动)

数据来源

  • 通过Semantic Scholar API获取10个科学领域的期刊或会议论文
  • 每个领域收集1,000篇论文及其引用论文,形成原始语料库(raw corpus)

数据处理

  1. 过滤标准:
    • 剔除缺少引用信息或摘要的论文
  2. 重组方法:
    • 根据模型的知识截止日期和论文发表日期进行分组
  3. 最终数据:
    • 5,148个三元组(先前论文,新论文,未来论文)

数据增强

  • 为每篇论文生成:
    • 1个SUPPORT声明(独特的支持性科学主张)
    • 1个REFUTE声明(相关但不支持的科学主张)

数据可用性

  • 最终数据集存放路径:filtered_with_claims文件夹

引用信息

latex @article{wang2025sciencemeter, title={ScienceMeter: Tracking Scientific Knowledge Updates in Language Models}, author={Wang, Yike and Feng, Shangbin and Tsvetkov, Yulia and Hajishirzi, Hannaneh}, journal={arXiv preprint arXiv:2505.24302}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
在科学知识更新追踪领域,ScienceMeter数据集通过系统性方法构建而成。研究团队利用Semantic Scholar API从10个科学领域各获取1000篇期刊或会议论文,并收集其引用文献形成原始语料库。通过严格筛选剔除缺乏引用信息或摘要的论文后,根据模型知识截止日期与论文发表时间进行重组,最终形成5148组(先前论文、新论文、未来论文)的三元组结构。针对每篇论文,研究团队还人工合成了支持性主张(SUPPORT claim)与反驳性主张(REFUTE claim)以增强数据维度。
特点
该数据集最显著的特征在于其精心设计的时序知识结构,通过三元组形式捕捉科学知识的演进轨迹。每个数据单元包含相互关联的三种论文状态,为研究语言模型对科学知识更新的追踪能力提供多维视角。人工生成的SUPPORT和REFUTE主张进一步丰富了数据内涵,使数据集不仅能评估模型的知识更新能力,还能测试其对科学主张的判别准确性。跨10个学科领域的覆盖确保了数据集的代表性和泛化性。
使用方法
研究者可通过filtered_with_claims文件夹获取经处理的完整数据集。使用时应特别注意三元组的时间逻辑关系,其中先前论文代表既有知识,新论文体现知识更新,未来论文则反映知识发展轨迹。SUPPORT和REFUTE主张可用于构建二分类任务,评估模型区分科学主张有效性的能力。建议将数据集按学科领域划分进行子集分析,以探究不同学科知识更新模式的差异性。该数据集特别适合用于测评语言模型在科学知识追踪、更新检测以及科学主张验证等方面的性能表现。
背景与挑战
背景概述
ScienceMeter数据集由华盛顿大学和艾伦人工智能研究所的研究团队于2025年推出,旨在追踪语言模型中科学知识的更新动态。该数据集通过Semantic Scholar API收集了10个科学领域的10,000篇期刊或会议论文,并进一步筛选出5,148组(先验论文、新论文、未来论文)三元组,为每篇论文人工生成支持性和反驳性科学主张。这一创新性工作为评估语言模型对科学知识演变的适应能力提供了重要基准,推动了人工智能在学术文献理解与知识更新领域的研究进展。
当前挑战
ScienceMeter数据集面临双重挑战:在解决领域问题层面,如何准确衡量语言模型对快速迭代的科学知识的捕捉能力存在方法论难题,特别是处理学科间知识更新速度差异的问题;在构建过程中,数据收集面临引文信息不完整、摘要缺失等数据质量问题,而人工生成支持与反驳主张时需确保科学严谨性,这对领域专业知识提出了较高要求。此外,将论文按模型知识截断日期重新分组的过程也涉及复杂的时间序列处理问题。
常用场景
经典使用场景
在自然语言处理领域,ScienceMeter数据集为研究语言模型如何跟踪和整合科学知识更新提供了重要基准。通过构建包含支持性和反驳性科学主张的三元组(先前论文、新论文、未来论文),该数据集使研究者能够系统地评估模型对科学文献演变的捕捉能力,特别适用于测试模型在时间序列知识更新任务中的表现。
实际应用
ScienceMeter的实际价值体现在学术搜索引擎优化和科研辅助系统开发中。基于该数据集训练的模型可自动识别研究领域的关键进展,帮助学者追踪学科前沿动态。在科技情报分析场景下,其构建方法为自动检测科学主张的演变轨迹提供了可扩展的技术路线。
衍生相关工作
该数据集已激发多项关于时序知识建模的创新研究,包括基于对比学习的科学主张验证框架、跨领域知识传播分析工具等。其数据构造方法论被后续工作如SciTemporal等广泛借鉴,推动了学术文献时间维度分析的技术发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作