asta-summary-citation-counts
收藏Hugging Face2025-10-21 更新2025-10-22 收录
下载链接:
https://huggingface.co/datasets/allenai/asta-summary-citation-counts
下载链接
链接失效反馈官方服务:
资源简介:
Asta摘要引用计数数据集追踪了Asta研究平台对科学论文的引用情况。包含超过113,000个用户查询产生的400万次引用,涉及200万篇以上独特论文。数据集记录了每篇论文被Asta的Summarize Literature工具引用的次数排名,数据按照全部时间、上一周和上一个月进行分割。维护者是Allen Institute for AI,数据遵循ODC-BY协议,每周更新一次。
提供机构:
Allen Institute for AI
创建时间:
2025-10-08
原始信息汇总
Asta Summary Citation Counts 数据集概述
数据集简介
该数据集追踪了由Asta研究平台在回答科学问题时最常引用的科学论文。Asta是一个使用检索增强生成技术的代理研究平台。每条记录都是Asta"文献总结"工具引用的论文,按系统引用该论文的次数进行排名。
核心统计信息
- 覆盖超过113,000个用户查询
- 追踪400万次引用
- 涉及超过200万篇不同的论文
数据配置
数据集提供三个配置版本:
- default配置
- 2025-10-07配置
- 2025-10-20配置
每个配置包含三个时间分割:
- all_time:全时段数据
- last_week:最近一周数据
- last_month:最近一个月数据
数据字段说明
| 字段名 | 描述 |
|---|---|
| corpus_id | Semantic Scholar论文唯一标识符 |
| title | 论文标题 |
| sqa_citation_rank | 论文在Asta文献总结器中唯一引用次数的总体排名 |
| sqa_citation_count_queries | 支持排名的跨查询唯一引用次数 |
| sqa_citation_count_total_citations | 跨查询总引用次数(论文可能在单个查询答案中被多次引用) |
| authors | 论文作者逗号分隔字符串 |
| venue | 出版场所/会议/期刊 |
| year | 出版年份 |
| s2FieldsOfStudy | Semantic Scholar分类器分配的学术研究领域类别 |
数据集详情
- 数据集名称: Asta Summary Citation Counts
- 维护机构: Allen Institute for AI (AI2)
- 许可证: ODC-BY
- 更新频率: 每周
- 数据来源平台: Asta (https://asta.ai)
- 主要用途: 文献计量学、AI透明度、引用动态分析、检索增强生成系统评估
相关资源
- 系统论文:https://www.semanticscholar.org/paper/Ai2-Scholar-QA%3A-Organized-Literature-Synthesis-with-Singh-Chang/6dfbddc07e942116c7a95b23a393e9deb5a47484?utm_source=direct_link
- 系统代码:https://github.com/allenai/ai2-scholarqa-lib
- 使用指南:https://allenai.org/responsible-use
搜集汇总
数据集介绍

构建方式
在科学文献计量学领域,Asta-summary-citation-counts数据集通过Asta智能研究平台的文献摘要工具动态构建而成。该系统基于检索增强生成技术处理超过11.3万条用户查询,累计收录400万次引文数据,涵盖200万篇独立学术文献。数据采集采用多时间维度架构,分别提供全时段、最近一周和最近月的引文统计快照,并通过语义学者数据库对论文元数据进行标准化映射,确保文献标识与学术属性的精确对应。
特点
该数据集的核心特征体现在三维度引文计量体系:既包含基于查询次数的独立引文排名,又统计单篇文献在回答中的总引用频次,同时融合了语义学者分类系统标注的24个学科领域标签。其动态更新机制通过周度版本迭代呈现引文格局的演进轨迹,而多时间切片设计则支持纵向比较研究。独特的分割策略使研究者能同时观察长期影响力与短期关注度变化,为理解AI系统知识选择偏好提供多尺度观测窗口。
使用方法
研究者可通过HuggingFace数据集库调用‘latest’配置获取最新版本,或指定具体日期加载历史快照。典型应用场景包括:使用sqa_citation_rank字段分析文献影响力分布,通过s2FieldsOfStudy字段开展跨学科引文模式研究,结合时间分割数据追踪新兴研究热点的形成轨迹。该数据集特别适用于检索增强生成系统的透明度评估,可作为基准数据衡量AI知识呈现的覆盖度与偏差,推动负责任人工智能发展范式的建立。
背景与挑战
背景概述
在人工智能驱动的科研范式转型背景下,由艾伦人工智能研究所于2025年构建的Asta摘要引用统计数据集,标志着学术影响力评估体系的革新。该数据集通过追踪智能研究平台Asta在文献综述任务中产生的400万次引用行为,覆盖逾200万篇学术论文,旨在构建透明可追溯的学术贡献量化体系。其核心价值在于首次建立了生成式人工智能系统与学术文献引用网络的关联映射,为衡量知识生产与传播效能提供了动态观测窗口。
当前挑战
在解决学术影响力动态评估问题时,需应对传统引文分析难以捕捉生成式AI知识溯源路径的挑战。数据集构建过程中面临多维度技术难点:需处理百万级用户查询生成的异构引用数据,保证跨时段引用统计的时序一致性;在实体链接环节需解决论文元数据与语义学者数据库的精准对齐,同时维护113,000次查询会话中重复引用的去重逻辑。这些技术瓶颈的突破直接关系到学术贡献可视化系统的信度与效度。
常用场景
经典使用场景
在学术计量学领域,该数据集通过追踪Asta研究平台在文献综述过程中引用的科学论文,揭示了人工智能系统如何筛选和引用高影响力研究。研究人员可借助其时间分片数据,分析跨学科领域的引用动态变化,尤其适用于评估检索增强生成系统在知识合成中的文献偏好与稳定性。
实际应用
科研机构可利用该数据集监测领域内核心文献的AI可见性,优化馆藏资源建设;期刊编辑部可据此分析论文在智能平台中的传播轨迹,辅助影响力评估;开发者则能通过引用模式验证检索算法的公平性,推动负责任AI系统的迭代升级。
衍生相关工作
基于该数据集衍生的经典研究包括AI2团队开发的《Scholar QA》系统架构论文,其构建了可解释的文献合成框架。后续工作多聚焦于引用动态建模,如开发跨领域影响力传播模型,或结合语义学者字段分类器探究学科交叉特征,推动了智能文献计量方法学的演进。
以上内容由遇见数据集搜集并总结生成



