CC30k

Hugging Face2025-11-15 更新2025-11-16 收录

下载链接：

https://huggingface.co/datasets/rochanaro/CC30k

下载链接

链接失效反馈

官方服务：

资源简介：

CC30k数据集是一个专注于科学文献中可再现性导向情感（ROS）的引用上下文数据集。该数据集包含来自AI会议发表的科学文献中的30,734个标注引用上下文，每个上下文标注为积极、消极或中性，反映了对被引用工作的可再现性的感知。数据集还包含与引用上下文相关的元数据，如工作者信息、可再现性研究、原始论文、引用论文等。

创建时间：

2025-11-15

原始信息汇总

CC30k数据集概述

数据集基本信息

名称：CC30k: A Citation Contexts Dataset for Reproducibility-Oriented Sentiment Analysis
许可协议：cc-by-nc-sa-4.0
任务类别：文本分类
语言：英语
标签：情感分析、科学文献、可重现性、引用分析

数据集描述

CC30k数据集专注于科学文献中的面向可重现性的情感分析，通过引用上下文研究计算可重现性。该数据集包含来自AI会议发表的科学文献中的30,734个标注引用上下文，每个上下文由三名独立工作人员标注。

数据规模

标注引用上下文数量：30,734条

标注信息

标注类型：面向可重现性的情感标签
标签类别：Positive、Negative、Neutral
标注方式：众包标注，每个上下文由三名独立工作人员标注
最终标签确定：基于多数投票机制
标注来源类型：crowdsourced、augmented_human_validated、augmented_machine_labeled

数据列结构

基础标识列

input_index：每个引用上下文的唯一ID
input_context：工作人员被要求标注的引用上下文
input_file_key：链接到可重现性研究的标识符
input_first_author：被引用论文的第一作者姓名或标识符

工作人员标注列

worker_id_w1/w2/w3：三名工作人员的独特ID
work_time_in_seconds_w1/w2/w3：工作人员标注所花费的时间（秒）
label_w1/w2/w3：工作人员分配的标签

标注汇总列

batch：Mechanical Turk工作的批次号
majority_vote：基于工作人员标签多数投票的最终标签
majority_agreement：三名工作人员对最终多数投票达成一致的数量

可重现性研究元数据

rs_doi：可重现性研究论文的DOI
rs_title：可重现性研究论文标题
rs_authors：可重现性研究论文作者列表
rs_year：可重现性研究论文发表年份
rs_venue：可重现性研究发表的会议或期刊
rs_selected_claims：通过人工检查从原始论文中选择用于可重现性研究的声明数量
rs_reproduced_claims：通过人工检查成功重现的选择声明数量
reproducibility：通过人工检查分配给原始论文的最终可重现性标签

原始论文元数据

org_doi：被评估可重现性的原始（被引用）论文的DOI
org_title：原始（被引用）论文标题
org_authors：原始（被引用）论文作者列表
org_year：原始（被引用）论文发表年份
org_venue：原始（被引用）论文发表的会议或期刊
org_paper_url：访问原始（被引用）论文的URL
org_citations：原始（被引用）论文获得的引用次数
org_s2ga_id：原始（被引用）论文的Semantic Scholar Graph API ID

引用论文元数据

citing_doi：引用原始论文的引用论文的DOI
citing_year：引用论文发表年份
citing_venue：引用论文发表的会议或期刊
citing_title：引用论文标题
citing_authors：引用论文作者列表
citing_s2ga_id：引用论文的Semantic Scholar Graph API ID

引用信息

BibTeX @misc{obadage2025cc30kcitationcontextsdataset, title={CC30k: A Citation Contexts Dataset for Reproducibility-Oriented Sentiment Analysis}, author={Rochana R. Obadage and Sarah M. Rajtmajer and Jian Wu}, year={2025}, eprint={2511.07790}, archivePrefix={arXiv}, primaryClass={cs.DL}, url={https://arxiv.org/abs/2511.07790}, }

搜集汇总

数据集介绍

构建方式

在科学文献计量学领域，CC30k数据集通过系统化流程构建而成。研究团队从人工智能领域的学术文献中提取30,734条引文上下文，采用众包平台Mechanical Turk进行标注，每条文本由三名独立标注者根据可复现性导向情感标准进行评判。标注过程整合了原始论文、复现研究论文及引用论文的元数据，并通过多数投票机制聚合最终标签，确保标注结果的可靠性与一致性。

使用方法

研究者可基于该数据集开展引文情感分析与科学文献可复现性关联研究。通过解析数据表中标注结果与元数据字段，能够构建引文情感分类模型，或探究学术观点传播与实证验证间的内在联系。数据集的标准化结构支持直接接入机器学习流程，其提供的众包标注细节与复现验证标签为模型可解释性研究提供了关键支撑。

背景与挑战

背景概述

在科学计量学与人工智能交叉领域，CC30k数据集由LAMPS实验室于2025年推出，聚焦于科学文献中可复现性导向情感分析的前沿课题。该数据集通过系统采集人工智能领域学术论文的引用上下文，构建包含30,734条标注数据的语料库，旨在量化研究者对已有成果可复现性的主观评价。其创新性在于将传统情感分析框架延伸至学术评价体系，为计算可复现性研究提供了文本挖掘的新范式，对推动科学研究的透明化与可信度评估具有里程碑意义。

当前挑战

该数据集需解决学术文本中隐式情感表达的语义解析难题，例如区分方法质疑与结果否定等细微差异。构建过程中面临标注一致性挑战，因可复现性评价涉及专业领域知识，需通过三重独立标注与多数投票机制确保质量。同时，跨文献元数据的异构整合要求精确匹配引用链，而众包标注中专业术语理解偏差亦需通过人工验证环节进行校正。这些技术难点共同构成了数据集构建的核心挑战。

常用场景

经典使用场景

在科学文献计量分析领域，CC30k数据集被广泛应用于引文情感分类任务。该数据集通过众包标注的30,734条引文上下文，为研究者提供了标注一致性高的可重复性导向情感标签。典型应用包括训练深度学习模型识别引文中对原始工作可复现性的积极、消极或中性评价，从而系统量化科学交流中的复现态度。

解决学术问题

该数据集有效解决了计算科学中可复现性评估的量化难题。通过建立引文情感与实验复现结果的关联，填补了传统文献计量学在复现性情感分析方面的空白。其三重标注机制提升了标注可靠性，为研究科学争论演进、复现危机溯源提供了实证基础，推动了开放科学范式的深化发展。

实际应用

在学术出版与科研管理实践中，CC30k支撑着智能审稿系统和学术影响力多维评估工具的开发。期刊编辑部可借助其构建复现性预警机制，识别存在争议的研究成果；资助机构则能通过引文情感轨迹监测领域发展健康度，优化科研资源配置策略，促进稳健科学生态的形成。

数据集最近研究