TPR_Peer_Reviews
收藏Hugging Face2025-11-26 更新2025-11-27 收录
下载链接:
https://huggingface.co/datasets/JerMa88/TPR_Peer_Reviews
下载链接
链接失效反馈官方服务:
资源简介:
透明同行评审(TPR)数据集包含来自TPR平台的同行评审信息,经过标准化处理以匹配pawin205/PeerRT数据集的格式,并添加了年份属性。每条记录包括论文的标题、摘要、全文(或评审文本)、评审内容、数据来源、原始评审文件名、评审标准计数、维度分数、整体评分以及出版年份(如有)。
创建时间:
2025-11-24
原始信息汇总
数据集概述
基本信息
- 许可证: CC-BY-4.0
- 语言: 英语
- 标签: 同行评审、科学论文、自然语言处理
- 数据规模: 1万-10万条记录
数据集描述
- 数据来源: TPR
- 标准化处理: 匹配
pawin205/PeerRT数据集格式,并增加year属性 - 总记录数: 请查看数据集查看器
数据结构
每条记录包含以下属性:
基础信息
relative_rank: 相对排名(默认值0)win_prob: 获胜概率(默认值0.0)title: 论文标题abstract: 论文摘要full_text: 论文全文(若无则使用评审文本)review: 同行评审文本source: 数据来源(TPR)review_src: 评审原始文件名year: 出版年份(如可用)
评审分析
criteria_count: 评审中特定标准计数字典(如批评、赞扬)dimension_scores: 各维度得分字典overall_score: 计算得出的总体得分(奖励值)
占位字段
thinking_trace: 占位符(空)prompt: 占位符(空)prompt_length: 占位符(0)conversations: 对话列表(用户/助手格式)
使用方法
python from datasets import load_dataset
dataset = load_dataset("JerMa88/TPR_Peer_Reviews") print(dataset[train][0])
搜集汇总
数据集介绍

构建方式
在学术出版透明化趋势的推动下,TPR_Peer_Reviews数据集通过系统化采集来自透明同行评审平台的原始评审数据构建而成。其核心流程包括对多源评审文档的格式统一化处理,严格遵循现有PeerRT数据集的标准化架构,并创新性地引入年份标注维度以支持时序分析。每条记录均经过结构化提取,涵盖论文标题、摘要及评审文本等关键元素,同时通过自动化算法生成维度评分与标准量化指标,确保数据在学术规范性与机器可读性之间取得平衡。
特点
该数据集最显著的特征在于其多维度的评审量化体系,不仅包含传统的情感倾向分析指标,还创新性地构建了结构化评分字典与标准计数映射。所有记录均保留原始评审文件的溯源信息,并兼容对话式交互数据结构,为研究同行评审动态过程提供立体化视角。其规模控制在万至十万条量级,既满足深度学习模型的训练需求,又保持了对特定学术领域细粒度分析的灵活性,形成兼具广度与深度的独特优势。
使用方法
研究者可通过HuggingFace标准接口快速加载数据集,使用load_dataset函数即可获取完整结构化数据。典型应用场景包括构建评审质量预测模型、分析学术评价维度关联性,或训练对话系统模拟评审交互过程。数据记录的标准化字段设计支持即插即用的实验流程,其中对话格式的conversations字段特别适用于指令微调任务,而维度评分字典则为多目标优化研究提供天然标注基础。
背景与挑战
背景概述
随着开放科学运动的深入发展,学术同行评审过程的透明度成为科学共同体关注的焦点。Transparent Peer Review数据集由相关研究机构于近年构建,旨在通过结构化存储同行评审文本与论文元数据,推动学术交流机制的量化研究。该数据集通过标准化字段记录评审意见的情感倾向、维度评分及对话轨迹,为自然语言处理技术在学术质量控制、审稿行为分析等方向提供了关键数据支撑。其多维度标注体系显著促进了学术文本挖掘领域的方法创新,已成为评价学术论文评审质量的重要基准资源。
当前挑战
在学术评审自动化研究领域,如何从非结构化的评审文本中提取有效语义特征仍存在技术瓶颈,包括评审意见中隐含逻辑的识别、主观性表述的量化等核心难题。数据集构建过程中面临多重挑战:原始评审数据的异构性要求设计复杂的文本清洗流程,跨年份学术术语的演变增加了特征对齐的难度,同时保护评审者隐私与维持文本完整性的平衡也需要精细的数据处理策略。这些因素共同构成了该领域数据标准化与模型泛化能力提升的关键障碍。
常用场景
经典使用场景
在学术出版领域,TPR_Peer_Reviews数据集为同行评审过程的自动化分析提供了核心支持。该数据集通过标准化的评审文本与论文元数据,使研究者能够系统评估评审质量、检测偏见,并探索评审意见与论文影响力之间的潜在关联。其结构化格式特别适合训练自然语言处理模型,以识别评审中的关键要素如批评与赞扬分布,从而深化对学术交流机制的理解。
解决学术问题
该数据集有效解决了学术评审系统中长期存在的透明度缺失与评估标准不一致问题。通过提供带有多维度标注的真实评审数据,研究者能定量分析评审偏差、构建公平性评估框架,并开发客观的论文质量预测模型。这些工作显著推进了科学计量学与学术伦理研究,为建立更可靠的学术评价体系奠定了数据基础。
衍生相关工作
基于此数据集衍生的经典研究包括PeerRT项目的评审预测模型优化,以及跨领域评审迁移学习框架的开发。多个团队利用其维度评分体系构建了联合嵌入网络,将论文内容与评审意见映射到统一语义空间。这些工作不仅催生了ACL、EMNLP等顶会的专项研讨会,还推动了OpenReview等平台的数据标准化进程。
以上内容由遇见数据集搜集并总结生成



