allenai/peer_read
收藏Hugging Face2022-11-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/allenai/peer_read
下载链接
链接失效反馈官方服务:
资源简介:
PeerRead是一个包含科学论文同行评审的数据集,旨在帮助研究人员研究这一重要领域。数据集包含超过14K的论文草稿及其在顶级会议(如ACL、NIPS和ICLR)中的接受/拒绝决策,以及超过10K的专家撰写的文本评审。数据集分为两个配置:parsed_pdfs和reviews,分别包含论文的元数据信息和评审信息。
PeerRead is a dataset dedicated to peer reviews of scientific papers, developed to help researchers conduct studies in this important research domain. It contains over 14,000 paper drafts, along with their acceptance or rejection decisions from top-tier academic conferences including ACL, NIPS, and ICLR, as well as more than 10,000 textual reviews written by expert reviewers. The dataset is divided into two configurations: parsed_pdfs and reviews, which respectively hold the metadata information of the papers and the review-related information.
提供机构:
allenai
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称: PeerRead
- 语言: 英语
- 数据集大小: 10K<n<100K
- 多语言性: 单语种
- 任务类别: 文本分类
- 标签: acceptability-classification
数据集结构
配置名称: parsed_pdfs
- 特征:
name: 文件名,类型为字符串metadata: 论文元数据,类型为字典source: 论文来源,类型为字符串title: 论文标题,类型为字符串authors: 作者列表,类型为字符串序列emails: 电子邮件列表,类型为字符串序列sections: 章节列表,类型为字典序列heading: 章节标题,类型为字符串text: 章节内容,类型为字符串
references: 参考文献列表,类型为字典序列title: 参考文献标题,类型为字符串author: 参考文献作者列表,类型为字符串序列venue: 参考文献发表地点,类型为字符串citeRegEx: 参考文献引用正则表达式,类型为字符串shortCiteRegEx: 参考文献短引用正则表达式,类型为字符串year: 参考文献发表年份,类型为整数
referenceMentions: 参考文献提及列表,类型为字典序列referenceID: 参考文献提及ID,类型为整数context: 参考文献提及上下文,类型为字符串startOffset: 参考文献提及起始偏移,类型为整数endOffset: 参考文献提及结束偏移,类型为整数
year: 论文发表年份,类型为整数abstractText: 论文摘要,类型为字符串creator: 论文创建者,类型为字符串
- 数据分割:
train: 训练集,包含11090个样本,大小为571263679字节test: 测试集,包含637个样本,大小为34284777字节validation: 验证集,包含637个样本,大小为32488519字节
- 下载大小: 1246688292字节
- 数据集大小: 638036975字节
配置名称: reviews
- 特征:
id: 评论ID,类型为字符串conference: 会议名称,类型为字符串comments: 评论内容,类型为字符串subjects: 评论主题,类型为字符串version: 评论版本,类型为字符串date_of_submission: 提交日期,类型为字符串title: 论文标题,类型为字符串authors: 作者列表,类型为字符串序列accepted: 是否接受,类型为布尔值abstract: 论文摘要,类型为字符串histories: 历史记录列表,类型为字符串序列reviews: 评论列表,类型为字典序列date: 评论日期,类型为字符串title: 论文标题,类型为字符串other_keys: 其他关键信息,类型为字符串originality: 原创性评分,类型为字符串comments: 评论内容,类型为字符串is_meta_review: 是否为元评论,类型为布尔值recommendation: 推荐意见,类型为字符串replicability: 可复制性评分,类型为字符串presentation_format: 展示格式,类型为字符串clarity: 清晰度评分,类型为字符串meaningful_comparison: 有意义的比较评分,类型为字符串substance: 实质性评分,类型为字符串reviewer_confidence: 评审者信心评分,类型为字符串soundness_correctness: 正确性评分,类型为字符串appropriateness: 适当性评分,类型为字符串impact: 影响力评分,类型为字符串
- 数据分割:
train: 训练集,包含11090个样本,大小为15234922字节test: 测试集,包含637个样本,大小为878906字节validation: 验证集,包含637个样本,大小为864799字节
- 下载大小: 1246688292字节
- 数据集大小: 16978627字节
搜集汇总
数据集介绍

构建方式
AllenAI的PeerRead数据集,是以科学文献领域的同行评审资料为蓝本构建而成。该数据集的构建涉及了从顶级会议如ACL、NIPS和ICLR中选取的超过14K篇论文草稿及其相应的接受/拒绝决策,以及专家为其中一部分论文撰写的超过10K篇文本形式的同行评审。数据集的构建不仅包含了论文的基本信息,如标题、作者、摘要等,还详细记录了评审过程中的各项指标,如原创性、可复制性、清晰度等。
特点
PeerRead数据集的特点在于其全面性、专业性和实用性。全面性体现在数据覆盖了多个顶级会议的论文评审过程;专业性则在于所有评审均由领域专家完成;实用性则表现在数据集可用于多种自然语言处理任务,如文本分类、情感分析等。此外,数据集的多元信息结构设计使其在研究领域具有极高的应用价值。
使用方法
使用PeerRead数据集时,用户首先需要理解数据集的结构,包括parsed_pdfs和reviews两个主要部分,前者包含论文的详细信息,后者包含评审的详细信息。用户可以根据具体的任务需求,如文本分类、情感分析等,选择合适的字段进行特征提取和模型训练。数据集提供了训练、测试和验证三个子集,方便用户进行模型的开发和评估。
背景与挑战
背景概述
AllenAI的PeerRead数据集,是一项集结了科学论文同行评审资料的重要资源,旨在助力研究者深入探究同行评审这一学术交流环节。该数据集收集了超过14,000篇论文草稿以及对应的一流会议如ACL、NIPS和ICLR的接受/拒绝决策,同时还包含了专家针对部分论文撰写的逾10,000份同行评审文本。该数据集的创建可追溯至2018年,由Dongyeop Kang等人主导,是自然语言处理领域内对于学术交流流程理解与优化的关键研究工具。
当前挑战
在数据构建过程中,PeerRead数据集面临的挑战主要包括:如何确保评审数据的全面性与代表性,以及如何处理个人与敏感信息以保护隐私。此外,数据集在解决学术评审领域问题,如提升评审质量和效率的同时,还需克服如何准确反映论文质量与影响、避免评审偏见等挑战。
常用场景
经典使用场景
在文本分类领域,AllenAI的PeerRead数据集以其独特的学术评审文献而备受关注。该数据集的经典使用场景在于,研究者可以利用其提供的评审意见、论文摘要、作者列表等信息,进行深入的文本分析,以实现对学术文章质量、创新性及研究影响的评估。
解决学术问题
该数据集解决了学术研究领域中,如何通过自动化手段评估学术文章质量的问题。它为研究者提供了一个丰富的资源,可以用来训练机器学习模型,从而对文章的接受与否、原创性、清晰度、完整性等方面进行量化分析,对于提高学术评审的效率和公正性具有重要意义。
衍生相关工作
基于PeerRead数据集,研究者们已衍生出一系列相关工作,包括但不限于改进评审模型、分析学术评审中的偏见、以及探索评审过程中的交互模式等,进一步推动了学术评审领域的智能化进程。
以上内容由遇见数据集搜集并总结生成



