dim/openreview_raw_65

Hugging Face2023-08-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/dim/openreview_raw_65

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含论文的相关信息，如论文的URL、ID、arXiv链接、评审信息以及LaTeX内容。评审信息详细记录了评审日期、内容、论坛、ID等多个字段。数据集分为训练集，包含65个样本，总大小为3115419字节。

This dataset contains relevant information of papers, including their URLs, IDs, arXiv links, review information and LaTeX content. The review information includes multiple detailed fields such as review date, content, forum, ID and other related items. The dataset is split into a training set which contains 65 samples with a total size of 3115419 bytes.

提供机构：

dim

原始信息汇总

数据集概述

许可证

MIT许可证

数据集信息

特征

paper_url: 字符串类型
paper_id: 字符串类型
arxiv_link: 字符串类型
reviews: 列表类型，包含以下字段：
- cdate: 64位整数类型
- content: 结构类型，包含以下字段：
  - confidence: 字符串类型
  - nominate_for_a_reproducibility_award: 字符串类型
  - rating: 字符串类型
  - review: 字符串类型
  - reviews_visibility: 字符串类型
  - title: 字符串类型
- ddate: null类型
- forum: 字符串类型
- id: 字符串类型
- invitation: 字符串类型
- mdate: 64位整数类型
- nonreaders: null序列类型
- number: 64位整数类型
- original: null类型
- readers: 字符串序列类型
- replyto: 字符串类型
- signatures: 字符串序列类型
- tcdate: 64位整数类型
- tddate: null类型
- tmdate: 64位整数类型
- writers: 字符串序列类型
latex: 字符串类型

数据分割

train: 包含65个样本，占用3115419字节

数据集大小

下载大小: 1491308字节
数据集大小: 3115419字节

搜集汇总

数据集介绍

构建方式

在学术出版领域，开放同行评议机制正逐步成为提升研究透明度的关键途径。dim/openreview_raw_65数据集通过系统性地采集OpenReview平台上的65篇学术论文及其同行评议记录构建而成。每篇论文均关联了完整的元数据，包括论文URL、arXiv链接以及结构化的评审信息，如评审内容、评分和置信度等。数据构建过程注重原始信息的完整性，确保了评审时间戳、可见性设置及论坛讨论线索的保留，为研究社区提供了一个未经修饰的同行评议原始数据集合。

特点

该数据集的核心特征在于其高度结构化的同行评议数据呈现。每一条记录不仅包含论文的标识信息与LaTeX源码，更深度整合了多维度评审细节，例如评审者的提名建议、评分等级及文本评价。评审数据以嵌套列表形式组织，完整保留了时间演进轨迹与访问权限元数据，使得研究者能够追溯评议过程的动态变化。这种设计使得数据集兼具微观文本分析与宏观模式挖掘的双重潜力，特别适合用于研究评审行为、质量评估及学术交流机制。

使用方法

针对计算语言学与学术信息检索领域的研究需求，该数据集可直接应用于同行评议系统的实证分析。研究者可通过解析论文LaTeX源码与结构化评审字段，训练自动评分预测模型或评审意见生成系统。数据集中的时间戳与可见性字段支持时序分析与隐私机制研究，而完整的元数据链则便于跨平台学术图谱构建。使用时可依据论文ID或评审论坛标识进行数据切片，结合评分与置信度字段实现多维度的质量控制实验。

背景与挑战

背景概述

在人工智能与计算机科学领域，学术论文的同行评审过程是确保研究质量与可信度的关键环节。OpenReview平台作为一个开放的同行评审系统，自2013年由马萨诸塞大学阿默斯特分校的研究团队创立以来，致力于通过透明化评审流程促进学术交流。数据集dim/openreview_raw_65收录了该平台上的原始评审数据，聚焦于自然语言处理与机器学习领域，核心研究问题在于如何利用大规模评审文本支持自动化评审分析、质量评估及学术诚信研究。该数据集为研究者提供了丰富的结构化评审信息，包括评分、评论内容及元数据，对推动智能评审系统、文本挖掘及学术影响力分析具有重要价值，增强了领域内数据驱动的实证研究基础。

当前挑战

该数据集旨在解决学术评审自动化中的核心挑战，即如何从非结构化评审文本中提取有效信息以支持论文质量评估与决策辅助。具体挑战包括：评审文本的语义多样性导致情感分析与关键观点提取困难；评分与评论内容间的不一致性增加了模型训练的复杂性；数据稀疏性与领域特定术语限制了通用自然语言处理技术的直接应用。在构建过程中，挑战主要源于原始数据的异构性，需处理缺失字段、非标准格式及隐私保护问题，同时确保数据清洗与结构化过程的准确性，以维持评审过程的真实性与完整性。

常用场景

经典使用场景

在学术出版与同行评审领域，dim/openreview_raw_65数据集为研究者提供了宝贵的真实评审数据。该数据集收录了来自OpenReview平台的65篇论文及其详细评审记录，包括评分、评论内容、置信度等结构化信息。经典使用场景聚焦于自然语言处理与机器学习领域，特别是针对同行评审过程的自动化分析、评审质量评估以及评审意见生成模型的训练与验证。研究者可借助这些数据深入探索评审行为的模式，构建能够模拟或辅助人工评审的智能系统。

衍生相关工作

围绕该数据集，已衍生出一系列经典研究工作，主要集中在自动化同行评审与学术文本挖掘方向。例如，研究者利用此类数据训练深度学习模型，用于预测论文评分、生成评审意见摘要，或检测评审中的矛盾与偏见。这些工作不仅深化了对评审机制的理解，也催生了如ReviewAdvisor、AREA等开源工具，推动了学术社区在开放科学与人工智能交叉领域的持续探索与创新。

数据集最近研究