test1

Hugging Face2026-01-19 更新2026-01-20 收录

下载链接：

https://huggingface.co/datasets/shiweichn/test1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含2023年至2025年国际学习表征会议（ICLR）的论文提交和评审数据，数据来源于开放同行评审平台OpenReview。数据集重点关注学术论文的同行评审生态系统，每条记录包括完整的评审相关信息，如评审讨论、元评审、作者回复和社区反馈。此外，数据集还包含完整的论文文本（Markdown格式）和评审元数据（如页面统计、目录和文档结构分析）。评审数据涵盖了完整的同行评审流程，包括初始提交评审、作者反驳和回复轮次、区域主席的元评审、最终决定通知（接受/拒绝）以及发布后的讨论和社区评论。该数据集特别适用于评审质量分析、决策预测、评审生成、偏见检测和科学话语分析等研究。

This dataset contains paper submission and review data for the International Conference on Learning Representations (ICLR) from 2023 to 2025, sourced from the open peer review platform OpenReview. It focuses on the peer review ecosystem of academic papers, with each record containing complete peer review-related information such as review discussions, meta-reviews, author responses, and community feedback. Additionally, the dataset includes full paper texts in Markdown format and review metadata (e.g., page statistics, table of contents, and document structure analysis). The review data covers the entire peer review workflow, including initial submission reviews, author rebuttal and response rounds, meta-reviews by Area Chairs, final decision notifications (accept/reject), as well as post-publication discussions and community comments. This dataset is particularly applicable to research such as review quality analysis, decision prediction, review generation, bias detection, and scientific discourse analysis.

创建时间：

2026-01-16

原始信息汇总

ICLR Papers with Reviews (2023-2025) 数据集概述

数据集基本信息

数据集名称：ICLR Papers with Reviews (2023-2025)
创建者：机器生成
语言：英语
语言来源：发现
多语言性：单语
大小类别：10K<n<100K
来源数据集：原始
任务类别：文本分类、文本生成、问答、摘要
标签：学术论文、同行评审、机器学习、iclr、openreview

数据集描述

该数据集包含2023、2024和2025年国际学习表征会议（ICLR）的论文投稿和评审数据。数据来源于开放同行评审平台OpenReview。

数据重点

数据集强调围绕学术论文的同行评审生态系统。每条记录包含全面的评审相关信息：

相关笔记：包含来自OpenReview平台的评审讨论、元评审、作者回复和社区反馈。
完整论文内容：Markdown格式的完整论文文本。
评审元数据：包括页面统计、目录和文档结构分析的结构化元数据。

评审数据捕获了完整的同行评审工作流程：

来自多位评审人的初始投稿评审。
作者反驳和回复轮次。
领域主席的元评审。
最终决定通知（接受/拒绝）。
发表后的讨论和社区评论。

数据集统计

论文总数：8,310
覆盖年份：2023-2025
数据来源：OpenReview平台
会议：国际学习表征会议（ICLR）
内容：完整论文文本 + 完整的评审讨论

数据集结构

数据实例

每个实例代表一篇论文及其相关的评审数据。 json { "id": "RUzSobdYy0V", "title": "Quantifying and Mitigating the Impact of Label Errors on Model Disparity Metrics", "authors": "Julius Adebayo, Melissa Hall, Bowen Yu, Bobbie Chern", "abstract": "Errors in labels obtained via human annotation adversely affect...", "year": "2023", "conference": "ICLR", "related_notes": "[Review discussions, meta-reviews, and author responses]", "pdf_url": "https://openreview.net/pdf?id=RUzSobdYy0V", "source_url": "https://openreview.net/forum?id=RUzSobdYy0V", "content": "[Full paper text in Markdown format]", "content_meta": "[JSON metadata with TOC and page statistics]" }

数据字段

字段	类型	描述
`id`	字符串	唯一的OpenReview论文ID
`title`	字符串	论文标题
`authors`	字符串	作者姓名（逗号分隔）
`abstract`	字符串	论文摘要
`year`	字符串	发表年份（2023-2025）
`conference`	字符串	会议名称（ICLR）
`related_notes`	字符串	评审数据 - 包含评审、元评审、讨论
`pdf_url`	字符串	OpenReview上PDF的链接
`source_url`	字符串	OpenReview上论文论坛的链接
`content`	字符串	Markdown格式的完整论文内容
`content_meta`	字符串	JSON元数据（目录、页面统计、结构）

评审数据结构

related_notes字段包含来自OpenReview的完整评审历史，包括：

主要评审：每篇论文来自3-4位评审人的详细评审。
评审人评分：数值分数和置信度。
作者回复：作者的反驳和澄清。
元评审：领域主席的总结和建议。
最终决定：接受/拒绝决定及理由。
决定后讨论：社区评论和反馈。

数据划分

数据集没有预定义的划分。用户应根据其特定用例创建自己的训练/验证/测试划分。

数据集创建

策划理由

创建此数据集是为了促进对机器学习会议同行评审过程的理解和改进研究。通过将完整论文内容与完整的评审讨论相结合，研究人员可以：

分析论文特征与评审结果之间的关系。
研究建设性评审中的语言和模式。
构建协助评审人或作者的系统。
调查同行评审的公平性和偏见。

源数据

数据收集自OpenReview平台，该平台以开放格式托管ICLR评审过程。所有评审、讨论和决定均在OpenReview网站上公开可用。

数据处理

论文内容提取：从PDF源将完整论文转换为Markdown格式。
评审聚合：从OpenReview论坛提取评审讨论。
质量过滤：删除缺少基本字段（ID、内容或相关笔记）的记录。
元数据提取：从论文中提取结构元数据（目录、页面统计）。

使用注意事项

数据集的社会影响

该数据集提供了对通常不透明的同行评审过程的透明度。通过公开评审和讨论，它能够：

分析评审质量和一致性。
识别评估中的潜在偏见。
开发辅助评审过程的工具。
提供理解同行评审的教育资源。

偏见讨论

数据集可能包含多种偏见：

评审人偏见：不同的评审人可能有不同的标准和倾向。
会议特定规范：ICLR评审规范可能与其他场所不同。
时间变化：评审标准可能在2023-2025年间发生变化。
选择偏见：此数据集中的论文代表ICLR投稿，可能无法推广到所有机器学习研究。

其他已知限制

评审人身份被匿名化以保护隐私。
部分论文可能具有不完整的评审历史（例如，撤回的投稿）。
related_notes字段包含非结构化文本，可能需要进行解析以进行特定分析。

附加信息

数据集策划者

该数据集从公开可用的OpenReview数据编译而成。

许可信息

数据集中的论文和评审受OpenReview平台及各自作者的版权和使用条款约束。

引用信息

bibtex @dataset{iclr_papers_with_reviews, title = {ICLR Papers with Reviews (2023-2025)}, author = {Dataset Curator}, year = {2025}, note = {Compiled from OpenReview platform data} }

贡献

该数据集是通过从OpenReview平台提取和聚合公开可用数据而创建的，用于研究目的。

搜集汇总

数据集介绍

构建方式

在机器学习学术会议日益开放的背景下，该数据集聚焦于国际学习表征会议（ICLR）的同行评审生态。其构建过程系统性地从OpenReview公开平台采集了2023年至2025年间的论文提交与评审数据。通过自动化流程，将PDF格式的全文转换为Markdown文本，并整合了包括初始评审、作者回应、元评审及最终决议在内的完整评审讨论记录。为确保数据质量，剔除了关键字段缺失的条目，并提取了论文结构元数据，最终形成涵盖8,310篇论文的规范化集合，为深入分析评审过程提供了结构化基础。

特点

该数据集的核心特征在于其深度融合了学术论文内容与完整的同行评审轨迹。每一条记录不仅包含论文的标题、摘要及全文Markdown文本，还详尽收录了多轮评审讨论、作者反驳、领域主席的元评审以及社区反馈，完整呈现了从投稿到决议的整个决策链条。这种设计使得研究者能够考察论文质量与评审结果之间的关联，同时为评审质量分析、决策预测模型构建以及科学话语模式研究提供了多维度、高透明度的数据支持，尤其适用于探索机器学习领域评审行为的动态与规律。

使用方法

使用该数据集时，研究者可通过加载JSONL格式文件直接访问论文与评审信息。典型应用包括利用全文内容与相关笔记字段进行文本分类、生成或问答任务，例如训练模型预测论文录用结果或自动生成评审意见。由于数据集未预设划分，用户需根据具体研究目标自行划分训练、验证与测试集，例如按年份或主题进行分层抽样。在分析过程中，应注意评审文本的主观性及会议特定规范可能带来的偏差，并依据内容元数据中的结构信息进行更精细的篇章级探究。

背景与挑战

背景概述

在机器学习学术领域，同行评审机制是保障研究质量与推动科学进步的核心环节，但其内部运作往往缺乏透明度与系统性分析。ICLR Papers with Reviews数据集应运而生，由研究者于2025年基于OpenReview开放平台构建，汇集了2023至2025年间国际学习表征会议（ICLR）的论文提交与完整评审数据。该数据集由机器自动生成，涵盖8310篇论文及其多轮评审讨论、元评审、作者回应与最终决策记录，旨在为理解与改进学术评审流程提供实证基础。通过整合全文内容与评审生态，它支持对评审质量、决策预测及科学话语形成机制的深入研究，显著增强了机器学习社区对同行评审系统的可解释性与研究能力。

当前挑战

该数据集致力于应对学术同行评审中的关键挑战：如何系统评估评审质量的一致性、预测论文录用决策，以及检测评审过程中潜在的偏见问题。构建过程中面临多重困难，包括从OpenReview平台提取并整合非结构化的评审讨论文本，需设计方法以解析复杂的交互记录；同时需在保护评审者隐私的前提下进行数据匿名化处理，并确保论文内容从PDF至Markdown格式转换的准确性与完整性。此外，数据涵盖时间跨度内评审标准可能发生演变，且仅限ICLR会议提交，存在领域特定规范与选择偏差，这要求在使用时审慎考虑其普遍性与时效性局限。

常用场景

经典使用场景

在机器学习学术出版领域，该数据集为研究同行评审机制提供了宝贵的实证基础。其最经典的使用场景在于构建自动化评审分析系统，通过整合论文全文与完整的评审讨论记录，研究者能够训练模型识别评审意见中的关键要素，例如技术贡献评估、实验设计评价以及写作质量反馈。这种应用不仅揭示了评审过程中的语言模式，还为开发辅助评审工具提供了数据支撑，使得学术社区能够更系统地理解评审行为的共性与差异。

衍生相关工作

基于该数据集衍生的经典研究呈现出多维度拓展态势。在评审生成领域，研究者构建了能够自动生成结构化评审意见的神经网络模型。决策预测方向催生了融合文本特征与社交网络分析的混合预测框架。公平性研究则通过该数据集检测评审过程中的潜在偏见，提出了去偏差的评审辅助算法。这些工作不仅深化了对学术评审机制的理解，更推动了人工智能与科学社会学交叉领域的方法论创新，形成了持续演进的研究脉络。

数据集最近研究