Machine-Generated-Reviews-0.1
收藏数据集概述
基本描述
- 数据集名称:Machine Generated Reviews
- 数据集标识:NRC-CNRC/Machine-Generated-Reviews-0.1
- 许可协议:cc-by-sa-4.0
- 主要任务类别:其他、文本生成
- 关联任务ID:语言建模、文本到文本生成
- 语言:英语
- 数据规模:100K < n < 1M
- 标签:文本、文本生成
数据集来源与用途
- 研究背景:该数据集包含用于研究机器生成文本输出句法同质化的机器生成同行评审,具体研究发表于论文《"Emphasizing the Commendable": A Study of Homogenized Transitive Verb Constructions in Machine Generated Peer Reviews》(https://aclanthology.org/2026.lrec-main.649)。
- 对应资源:相关的学术研究论文和官方评审可在OpenReview(https://openreview.net/)上获取。
数据生成方法
-
生成模型:机器生成的同行评审由三个具有不同背景的大型语言模型(LLM)产生。
-
提示词:所有提示词和生成的文本均为英文。使用的提示词模板为:
Your task is to write a review given a paper titled {title} and the paper content is: {paper_content}. Your output should be like the following format: Summary: Strengths And Weaknesses: Summary Of The Review:
其中,
{title}为论文标题,{paper_content}为论文内容(从论文PDF文件中提取的文本)。
数据结构
数据集中的每个条目包含以下字段:
venue:会议/期刊名称year:年份model:用于生成评审的模型名称submission_id:提交IDreview_id:评审文本sha1哈希值的前16字节invitation_id:提交邀请IDreview:使用model生成的机器评审内容
数据统计概览
按模型统计的评审数量
| 模型 | 评审数量 |
|---|---|
| google/gemma-3-4b-it | 41872 |
| gpt-4o-2024-08-06 | 41872 |
| Qwen/Qwen3-4B-Instruct-2507 | 41872 |
按年份统计的评审数量
| 年份 | 评审数量 |
|---|---|
| 2018 | 2727 |
| 2019 | 4125 |
| 2020 | 6354 |
| 2021 | 16050 |
| 2022 | 15987 |
| 2023 | 24402 |
| 2024 | 29247 |
| 2025 | 26724 |
按会议/期刊和年份统计的评审数量
| 会议/期刊 | 年份 | 评审数量 |
|---|---|---|
| EMNLP | 2023 | 5739 |
| ICLR.cc | 2018 | 2727 |
| ICLR.cc | 2019 | 4125 |
| ICLR.cc | 2020 | 6354 |
| ICLR.cc | 2021 | 7341 |
| ICLR.cc | 2022 | 7029 |
| ICLR.cc | 2023 | 9303 |
| ICLR.cc | 2024 | 19266 |
| ICLR.cc | 2025 | 26724 |
| NeurIPS.cc | 2021 | 8253 |
| NeurIPS.cc | 2022 | 8367 |
| NeurIPS.cc | 2023 | 8784 |
| NeurIPS.cc | 2024 | 9216 |
| robot-learning.org/CoRL | 2021 | 456 |
| robot-learning.org/CoRL | 2022 | 591 |
| robot-learning.org/CoRL | 2023 | 576 |
| robot-learning.org/CoRL | 2024 | 765 |
数据访问与使用
-
数据集加载:可通过Hugging Face
datasets库加载。 python from datasets import load_dataset dataset = load_dataset("NRC-CNRC/Machine-Generated-Reviews-0.1") -
数据分割:数据集包含一个训练集(
train),共有125,616条样本。 -
关联人类评审:可通过将条目中的
{submission_id}代入URL模板https://openreview.net/forum?id={submission_id}来访问对应的人类评审。
引用信息
若使用本数据集,请引用以下论文:
@inproceedings{ fung-etal-2026-emphazing, title = { "Emphasizing the Commendable": A Study of Homogenized Transitive Verb Constructions in Machine Generated Peer Reviews }, author = "Fung, Hing-Yuet and Larkin, Samuel and Lo, Chi-kiu", booktitle = "Proceedings of the Fifteenth Language Resources and Evaluation Conference", month = may, year = "2026", address = "Palma de Mallorca, Spain", publisher = "European Language Resources Association" }
论文链接:https://aclanthology.org/2026.lrec-main.649




